Podobno LLM'y maja problem bo najlepsze wychodza trenowane na ludzkich wytworach dobrej jakosci, ksiazki, podreczniki - ErwinoRommelo

★Fanatyk

w Hydepark 2025-03-04T19:02:16+01:00

Podobno LLM'y maja problem bo najlepsze wychodza trenowane na ludzkich wytworach dobrej jakosci, ksiazki, podreczniki itp. No ale jak ma byc serio duzy to trzeba go puscic na wieksze pastwisko, internety. Tutaj problem bo w necie jest wszystko. W pewnym momencie chyba ci od microsoftu mieli problem ze ich model wstawial duzo liter mmmmmmmmm, oni ; WTF? Wyszlo ze na, ha tfu, normickim reedicie jest tag microweavegang gdzie wstawiaja tylko posty mmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm ( dzwiek mikrofali) a na koniec ktos pisze BEEP. Wiec zeby byly te modele dobre to trzeba odfiltrowac pewna czesc danych. No tak sobie mysle ze te moje nieskalane ortografia wysrywy tutaj to jest normalnie poczatek ruchu oporu w nadchodzacej wojnie ludzkosci z Wintermute ( pzdr dla kumatych) .

P.S. I co tam lamusy modelek wessal Erwinka i teraz pisze wiersze o ruchaniu owiec ?? XDD do kasacji z nim.

#gownowpis #llm #przemyslenia #tagowanietomojapasja

Komentarze (12)

AdelbertVonBimberstein 2025-03-04T19:05:29+01:00

@ErwinoRommelo mmmmmmm stupki

ErwinoRommelo

★

2025-03-04T19:07:12+01:00

@AdelbertVonBimberstein ( ͡ʘ ͜ʖ ͡ʘ) 100pki stupencje stupunie

jimmy_gonzale 2025-03-04T19:07:32+01:00

dobrej jakosci, ksiazki, podreczniki

Tych nie ma w internecie?

AdelbertVonBimberstein 2025-03-04T19:08:33+01:00

@jimmy_gonzale nie ma. Większość wartościowej wiedzy ludzkości nadal jest tylko w bibliotekach.

jimmy_gonzale 2025-03-04T19:09:53+01:00

@AdelbertVonBimberstein to biblioteki nie da się zeskanować? Wiele już przypadkiem nie jest?

Zdjęcia zapiskow na kamiennych tabliczkach z przed 6 tys lat też są:)

aerthevist 2025-03-04T19:11:11+01:00

@jimmy_gonzale jakiś czas temu przyłapałem ChataGPT na korzystaniu z pirackich podręczników do D&D

ErwinoRommelo

★

2025-03-04T19:13:07+01:00

@jimmy_gonzale jest ale ilosciowo nie jest tego az tak duzo, sa firmy co zbieraja po prostu tekst ze stron internetowych, kazdy pakiet takich danych to niesamowite ilosci, setki terabaitow samego tekstu.

ErwinoRommelo

★

2025-03-04T19:13:33+01:00

@aerthevist chyba meta mieli afere ze kradli ksiazki na torentach XD

moll 2025-03-04T19:14:00+01:00

@jimmy_gonzale da się, ale obraz trzeba umieć odczytać (i skanowanie to koszt, tak jak utrzymanie potem obrazu w sieci). Część skanów bibliotecznych ma nałożony kanał alfa z tekstem, ale to też często ocr kiepskiej jakości

jimmy_gonzale 2025-03-04T19:17:49+01:00

@moll no to chcecie jakości czy ilości. I czemu nie mogą być oba.

moll 2025-03-04T19:18:41+01:00

@jimmy_gonzale ja tam nie wiem czego chcecie xD to raczej kwestia kasy i praw autorskich, czyli w sumie też kasy...

Iknifeburncat 2025-03-04T21:34:11+01:00

@ErwinoRommelo to nie jest podobno, to dosłownie tak jest. Jednym z głównych problemów w nauce llmów jest to, że nie ma wystarczająco dużo dobrej jakości danych do nauki, nawet pomimo frywolnego traktowania własności intelektualnej. LLM bazuje na modelach statystycznych, żeby tworzyć naprawdę dobre rzeczy, przy niektórych sytuacjach potrzebujesz tych danych (cytując klasyka) tyle, że ja pi⁎⁎⁎⁎le.

Zaloguj się aby komentować