Podobno LLM'y maja problem bo najlepsze wychodza trenowane na ludzkich wytworach dobrej jakosci, ksiazki, podreczniki itp. No ale jak ma byc serio duzy to trzeba go puscic na wieksze pastwisko, internety. Tutaj problem bo w necie jest wszystko. W pewnym momencie chyba ci od microsoftu mieli problem ze ich model wstawial duzo liter mmmmmmmmm, oni ; WTF? Wyszlo ze na, ha tfu, normickim reedicie jest tag microweavegang gdzie wstawiaja tylko posty mmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm ( dzwiek mikrofali) a na koniec ktos pisze BEEP. Wiec zeby byly te modele dobre to trzeba odfiltrowac pewna czesc danych. No tak sobie mysle ze te moje nieskalane ortografia wysrywy tutaj to jest normalnie poczatek ruchu oporu w nadchodzacej wojnie ludzkosci z Wintermute ( pzdr dla kumatych) .

P.S. I co tam lamusy modelek wessal Erwinka i teraz pisze wiersze o ruchaniu owiec ?? XDD do kasacji z nim.

#gownowpis #llm #przemyslenia #tagowanietomojapasja
ErwinoRommelo userbar
12

Komentarze (12)

ErwinoRommelo

@AdelbertVonBimberstein ( ͡ʘ ͜ʖ ͡ʘ) 100pki stupencje stupunie

jimmy_gonzale

dobrej jakosci, ksiazki, podreczniki

Tych nie ma w internecie?

AdelbertVonBimberstein

@jimmy_gonzale nie ma. Większość wartościowej wiedzy ludzkości nadal jest tylko w bibliotekach.

jimmy_gonzale

@AdelbertVonBimberstein to biblioteki nie da się zeskanować? Wiele już przypadkiem nie jest?

Zdjęcia zapiskow na kamiennych tabliczkach z przed 6 tys lat też są:)

aerthevist

@jimmy_gonzale jakiś czas temu przyłapałem ChataGPT na korzystaniu z pirackich podręczników do D&D

ErwinoRommelo

@jimmy_gonzale jest ale ilosciowo nie jest tego az tak duzo, sa firmy co zbieraja po prostu tekst ze stron internetowych, kazdy pakiet takich danych to niesamowite ilosci, setki terabaitow samego tekstu.

ErwinoRommelo

@aerthevist chyba meta mieli afere ze kradli ksiazki na torentach XD

moll

@jimmy_gonzale da się, ale obraz trzeba umieć odczytać (i skanowanie to koszt, tak jak utrzymanie potem obrazu w sieci). Część skanów bibliotecznych ma nałożony kanał alfa z tekstem, ale to też często ocr kiepskiej jakości

jimmy_gonzale

@moll no to chcecie jakości czy ilości. I czemu nie mogą być oba.

moll

@jimmy_gonzale ja tam nie wiem czego chcecie xD to raczej kwestia kasy i praw autorskich, czyli w sumie też kasy...

Iknifeburncat

@ErwinoRommelo to nie jest podobno, to dosłownie tak jest. Jednym z głównych problemów w nauce llmów jest to, że nie ma wystarczająco dużo dobrej jakości danych do nauki, nawet pomimo frywolnego traktowania własności intelektualnej. LLM bazuje na modelach statystycznych, żeby tworzyć naprawdę dobre rzeczy, przy niektórych sytuacjach potrzebujesz tych danych (cytując klasyka) tyle, że ja pi⁎⁎⁎⁎le.

Zaloguj się aby komentować