Pytanie może głupie może mądre ale ktoś mógłby wytłumaczyć pobieżnie w jaki sposób są zbudowane modele AI które cały czas się uczą? Bo jak uczymy model to parkujemy w niego mnóstwo jakiś danych wejściowych i po jakimś tam czasie mamy jakiś tam model który sobie zapisujemy i możemy przenieść na inny komputer. Czy teraz taki gotowy model możemy dalej uczuć czy trzeba wszystko zaczynać od początku?
Pytanie może głupie może mądre ale ktoś mógłby wytłumaczyć pobieżnie w jaki sposób są zbudowane modele AI które cały czas się uczą? Bo jak uczymy model to parkujemy w niego mnóstwo jakiś danych wejściowych i po jakimś tam czasie mamy jakiś tam model który sobie zapisujemy i możemy przenieść na inny komputer. Czy teraz taki gotowy model możemy dalej uczuć czy trzeba wszystko zaczynać od początku?
Komentarze (10)
Czy teraz taki gotowy model możemy dalej uczuć czy trzeba wszystko zaczynać od początku?
@Kasjo Z reguły tak, ale jeśli model zostanie "przeuczony" to wyniki będą nieraz gorsze niż to, od czego zacząłeś. Pojawia się zjawisko "overfittingu", który wiąże się z tym, ze model zbytnio dostraja się do danych wejściowych, i słabiej generalizuje się na zbiór danych inny niż dane treningowe. Może się tak dziać np. przez uznanie szczegółu nieistotnego za istotny, przykład: przypadkiem zauważa, że wszystkie samochody marki Opel w danych wejściowych były zielone, więc pojawia się powiązanie zielony kolor -> Opel, i widząc zielony samochód będzie się mylił w kierunku tej marki.
Nie wiem jak jest w modelach teskstowych, bo dawno tego nie ruszałem, ale np. w przetwarzaniu obrazów, często rozprowadzane były "pod-uczone", które miały już wykształcone rozpoznawanie pewnych komponentów, a na nich budowało się bardziej rozbudowane modele.
@LondoMollari więc np jak uczymy od początku to dobrze mieć zbiór danych dobrych i złych mniej więcej po połowie i dobrze by było żeby nowe dane też miały takie proporcje bo model dostosuje się do nowych danych i "zapomni" co poprzednio się "nauczyl"? Więc trzeba by na bieżąco jeszcze weryfikować co za dane dostaje model
@LondoMollari w tekstowych tak samo. Tutaj pojawiają się halucynacje:)
Tutaj pojawiają się halucynacje:)
@SzwagierPrezydenta Z niedożywienia. ( ͡° ͜ʖ ͡°)
Tekstowe, zwłaszcza te uczone na kontencie w internetach mają problem z tym, że uczą się na podstawie treści już wygenerowanych przez AI, co bardzo eroduje ich jakość.
@cododiaska Yup. Teoria martwego internetu na naszych oczach staje się prawdą.
https://www.forbes.com/sites/danidiplacido/2024/01/16/the-dead-internet-theory-explained/
Nie znam się więc się wypowiem:
Transfer learning - wykorzystujesz część poprzedniego modelu żeby wytrenować następny (dokładnie nie wiem jak to działa)
Fine tuning - dopasowywanie modelu do konkretnych zadań. Np widzisz że przy jakimś poszczególnym zdjęciu kota nie rozpoznaje go. Tak długo łądujesz mu to zdjęcię aż się nauczy. Takie podejście może sprawiać problemy w przyszłości, bo model nauczy się zdjęcia zamiast wzorca
W przypadku nowych architektur modele chyba uczy się od 0 ze wsparciem istniejących modeli. Podobno stąd w openai tak szybko stworzono O3.
@Kasjo modele się nie uczą na bieżąco. Trzeba wykonać finetuning lub stworzyć coś co nazywa się lora. Oba wymagają mocy obliczeniowej żeby jakąś wiedzę na stałe wcisnąć do modelu.
A model który przenosisz na inny komputer, o ile masz kod który służył do treningu(i dane) to możesz spokojnie kontynuować trenowanie.
@Kasjo jak znasz angielski to wpisz to w youtube jest świetna seria filmików na której chlop uczy ai pokonywać przeszkody i odpowiada to na twoje pytanie w obszerne chodź przystępnej formie
@Kasjo Nie wiem to się wypowiem!
Czytałem ostatnio jakiś artykuł i Andrzej Dragan też chyba o tym wspominał, że nie mamy zielonego pojęcia jak dokładnie uczy się AI. Wiemy, że to robi, wiemy jak do tego doprowadzić, ale nie mamy pojęcia jak finalnie "się uczy". Sam efekt "uczenia się" to nie jest coś co wynaleźliśmy my - ludzie - tylko coś co odkryliśmy, dlatego też nie wiemy jak to działa. Coś jak teoria kwantowa i zachowanie fotonu "obserwowanego" takiego którego "nie obserwujemy". Wiemy że coś się dzieje, mamy na to dowody eksperymentalne ale nie mamy pojęcia dlaczego tak się dzieje.
Na dodatek szybkość nauki AI jest niebotyczna, więc za 2-3 lata uruchomi się SKYNET xD
Zaloguj się aby komentować