Large World Model - OpenSource MMLLM z kontekstem 1 milion tokenów!
GitHub#ai #sztucznainteligencja #opensource #technologia #nauka #ciekawostki #openai #google
Jaki znowu MLM?
Tak poważnie, to ta terminologia nic mi nie mówi. Raczej napisz jak to wypada w porównaniu z chat GPT itp.
@Amebcio po polsku byłoby to to co w opisie czyli multi-modalny duży model językowy.
W porównaniu do GPT - GPT4 potrafi rozpoznawać obrazy i różne dokumenty tekstowe, nie rozumie jednak audio ani wideo.
W gemini 1.5 będziesz mógł umieścić klip wideo, do tego kilka zdjęć, jakiś plik z muzyką i kazać mu aby podpowiedział jak zmontować film ze zdjęciami i audio żeby było to zabawne.
Celem jest to aby mieć jeden model uniwersalny, to znaczy taki który na wejście może przyjąć różnego typu media jak tekst, audio, obrazy i móc je interpretować bez odwoływania się do osobnych dedykowanych modeli i systemów, oraz aby w ten sam sposób mógł tworzyć treści.
To pozwoli na tekstowe komendy w stylu: masz tutaj moje zdjęcie rodzinne ze świąt, tutaj masz drugie zdjęcie plaży. Połącz oba zdjęcia tak żeby moja rodzina stała na plaży w zabawnych świątecznych ubraniach.
Zaloguj się aby komentować