Large World Model - OpenSource MMLLM z kontekstem 1 milion tokenów!

★Osobistość

w e/acc 2024-02-18T01:04:14+01:00

Dopiero co Google zaprezentowało #gemini 1.5 z kontekstem 1-10 milionów tokenów, a chwilę przed tym opublikowany został multi-modalny duży model językowy z kontekstem również na poziomie miliona tokenów!

#ai #sztucznainteligencja #opensource #technologia #nauka #ciekawostki #openai #google

GitHub

Komentarze (2)

Amebcio

★

2024-02-18T16:25:05+01:00

Jaki znowu MLM?

Tak poważnie, to ta terminologia nic mi nie mówi. Raczej napisz jak to wypada w porównaniu z chat GPT itp.

NrmvY 2024-02-18T16:32:06+01:00

@Amebcio po polsku byłoby to to co w opisie czyli multi-modalny duży model językowy.

W porównaniu do GPT - GPT4 potrafi rozpoznawać obrazy i różne dokumenty tekstowe, nie rozumie jednak audio ani wideo.

W gemini 1.5 będziesz mógł umieścić klip wideo, do tego kilka zdjęć, jakiś plik z muzyką i kazać mu aby podpowiedział jak zmontować film ze zdjęciami i audio żeby było to zabawne.

Celem jest to aby mieć jeden model uniwersalny, to znaczy taki który na wejście może przyjąć różnego typu media jak tekst, audio, obrazy i móc je interpretować bez odwoływania się do osobnych dedykowanych modeli i systemów, oraz aby w ten sam sposób mógł tworzyć treści.

To pozwoli na tekstowe komendy w stylu: masz tutaj moje zdjęcie rodzinne ze świąt, tutaj masz drugie zdjęcie plaży. Połącz oba zdjęcia tak żeby moja rodzina stała na plaży w zabawnych świątecznych ubraniach.

Zaloguj się aby komentować