Komentarze (2)

Amebcio

Jaki znowu MLM?


Tak poważnie, to ta terminologia nic mi nie mówi. Raczej napisz jak to wypada w porównaniu z chat GPT itp.

NrmvY

@Amebcio po polsku byłoby to to co w opisie czyli multi-modalny duży model językowy.


W porównaniu do GPT - GPT4 potrafi rozpoznawać obrazy i różne dokumenty tekstowe, nie rozumie jednak audio ani wideo.

W gemini 1.5 będziesz mógł umieścić klip wideo, do tego kilka zdjęć, jakiś plik z muzyką i kazać mu aby podpowiedział jak zmontować film ze zdjęciami i audio żeby było to zabawne.


Celem jest to aby mieć jeden model uniwersalny, to znaczy taki który na wejście może przyjąć różnego typu media jak tekst, audio, obrazy i móc je interpretować bez odwoływania się do osobnych dedykowanych modeli i systemów, oraz aby w ten sam sposób mógł tworzyć treści.


To pozwoli na tekstowe komendy w stylu: masz tutaj moje zdjęcie rodzinne ze świąt, tutaj masz drugie zdjęcie plaży. Połącz oba zdjęcia tak żeby moja rodzina stała na plaży w zabawnych świątecznych ubraniach.

Zaloguj się aby komentować