https://twitter.com/gdb/status/1790869434174746805
Możliwości generatora obrazów GPT-4o. Możliwości generowania tekstu wyglądają lepiej niż w prezentowanym niedawno SD-3.
Widać ciekawe niuanse jak fakt, że słowo "What" zasłonięte dłonią ma odpowiedni odstęp do dalszej części zdania.
GPT-4o jest prawdopodobnie modelem mniejszym, a mimo tego jest na zbliżonym poziomie do GPT-4. Czy może być tak, że dodanie wielomodalności poprawia każdą z nich osobno? To znaczy, stworzenie modelu który natywnie interpretuje obrazy, audio, tekst - poprawia jakość każdego z tych elementów w porównaniu do osobnego modelu z tylko jedną modalnością?
Nie wiem bo się nie znam na AI, zapraszam ekspertów do wyrażenia swojego zdania.
#sztucznainteligencja #openai #chatgpt #nauka #technologia #ai #si #stablediffusion #eacc #ciekawostki