Krótkie podsumowanie Google i/o 2024 i wyjaśnienie, dlaczego mnie złościło i dlaczego uważam, że było ogromnym rozczarowaniem.
TwitterTo nie przypadek, że OpenAI dzień wcześniej zdecydowało się opublikować 30-minutowe ogłoszenie na temat GPT4-o. Było to wyraźne wyzwanie dla Google, ujawnienie się. W żadnym wypadku nie jestem uproszczonym OpenAI. Wierzę jednak, że obecnie są najlepsi w badaniach i rozwoju sztucznej inteligencji. I wczorajsza prezentacja wpisuje się w to. 30 minut. Tyle czasu zajęło im zaprezentowanie na żywo (!) nowej funkcji audio GPT-4o na scenie. I jestem głęboko przekonany, że to naprawdę było na żywo. Ponieważ pojawiały się liczne błędy, a czasem głos się łamał. Wszystko wydawało się dość „beta”, ale nie umniejszało to prezentacji. Zrozumieliśmy, co przyniesie przyszłość. Zrozumiałeś, dokąd zmierza ta podróż i było to jasne spojrzenie w bardzo niedaleką przyszłość. 30 minut po wydarzeniu OpenAI wielu użytkowników, w tym ja, miało już dostęp do GPT-4-o (NIE „później w tym roku”). Nie nowa funkcja językowa, ale znacznie lepszy GPT-4o (przy czym mówiono, że wszystkie inne funkcje pojawią się za kilka tygodni). Jednak liczne inne funkcjonalności były dość bezpretensjonalne. Zostały one zaprezentowane mimochodem na stronie głównej (!). Nie powiedziano ani słowa o tym, że GPT-4-o umożliwia teraz generowanie obrazu w samym modelu. Ani słowa o tym, że można tworzyć animacje 3D. Nie było to warte wspomnienia, a pokazało imponująco, co jest ważne w OpenAI. 30 minut dla „Niej”, a dla całej reszty wpis na blogu. To skromność.
A teraz dzień później, dla kontrastu, Google i/o 2024. Ani słowa o skromności. O ile OpenAI nie wstydziło się błędów błędów „Jej”, o tyle fakt, że Gemini 1.5 Pro teraz o dostępie o 2 milionach, z których usłyszano 20 razy. Gdynia? nastąpi czas później w tym roku. Zaprezentowano także asystenta głosowego na wzór OpenAI. wydarzenie z tej okazji, które odbyło się legendarny Demis Hassabis – o ile wiem, po raz pierwszy. Udało nam się zobaczyć? Nie prezentacja na żywo, ale wideo ze scenariuszem. Bardzo przypomina poprzedni film, kiedy Gemini-Ultra przypisywano funkcjonalność Vision na żywo, ale tylko się to prostem oszustwem („oszukaj mnie raz, wstydź się; oszukaj mnie dwa razy, wstydź się”). Tutaj także nie można uruchomić się posmaku, że mamy coś, co nie jest jeszcze gotowe. Każdy, kto w to wątpi, powinien poważnie zadać sobie pytanie, dlaczego nie było prezentacji na żywo. Zapewnim: gdyby było dobre, to by zaprezentowali, dokładnie po to, aby zapewnić upokorzenia OpenAI.
To, co już mnie denerwuje, to to, że Demis Hassabis, jeden z najmądrzejszych badaczy na świecie, który przeszedł do historii z AlphaGo, został przywieziony jako maskotka reklamowa tylko po to, by nadać całości pewną autentyczność, nie będąc w stanie niczego pokazać. Dwa słowa o Gemini Flash, który jest bardzo tani, ale jest prezentowany bez benchmarku. Jeśli nie pokazano żadnych liczb, nieobecność mówi wiele. Zapowiedź niepowodzenia Gemmy jest tutaj zapowiedziana. Na koniec krótki filmik z „Vio”, który szczerze mówiąc wygląda na mocno rozpikselowany. Przykro mi, ale każdy, kto myśli, że to ta sama liga co Sora, jest w wielkim błędzie. To z pewnością imponująca technologia, nie ma co do tego wątpliwości. Ale w porównaniu do Sory jest rozmazany, rozmyty i też tak wycięty, że widać prawie tylko jasne kolory i tylko krótki wycinek z prawdziwymi obrazami. Jeśli porównasz to z mocnymi filmami Sory, takimi jak tłumy ludzi, tekstury w wysokiej rozdzielczości i odbicia w wodzie, to po prostu nie jest to ta sama liga.
I tyle. To było wszystko. I właśnie to mam na myśli.
Wszystko, co przyszło potem, to Google z 2010 roku. Bo bądźmy szczerzy: rozpoczęcie konferencji programistów ze Zdjęciami Google i zaprezentowanie najpierw, że można je teraz wyszukiwać za pomocą AI, mówi wiele (jako duży początek!). Wyszukiwanie zostało trochę ulepszone, również przestrzenie robocze i reklamowano wiele funkcji, które istniały już od dawna. I tak, nadal uważam za zawstydzające, że tak historyczna firma jak Google marnuje 5 minut na pokazywanie, jak znaleźć zajęcia z jogi za pomocą sztucznej inteligencji i map Google. To się nie przyjmie i nie ma to żadnego znaczenia. W porównaniu z tym, co zapewnia AlphaFold 3, jest to trywialne i głupie. Ponieważ TO jest prawdziwa sztuczna inteligencja, po to właśnie potrzebujemy sztucznej inteligencji i to jest przyszłość! Google i/o to konferencja programistów, a nie wydarzenie marketingowe dotyczące niepotrzebnych produktów („Spójrz na tego nowego, błyszczącego Pixela 8a!” Cringe af). Przynajmniej tak byś pomyślał, gdybyś miał choć odrobinę szacunku dla twórców (jeśli przyjrzałeś się tłumowi, z pewnością nie byli entuzjastycznie nastawieni). Podobnie było z przepisami na smoothie i spacerami z psami (oczywiście wszyscy z pomocą sztucznej inteligencji). Niepotrzebne i popadną w nieistotność, bez znaczenia i niepraktyczne.
I to jest właśnie sedno sprawy. Google znajduje się pod znaczną presją. Od lat 90. XX w. Google wypracował sobie monopol i dominuje w wyszukiwarkach internetowych. Mają najwięcej mocy obliczeniowej i najlepsze chipy AI (TPU) na świecie. Kupują najbystrzejsze umysły (Demis Hassabis i DeepMind) i marnują wszystkie zasoby na takie bzdury. Kompletnie nie udało im się nadrobić zaległości i wykorzystać swojej szansy.
Żadnego Gemini Ultra 2, żadnego Gemini Pro 2, żadnej nowej architektury. Brak odpowiedniego rozwoju. Nic. Zamiast tego produkty gorsze od konkurencji lub pozbawione sensu. Wręcz przeciwnie: wielokrotnie podkreślali, że Gemin 1.5 Pro będzie miał kontekst o długości 1 miliona. Coś, o czym wszyscy wiedzą od miesięcy. Po prostu nie mieli nic innego, czym mogliby przeciwstawić się OpenAI.
Plus głupie przerywniki pokazowe, które nie są godne konferencji deweloperów. Płacz, jak mówią dzisiejsze dzieci.
Jestem pewien, że Sundar Pichai nie pozostanie dłużej dyrektorem generalnym. Z tego, co słyszymy wewnętrznie, pomiędzy obozami toczą się bardzo zacięte walki. Obecnie inżynierowie AI są powstrzymywani przez etyków. To wyraźnie widać. Google powinien był dostarczyć dzisiaj. Kiedyś byli awangardą open source. Przekazali to już Meta. OpenSource nazywa się teraz Llama. Pozostaje masa obliczeń. I byłoby to lepiej oddane konkurencji. Bardziej zależy mi na Mistral, Anthropic i tym podobnych, zamiast na Google.
Jedna rzecz szczególnie zapada w pamięć. Nie tylko dlatego, że ledwo byli w stanie cokolwiek zaprezentować. Wszystko też jest niedostępne. To nadejdzie w pewnym momencie. Jeszcze w tym roku (TM).
To był ostatni gwóźdź do trumny. Ponieważ miesiące to dekady w erze sztucznej inteligencji. Google ma kilka miesięcy, a może nawet lat, aby nadrobić zaległości. Musiałby się wydarzyć cud.
#sztucznainteligencja #ai #si #nauka #technologia #ciekawostki #machinelearning #google #openai #chatgpt #eacc