OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

YouTube
OpenAI model o3 przebija barierę 85% (poziom ludzi) w bardzo trudnym benchmarku ARC-AGI.

Benchmark jest bardzo prosty dla ludzi (przykład na obrazie) albo bardzo trudny dla AI. 85% to granica jaką osiąga przeciętny człowiek. Benchmark nie opiera się na wiedzy encyklopedycznej, ale sprawdza umiejętność generalizacji - wnioskowania o rzeczach podobnych na podstawie innych rzeczy.

#openai #sztucznainteligencja #ai #agi #si #technologia #ciekawostki #nauka #uczeniemaszynowe #chatgpt
9

Komentarze (9)

Warto też dodać, że o3 osiąga gigantyczny wręcz skok w jednym z najtrudniejszych (jeśli nie najtrudniejszym) benchmarku matematycznym. Benchmark ten zawiera prywatny zbiór zadań (przygotowane specjalnie dla niego i nie opublikowane = brak możliwości "nauczenia" się modelu odpowiedzi) które według twórców są na tyle skomplikowane, że ekspertom z danej dziedziny rozwiązanie jednego jednego zadania może zabrać kilka godzin pracy, a nawet więcej.

a7a86eaa-a728-402f-8fd9-ed5b84537ccc

Tabela wyników na ten moment:

2743acfe-bd2c-4945-b01d-aa4b131b9b4a

Dla chętnych wpis na blogu ARC-AGI:

https://arcprize.org/blog/oai-o3-pub-breakthrough


Ważny fragment:

Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don't think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.

Furthermore, early data points suggest that the upcoming ARC-AGI-2 benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training).

Przykład pytania, z którym o3 nie poradził sobie nawet mimo "przepalenia" mocy obliczeniowej wartej kilka tysięcy dolarów.

https://x.com/fchollet/status/1870172872641261979

17c07f64-f357-4ee4-8cb8-5bac55fe5922

@NrmvY Zawsze w takich kwestiach zastanawia mnie, ile mocy obliczeniowej potrzeba do takich rezultatów? Oraz ile mocy/roboczogodzin potrzeba by dalej taki model rozwijać.

@Jarasznikos elektrownia atomowa ledwo starczy... a najgorsze, że to nadal giga wyszukiwarka a nie sztuczna inteligencja

@lat666 Jakby uprzeć się to nasz umysł też jest pewnego rodzaju wyszukiwarką, bo przecież wymyślamy rzeczy na podstawie innych rzeczy które już znamy (chociażby słów czy liczb). Natomiast fakt, to nie sztuczna inteligencja i modele językowe.

Ciekawe, czy za jakiś czas te modele nie zaczną być używane do rozwiązywanie najtrudniejszych pytań w naukach ścisłych, żyjemy w niesamowitych czasach, świat może się bardzo zmienić przez kolejne 20-30 lat.

@pluszowy_zergling już zaczynają. Nawet jeśli nie na poziomie bezpośredniego badania nieznanych rzeczy, to na poziomie wyszukiwania powiązań których nie znaleźli naukowcy, bo informacji jest więcej niż możemy jako ludzie przetworzyć. Polecam filmik w tym temacie

https://www.youtube.com/watch?v=Qgrl3JSWWDE

Zaloguj się aby komentować