OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

YouTube
OpenAI model o3 przebija barierę 85% (poziom ludzi) w bardzo trudnym benchmarku ARC-AGI.

Benchmark jest bardzo prosty dla ludzi (przykład na obrazie) albo bardzo trudny dla AI. 85% to granica jaką osiąga przeciętny człowiek. Benchmark nie opiera się na wiedzy encyklopedycznej, ale sprawdza umiejętność generalizacji - wnioskowania o rzeczach podobnych na podstawie innych rzeczy.

#openai #sztucznainteligencja #ai #agi #si #technologia #ciekawostki #nauka #uczeniemaszynowe #chatgpt

Komentarze (9)

NrmvY

Warto też dodać, że o3 osiąga gigantyczny wręcz skok w jednym z najtrudniejszych (jeśli nie najtrudniejszym) benchmarku matematycznym. Benchmark ten zawiera prywatny zbiór zadań (przygotowane specjalnie dla niego i nie opublikowane = brak możliwości "nauczenia" się modelu odpowiedzi) które według twórców są na tyle skomplikowane, że ekspertom z danej dziedziny rozwiązanie jednego jednego zadania może zabrać kilka godzin pracy, a nawet więcej.

a7a86eaa-a728-402f-8fd9-ed5b84537ccc
NrmvY

Tabela wyników na ten moment:

2743acfe-bd2c-4945-b01d-aa4b131b9b4a
NrmvY

Dla chętnych wpis na blogu ARC-AGI:

https://arcprize.org/blog/oai-o3-pub-breakthrough


Ważny fragment:

Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don't think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.

Furthermore, early data points suggest that the upcoming ARC-AGI-2 benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training).

NrmvY

Przykład pytania, z którym o3 nie poradził sobie nawet mimo "przepalenia" mocy obliczeniowej wartej kilka tysięcy dolarów.

https://x.com/fchollet/status/1870172872641261979

17c07f64-f357-4ee4-8cb8-5bac55fe5922
Jarasznikos

@NrmvY Zawsze w takich kwestiach zastanawia mnie, ile mocy obliczeniowej potrzeba do takich rezultatów? Oraz ile mocy/roboczogodzin potrzeba by dalej taki model rozwijać.

lat666

@Jarasznikos elektrownia atomowa ledwo starczy... a najgorsze, że to nadal giga wyszukiwarka a nie sztuczna inteligencja

Jarasznikos

@lat666 Jakby uprzeć się to nasz umysł też jest pewnego rodzaju wyszukiwarką, bo przecież wymyślamy rzeczy na podstawie innych rzeczy które już znamy (chociażby słów czy liczb). Natomiast fakt, to nie sztuczna inteligencja i modele językowe.

pluszowy_zergling

Ciekawe, czy za jakiś czas te modele nie zaczną być używane do rozwiązywanie najtrudniejszych pytań w naukach ścisłych, żyjemy w niesamowitych czasach, świat może się bardzo zmienić przez kolejne 20-30 lat.

NrmvY

@pluszowy_zergling już zaczynają. Nawet jeśli nie na poziomie bezpośredniego badania nieznanych rzeczy, to na poziomie wyszukiwania powiązań których nie znaleźli naukowcy, bo informacji jest więcej niż możemy jako ludzie przetworzyć. Polecam filmik w tym temacie

https://www.youtube.com/watch?v=Qgrl3JSWWDE

Zaloguj się aby komentować