OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 - Pokonanie benchmarku ARC-AGI - krok milowy.

OpenAI model o3 przebija barierę 85% (poziom ludzi) w bardzo trudnym benchmarku ARC-AGI.

Benchmark jest bardzo prosty dla ludzi (przykład na obrazie) albo bardzo trudny dla AI. 85% to granica jaką osiąga przeciętny człowiek. Benchmark nie opiera się na wiedzy encyklopedycznej, ale sprawdza umiejętność generalizacji - wnioskowania o rzeczach podobnych na podstawie innych rzeczy.

#openai #sztucznainteligencja #ai #agi #si #technologia #ciekawostki #nauka #uczeniemaszynowe #chatgpt

Komentarze (9)

NrmvY 3 miesiące temu

Warto też dodać, że o3 osiąga gigantyczny wręcz skok w jednym z najtrudniejszych (jeśli nie najtrudniejszym) benchmarku matematycznym. Benchmark ten zawiera prywatny zbiór zadań (przygotowane specjalnie dla niego i nie opublikowane = brak możliwości "nauczenia" się modelu odpowiedzi) które według twórców są na tyle skomplikowane, że ekspertom z danej dziedziny rozwiązanie jednego jednego zadania może zabrać kilka godzin pracy, a nawet więcej.

NrmvY 3 miesiące temu

Tabela wyników na ten moment:

NrmvY 3 miesiące temu

Dla chętnych wpis na blogu ARC-AGI:

https://arcprize.org/blog/oai-o3-pub-breakthrough

Ważny fragment:

Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don't think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.

Furthermore, early data points suggest that the upcoming ARC-AGI-2 benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training).

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub

OpenAI o3 scores 75.7% on ARC-AGI public leaderboard.

ARC Prize

NrmvY 3 miesiące temu

Przykład pytania, z którym o3 nie poradził sobie nawet mimo "przepalenia" mocy obliczeniowej wartej kilka tysięcy dolarów.

https://x.com/fchollet/status/1870172872641261979

x.com

Twitter

Jarasznikos 3 miesiące temu

@NrmvY Zawsze w takich kwestiach zastanawia mnie, ile mocy obliczeniowej potrzeba do takich rezultatów? Oraz ile mocy/roboczogodzin potrzeba by dalej taki model rozwijać.

lat666 3 miesiące temu

@Jarasznikos elektrownia atomowa ledwo starczy... a najgorsze, że to nadal giga wyszukiwarka a nie sztuczna inteligencja

Jarasznikos 3 miesiące temu

@lat666 Jakby uprzeć się to nasz umysł też jest pewnego rodzaju wyszukiwarką, bo przecież wymyślamy rzeczy na podstawie innych rzeczy które już znamy (chociażby słów czy liczb). Natomiast fakt, to nie sztuczna inteligencja i modele językowe.

pluszowy_zergling 3 miesiące temu

Ciekawe, czy za jakiś czas te modele nie zaczną być używane do rozwiązywanie najtrudniejszych pytań w naukach ścisłych, żyjemy w niesamowitych czasach, świat może się bardzo zmienić przez kolejne 20-30 lat.

NrmvY 3 miesiące temu

@pluszowy_zergling już zaczynają. Nawet jeśli nie na poziomie bezpośredniego badania nieznanych rzeczy, to na poziomie wyszukiwania powiązań których nie znaleźli naukowcy, bo informacji jest więcej niż możemy jako ludzie przetworzyć. Polecam filmik w tym temacie

https://www.youtube.com/watch?v=Qgrl3JSWWDE

Zaloguj się aby komentować

Zostań Patronem Hejto i odblokuj dodatkowe korzyści tylko dla Patronów

Włączona możliwość zarabiania na swoich treściach
Całkowity brak reklam na każdym urządzeniu
Oznaczenie w postaci rogala , który świadczy o Twoim wsparciu
Wcześniejszy dostęp, do wybranych funkcji na Hejto