Umjetna inteligencijadb#3084

Dva milijuna dolara za AI koji ne zna igrati igrice

20. travnja 2026.14:14(20h ago)

San Francisco, CA

Dva milijuna dolara za AI koji ne zna igrati igrice📷 © Tech&Space

★Gemini 3.1: 0.37%, GPT 5.4: 0.26%
★135 interaktivnih okruženja
★RHAE metrika mjeri efikasnost

ARC-AGI-3 nije još jedna ljestvica na kojoj veliki modeli lako postižu 95 posto. Fondacija ARC Prize postavila je 135 interaktivnih, turn-based okruženja gdje AI agenti moraju istraživati, formirati hipoteze i izvršavati planove — bez uputa.

Rezultat: svaki frontier model pao je ispod jednog posto. Gemini 3.1 Pro Preview dosegnuo je 0,37 posto, GPT 5.4 tek 0,26 posto.

Ključna razlika je u tome što ARC-AGI-3 oduzima prednosti koje su dosad činile AI sustave uspješnima: masivne količine trening podataka, prepoznavanje uzoraka iz ogromnih korpusa, fino ugađanje na specifične zadatke. Ovdje se radi o prilagodljivosti u nepoznatom.

Čovjek bez treninga riješava ove zadatke s lakoćom. AI ne.

Fondacija nudi dva milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi. To nije nagrada za marginalno poboljšanje — to je priznanje da trenutna paradigma možda ne vodi do opće inteligencije.

Benchmark nasuprot marketingu: što se ovdje stvarno mjeri📷 © Tech&Space

Benchmark nasuprot marketingu: što se ovdje stvarno mjeri

Metrika RHAE (Relative Human Action Efficiency) mjeri ne samo točnost nego i efikasnost. AI može eventualno riješiti zadatak, ali uz tisuće nepotrebnih koraka.

Čovjek koristi desetak. Ovaj benchmark stoga ističe jaz između 'pametnog' ponašanja i razumijevanja.

Što to znači za industriju? Google i OpenAI trenutno grade sustave koji su izvrsni u onome što već znaju, a slabi u onome što nikad nisu vidjeli.

ARC-AGI-3 sugerira da skaliranje parametara i podataka ne rješava temeljni problem: sposobnost da se uči iz malog broja primjera u stvarnom vremenu. Postoje nagađanja da će sljedeća generacija modela — s jačim 'reasoning' kapacitetima — preći prag od jedan posto.

Ali dva milijuna dolara nisu postavljena zato što je to vjerojatno. Postavljena su zato što nitko trenutno nije ni blizu.

Ovo je veliki izazov za AI istraživače i razvijače. Oni moraju osmisliti nove pristupe koji će omogućiti AI sustavima da se prilagode nepoznatom i da nauče iz malog broja primjera. Ako uspiju, mogli bi dobiti nagradu od dva milijuna dolara. Ali ako ne uspiju, mogli bi se suočiti s velikim neuspjehom.

AI benchmarkingLLM evaluation metricsAI marketing vs. performanceOpen-source AI limitationsCommercial AI transparency

//Comments

Uredi u foto-review →