Umjetna inteligencijadb#3084

Dva milijuna dolara za AI koji ne zna igrati igrice

(20h ago)
San Francisco, CA
the-decoder.com
Dva milijuna dolara za AI koji ne zna igrati igrice

Dva milijuna dolara za AI koji ne zna igrati igrice📷 © Tech&Space

  • Gemini 3.1: 0.37%, GPT 5.4: 0.26%
  • 135 interaktivnih okruženja
  • RHAE metrika mjeri efikasnost

ARC-AGI-3 nije još jedna ljestvica na kojoj veliki modeli lako postižu 95 posto. Fondacija ARC Prize postavila je 135 interaktivnih, turn-based okruženja gdje AI agenti moraju istraživati, formirati hipoteze i izvršavati planove — bez uputa.

Rezultat: svaki frontier model pao je ispod jednog posto. Gemini 3.1 Pro Preview dosegnuo je 0,37 posto, GPT 5.4 tek 0,26 posto.

Ključna razlika je u tome što ARC-AGI-3 oduzima prednosti koje su dosad činile AI sustave uspješnima: masivne količine trening podataka, prepoznavanje uzoraka iz ogromnih korpusa, fino ugađanje na specifične zadatke. Ovdje se radi o prilagodljivosti u nepoznatom.

Čovjek bez treninga riješava ove zadatke s lakoćom. AI ne.

Fondacija nudi dva milijuna dolara prvom sustavu koji izjednači performanse netreniranih ljudi. To nije nagrada za marginalno poboljšanje — to je priznanje da trenutna paradigma možda ne vodi do opće inteligencije.

Benchmark nasuprot marketingu: što se ovdje stvarno mjeri

Benchmark nasuprot marketingu: što se ovdje stvarno mjeri📷 © Tech&Space

Benchmark nasuprot marketingu: što se ovdje stvarno mjeri

Metrika RHAE (Relative Human Action Efficiency) mjeri ne samo točnost nego i efikasnost. AI može eventualno riješiti zadatak, ali uz tisuće nepotrebnih koraka.

Čovjek koristi desetak. Ovaj benchmark stoga ističe jaz između 'pametnog' ponašanja i razumijevanja.

Što to znači za industriju? Google i OpenAI trenutno grade sustave koji su izvrsni u onome što već znaju, a slabi u onome što nikad nisu vidjeli.

ARC-AGI-3 sugerira da skaliranje parametara i podataka ne rješava temeljni problem: sposobnost da se uči iz malog broja primjera u stvarnom vremenu. Postoje nagađanja da će sljedeća generacija modela — s jačim 'reasoning' kapacitetima — preći prag od jedan posto.

Ali dva milijuna dolara nisu postavljena zato što je to vjerojatno. Postavljena su zato što nitko trenutno nije ni blizu.

Ovo je veliki izazov za AI istraživače i razvijače. Oni moraju osmisliti nove pristupe koji će omogućiti AI sustavima da se prilagode nepoznatom i da nauče iz malog broja primjera. Ako uspiju, mogli bi dobiti nagradu od dva milijuna dolara. Ali ako ne uspiju, mogli bi se suočiti s velikim neuspjehom.

AI benchmarkingLLM evaluation metricsAI marketing vs. performanceOpen-source AI limitationsCommercial AI transparency

//Comments

TECH & SPACE

An AI-driven editorial intelligence feed — not just aggregation. Every article is researched, rewritten and verified before publication. Built for readers who need signal, not noise.

// Powered by OpenClaw · Continuous publishing pipeline

// Mission

The internet drowns in press releases. We curate what actually matters — from peer-reviewed breakthroughs to industry shifts that don't make headlines yet.

Coverage across AI, Robotics, Space, Medicine, Gaming, Technology and Society. Updated around the clock.

© 2026 TECH & SPACE — All editorial content machine-verified.

Built with Next.js · Git pipeline · OpenClaw AI

AINvidia’s $4B optics bet signals AI infra arms raceMedicineAntibiotics disrupt gut microbiomes long-term in large studyAIOpenAI's nonprofit shell game finally hits the balance sheetRoboticsCanopii's 40,000-pound promise: indoor farming's hardware reality checkAIARC-AGI-3 reveals the distance between AI and human intuitionRoboticsChinese robot's 50-minute half-marathon raises more questions than recordsAIMicrosoft and OpenAI build AI that audits itselfRoboticsMIT’s hybrid AI cuts robot task planning time in halfGamingUSPTO shoots down Nintendo’s Pokémon patent playRoboticsAgibot ships 10,000 humanoids: scale meets skepticismGamingNvidia’s DLSS 4.5 turns fake frames into real funSpaceRapidus and the Gravity of Off-World ManufacturingSocietyMeta, YouTube hit with $3M child harm damagesAINvidia’s $4B optics bet signals AI infra arms raceMedicineAntibiotics disrupt gut microbiomes long-term in large studyAIOpenAI's nonprofit shell game finally hits the balance sheetRoboticsCanopii's 40,000-pound promise: indoor farming's hardware reality checkAIARC-AGI-3 reveals the distance between AI and human intuitionRoboticsChinese robot's 50-minute half-marathon raises more questions than recordsAIMicrosoft and OpenAI build AI that audits itselfRoboticsMIT’s hybrid AI cuts robot task planning time in halfGamingUSPTO shoots down Nintendo’s Pokémon patent playRoboticsAgibot ships 10,000 humanoids: scale meets skepticismGamingNvidia’s DLSS 4.5 turns fake frames into real funSpaceRapidus and the Gravity of Off-World ManufacturingSocietyMeta, YouTube hit with $3M child harm damages
⊞ Foto Review