Umjetna inteligencijadb#1560

Agentno skeliranje zatvara jaz: Kako AI konačno kontrolira robote

(1w ago)
Santa Clara, United States
the-decoder.com
Agentno skeliranje zatvara jaz: Kako AI konačno kontrolira robote

Agentno skeliranje zatvara jaz: Kako AI konačno kontrolira robote📷 © Tech&Space

  • Nvidia, Berkeley i Stanford testirali 12 AI modela na robotskim zadacima
  • Čak i vrhunski modeli padaju bez ljudskih apstrakcija
  • CaP-Agent0 postiže ljudsku pouzdanost bez dodatnog treniranja

Nvidia, UC Berkeley, Stanford i Carnegie Mellon razvili su okvir CaP-X koji je testirao sposobnost dvanaest vodećih AI modela da kontroliraju robote putem samostalno napisanih programa. Rezultati su nedvosmisleni: čak i Gemini-3-Pro, GPT-5.2 i Claude Opus 4.5 ne uspijevaju izvesti pouzdane manipulativne zadatke bez ljudskih apstrakcija.

Kad su modeli dobili sirove slike umjesto unaprijed definiranih naredbi kao što su 'segmentiraj objekt' ili 'planiraj hvatanje', performanse su drastično pale. Problem nije u samim modelima, već u jazima između njihove sposobnosti razumijevanja teksta i neophodnog multi-modalnog zaključivanja.

Direktno hranjenje kameranskih slika AI-u bez posredničkih funkcija rezultiralo je propastom. To otkriva osnovno ograničenje: generalistički modeli jednostavno nisu dizajnirani za niskorazinski robotski nadzor.

Istraživači su identifikovali tri ključna nedostatka: nemogućnost kombiniranja višestrukih naredbi u nizu, slabosti u preciznom pozicioniranju i potpun pad performansi kad je potrebno povezati vizuelne podatke s fizičkim akcijama.

Što se dogodilo kad su najbolji modeli dobili sirove slike umjesto gotovih naredbi

Što se dogodilo kad su najbolji modeli dobili sirove slike umjesto gotovih naredbi📷 © Tech&Space

Što se dogodilo kad su najbolji modeli dobili sirove slike umjesto gotovih naredbi

Rješenje koje su predložili nije dodatno treniranje, već tzv. 'agentno skeliranje'. CaP-Agent0 koristi tri ključna mehanizma: automatizirano generiranje funkcionalne biblioteke, paralelno generiranje devet kandidatskih rješenja i Visual Differencing Module koji uspoređuje stvarno i očekivano stanje.

Ova metoda — koja ne zahtija dodatno treniranje — postiže ljudsku razinu pouzdanosti. Većina kompanija trenutno prodaje 'agentnu budućnost' kao spremno rješenje, ali CaP-X otkriva da pravi izazov nije inteligencija, već integracija.

Dok marketing narativa sugerira da je dovoljno pustiti model da slobodno razmišlja, stvarnost je da roboti još uvijek trebaju precizno definirane 'grane' na koje se mogu osloniti.

Razvoj Visual Differencing Modula i skalabilnost paralelnih generacija rješenja će biti ključni za dalji napredak. Jer dok agentno skeliranje danas djeluje kao tehnički detalj, sutra bi moglo biti razlika između robota koji radi i onog koji samo 'razmišlja' o radu. To će zahtijevati dodatna ulaganja u istraživanje i razvoj.

Computer VisionMultimodal AI

//Comments

RoboticsBaidu robotaxis grounded: China’s traffic chaos exposes real-world limitsAIDisney’s $1B AI bet collapses before the first frameMedicineInflammation’s Epigenetic Scars May Linger, Raising Colon Cancer RiskAIMistral’s tiny speech model fits on a watch—so what?MedicineBrain aging’s genetic map: AI hype vs. Alzheimer’s realityAIPorn’s AI Clones Aren’t Immortal—Just Better PackagedMedicine$100M federal bet on joint regeneration—what the trials can (and can’t) proveAIGitHub’s Copilot data grab: opt-out or be trainedMedicineRNA Sequencing UnifiesAIAI’s dirty little secret: secure by default is a mythSpaceEarth Formed From Inner Solar SystemAI$70M for AI code verification—because shipping works, not just generating itSpaceYouTube’s AI cloning tool exposes a deeper problemAIAI traffic now outpaces humans—but who’s really winning?SpaceSmile Mission to X-Ray Earth’s Magnetic ShieldAIGemini Live’s voice downgrade: AI progress or collateral damage?SpaceGamma Cas’s X-Ray Mystery Solved After 40 YearsGamingNvidia’s AI art war: Why players are sharpening the pitchforksSpaceUK’s AI probe into Microsoft isn’t just about Windows—it’s about controlTechnologyLeaked iPhone hacking tool exposes Apple’s zero-click blind spotRoboticsBaidu robotaxis grounded: China’s traffic chaos exposes real-world limitsAIDisney’s $1B AI bet collapses before the first frameMedicineInflammation’s Epigenetic Scars May Linger, Raising Colon Cancer RiskAIMistral’s tiny speech model fits on a watch—so what?MedicineBrain aging’s genetic map: AI hype vs. Alzheimer’s realityAIPorn’s AI Clones Aren’t Immortal—Just Better PackagedMedicine$100M federal bet on joint regeneration—what the trials can (and can’t) proveAIGitHub’s Copilot data grab: opt-out or be trainedMedicineRNA Sequencing UnifiesAIAI’s dirty little secret: secure by default is a mythSpaceEarth Formed From Inner Solar SystemAI$70M for AI code verification—because shipping works, not just generating itSpaceYouTube’s AI cloning tool exposes a deeper problemAIAI traffic now outpaces humans—but who’s really winning?SpaceSmile Mission to X-Ray Earth’s Magnetic ShieldAIGemini Live’s voice downgrade: AI progress or collateral damage?SpaceGamma Cas’s X-Ray Mystery Solved After 40 YearsGamingNvidia’s AI art war: Why players are sharpening the pitchforksSpaceUK’s AI probe into Microsoft isn’t just about Windows—it’s about controlTechnologyLeaked iPhone hacking tool exposes Apple’s zero-click blind spot
⊞ Foto Review