Umjetna inteligencijadb#1560

Agentno skeliranje zatvara jaz: Kako AI konačno kontrolira robote

5. travnja 2026.00:41(1w ago)

Santa Clara, United States

Agentno skeliranje zatvara jaz: Kako AI konačno kontrolira robote📷 © Tech&Space

★Nvidia, Berkeley i Stanford testirali 12 AI modela na robotskim zadacima
★Čak i vrhunski modeli padaju bez ljudskih apstrakcija
★CaP-Agent0 postiže ljudsku pouzdanost bez dodatnog treniranja

Nvidia, UC Berkeley, Stanford i Carnegie Mellon razvili su okvir CaP-X koji je testirao sposobnost dvanaest vodećih AI modela da kontroliraju robote putem samostalno napisanih programa. Rezultati su nedvosmisleni: čak i Gemini-3-Pro, GPT-5.2 i Claude Opus 4.5 ne uspijevaju izvesti pouzdane manipulativne zadatke bez ljudskih apstrakcija.

Kad su modeli dobili sirove slike umjesto unaprijed definiranih naredbi kao što su 'segmentiraj objekt' ili 'planiraj hvatanje', performanse su drastično pale. Problem nije u samim modelima, već u jazima između njihove sposobnosti razumijevanja teksta i neophodnog multi-modalnog zaključivanja.

Direktno hranjenje kameranskih slika AI-u bez posredničkih funkcija rezultiralo je propastom. To otkriva osnovno ograničenje: generalistički modeli jednostavno nisu dizajnirani za niskorazinski robotski nadzor.

Istraživači su identifikovali tri ključna nedostatka: nemogućnost kombiniranja višestrukih naredbi u nizu, slabosti u preciznom pozicioniranju i potpun pad performansi kad je potrebno povezati vizuelne podatke s fizičkim akcijama.

Što se dogodilo kad su najbolji modeli dobili sirove slike umjesto gotovih naredbi📷 © Tech&Space

Što se dogodilo kad su najbolji modeli dobili sirove slike umjesto gotovih naredbi

Rješenje koje su predložili nije dodatno treniranje, već tzv. 'agentno skeliranje'. CaP-Agent0 koristi tri ključna mehanizma: automatizirano generiranje funkcionalne biblioteke, paralelno generiranje devet kandidatskih rješenja i Visual Differencing Module koji uspoređuje stvarno i očekivano stanje.

Ova metoda — koja ne zahtija dodatno treniranje — postiže ljudsku razinu pouzdanosti. Većina kompanija trenutno prodaje 'agentnu budućnost' kao spremno rješenje, ali CaP-X otkriva da pravi izazov nije inteligencija, već integracija.

Dok marketing narativa sugerira da je dovoljno pustiti model da slobodno razmišlja, stvarnost je da roboti još uvijek trebaju precizno definirane 'grane' na koje se mogu osloniti.

Razvoj Visual Differencing Modula i skalabilnost paralelnih generacija rješenja će biti ključni za dalji napredak. Jer dok agentno skeliranje danas djeluje kao tehnički detalj, sutra bi moglo biti razlika između robota koji radi i onog koji samo 'razmišlja' o radu. To će zahtijevati dodatna ulaganja u istraživanje i razvoj.

Computer VisionMultimodal AI

//Comments

Uredi u foto-review →