LLM agenti dobili vanjsku kontrolu – ali radi li to u praksi?

LLM agenti dobili vanjsku kontrolu – ali radi li to u praksi?📷 © Tech&Space
- ★73,6% uspjeha umjesto 34,6% na SWE-bench Verified
- ★Više od 40% manje tokena bez gubitka performansi
- ★Sigurnosne prepreke kao deterministički filteri, ne naknadni patch
Autonomni LLM agenti redovito propadaju na dugoročnim zadacima jer im je politika zakopana u težinama modela, a sigurnosne mjere dolaze post factum kao flasteri na rupu. Traversal-as-Policy — metoda koju predlaže tim iza OpenHands-a — ne nudi još jedan fine-tuning, već eksternalizira politiku u izvršivo Gated Behavior Tree (GBT) distilirano iz logova pješčanika. Ključna razlika?
Umjesto da se oslanja na neograničenu generaciju, agent sada prati drvo odlučivanja — ali samo za zadatke u pokrivenom prostoru. Rješenje zvuči kao tehnički trik, ali brojevi na SWE-bench Verified govore drugačije: uspjeh skočio sa 34,6% na 73,6%, dok su kršenja sigurnosnih pravila pala s 2,8% na 0,2%.
Čak i troškovi su se smanjili — od 208k na 126k tokena po zadatku, što je 39% uštede bez žrtvovanja performansi. Ali ovdje započinje pravo pitanje: radi li ovo samo na sintetičkim benchmarkovima, ili je riječ o skalabilnom pristupu?
Ispod haube, svaki čvor u GBT-u sadrži akcijski makro uvjetovan stanjem, izvučen iz uspješnih putanja i provjeren na konflikte. Neuspješni pokušaji ne idu u smeće — njihovi tragovi postaju determinističke prepreke koje blokiraju nesigurne kontekste prije izvršenja.
Sustav se ažurira po principu iskustveno utemeljene monotonosti: što god je jednom odbijeno kao nesigurno, više se ne može vratiti u razmatranje.

Distilirane behavior drevljike kao alternativa nestabilnim LLM politikama📷 © Tech&Space
Distilirane behavior drevljike kao alternativa nestabilnim LLM politikama
Problem je što većina LLM agenata danas radi kao crna kutija s naknadnom kontrolom. Traversal-as-Policy pokušava okrenuti tu logiku: umjesto da se sigurnost dodaje poslije, ona postaje dio same politike — barem za zadatke koje drvo već pokriva.
Ali tu leži i najveća slabost: što se događa kada agent naiđe na nepoznati scenarij? Autori tvrde da se drvo može proširivati, ali pitanje je koliko će to koštati u performansama i održavanju. GitHub diskusije već naziru da bi skaliranje na stvarne aplikacije moglo zahtijevati ručno fino podesavanje čvorova — što onda od miša čini slona.
Industrijski kontekst je jasniji: tvrtke koje grade agente za kritične aplikacije (npr. Adept ili Cognition) sada imaju konkretnu alternativu ad-hoc sigurnosnim filtrima. Ali i ovdje postoji jaz: benchmarkovi kao SWE-bench mjeri uspjeh po zadrškama u kodu, a ne po, recimo, financijskim transakcijama ili medicinskim odlukama.
Pravi test će biti kada neka tvrtka pokuša implementirati GBT u produkciji — tamo gdje latencija i troškovi održavanja često pretvaraju elegantna rješenja u operativne noćne more. Zanimljivije od samog papira je što community već primjećuje da ovaj pristup liči na staro vino u novoj boci: behavior drevljike se koriste desetljećima u robotici i igrama, a ovdje su jednostavno prerađene za LLM kontekst.
Pitanje je da li će to biti dovoljno za industriju koja traži brze, a ne nužno pametne rješenja. Očekivati ćemo kako će se ova tema dalje razvijati u skorijoj budućnosti. U međuvremenu, važno je pratiti razvoj i primjene ove tehnologije.