HopChain razbija AI halucinacije – ali ne i marketing

HopChain razbija AI halucinacije – ali ne i marketing📷 © Tech&Space
- ★20 od 24 benchmarka poboljšano bez revolucije
- ★Alibaba i Tsinghua ciljaju kaskadne greške u VLM-ovima
- ★Stvarni test: od sintetičkih zadataka do deploymenta
Alibabin Qwen tim i istraživači s Tsinghua Universityja napokon su formalizirali ono što svaki AI inženjer zna: vizualni modeli lažu kao djeca kad moraju razmišljati u više koraka. Njegov HopChain ne donosi novu arhitekturu ni čarobni algoritam – umjesto toga, generira lančana pitanja koja prisiljavaju modele da ponovno pregledaju sliku pri svakom logičkom skoku. Rezultat? Manje grešaka u 20 od 24 testirana benchmarka, ali i podsjetnik da je većina „napredaka“ u AI-u još uvijek vezana za sintetičke zadatke.
Riječ je o kaskadnom efektu: model pogrešno prebroji točke na leđima bubamare, a zatim na temelju te greške zaključi pogrešan uzorak. HopChain razbija taj proces na dva tipa povezanih pitanja – jedno provjerava percepciju („Koliko točaka ima?“), drugo zaključivanje („Je li to uobičajen uzorak za ovu vrstu?“). Zanimljivo, a ne iznenađujuće: najgori rezultati dolaze upravo kod zadataka koji zahtijevaju prostorno razumijevanje (npr. parkiranje automobila ili tumačenje dijagrama).
Problem je širi od Alibabinog rješenja. Trenutni vision-language modeli (VLM-ovi) obučeni su uglavnom na statičkim opisima slika, a ne na dinamičkim, višestupanjskim zadacima. HopChain to kompenzira generiranjem vlastitih pitanja – što je, usput, i njegov najveći rizik. Ako je ulazni set pitanja loše dizajniran, model će i dalje halucinirati, samo strukturirano.

Demo nasuprot proizvoda: tko zapravo rješava problem i za koga📷 © Tech&Space
Demo nasuprot proizvoda: tko zapravo rješava problem i za koga
Benchmarks su, naravno, samo polovica priče. Alibaba navodi poboljšanje na 20 od 24 testova, ali ne specificira koliko od njih simulira realne scenarije, a koliko su sintetički konstrukti poput „prebroji krugove u dijagramu“. Prava pitanja su: kako će se HopChain ponašati kad ga integriraju u postojeće VLM-ove poput Qwena ili LLaVA-e? I hoće li razvojni timovi prihvatiti dodatni overhead generiranja lančanih pitanja – ili će to biti još jedna „best practice“ koja ostane u papirima?
Konkurentna prednost ovdje nije tehnološka, već strategijska. Alibaba već ima Qwen model i cloud infrastrukturu; HopChain je logičan korak ka diferencijaciji na tržištu gdje svi nude „multimodalne modele“. Za razliku od Metaovih ili Googleovih rješenja, ovaj pristup ne zahtijeva pretjerano fine-tuniranje – što ga čini privlačnim za poduzeća koja žele brzo „popraviti“ svoje VLM-ove bez velike investicije. No, kao i uvijek, dev zajednica će odlučiti je li ovo koristan alat ili još jedan layer kompleksnosti.
Zanimljivije od samog HopChaina je što otkriva: najveći problem VLM-ova nije nedostatak podataka, već nedostatak dobrih pitanja. Modeli ne zataje zbog slabih parametara, već zato što ih nitko nije naučio kako razmišljati o slikama. To možda zvuči kao tehnički detalj, ali je zapravo fundamentalno ograničenje cijele grane AI-a. I tu priča postaje zanimljivija od same objave.
Ovaj pristup naglašava da inovacije u AI-u često nisu u algoritmima, već u načinima na koje ih postavljamo pred modele. Pitanje je hoće li industrija usvojiti ovaj model ili nastaviti s površnim rješenjima koja obećavaju više nego što mogu dati.