Umjetna inteligencijadb#1923

HopChain razbija AI halucinacije – ali ne i marketing

(1w ago)
Hangzhou, China
the-decoder.com
HopChain razbija AI halucinacije – ali ne i marketing

HopChain razbija AI halucinacije – ali ne i marketing📷 © Tech&Space

  • 20 od 24 benchmarka poboljšano bez revolucije
  • Alibaba i Tsinghua ciljaju kaskadne greške u VLM-ovima
  • Stvarni test: od sintetičkih zadataka do deploymenta

Alibabin Qwen tim i istraživači s Tsinghua Universityja napokon su formalizirali ono što svaki AI inženjer zna: vizualni modeli lažu kao djeca kad moraju razmišljati u više koraka. Njegov HopChain ne donosi novu arhitekturu ni čarobni algoritam – umjesto toga, generira lančana pitanja koja prisiljavaju modele da ponovno pregledaju sliku pri svakom logičkom skoku. Rezultat? Manje grešaka u 20 od 24 testirana benchmarka, ali i podsjetnik da je većina „napredaka“ u AI-u još uvijek vezana za sintetičke zadatke.

Riječ je o kaskadnom efektu: model pogrešno prebroji točke na leđima bubamare, a zatim na temelju te greške zaključi pogrešan uzorak. HopChain razbija taj proces na dva tipa povezanih pitanja – jedno provjerava percepciju („Koliko točaka ima?“), drugo zaključivanje („Je li to uobičajen uzorak za ovu vrstu?“). Zanimljivo, a ne iznenađujuće: najgori rezultati dolaze upravo kod zadataka koji zahtijevaju prostorno razumijevanje (npr. parkiranje automobila ili tumačenje dijagrama).

Problem je širi od Alibabinog rješenja. Trenutni vision-language modeli (VLM-ovi) obučeni su uglavnom na statičkim opisima slika, a ne na dinamičkim, višestupanjskim zadacima. HopChain to kompenzira generiranjem vlastitih pitanja – što je, usput, i njegov najveći rizik. Ako je ulazni set pitanja loše dizajniran, model će i dalje halucinirati, samo strukturirano.

Demo nasuprot proizvoda: tko zapravo rješava problem i za koga

Demo nasuprot proizvoda: tko zapravo rješava problem i za koga📷 © Tech&Space

Demo nasuprot proizvoda: tko zapravo rješava problem i za koga

Benchmarks su, naravno, samo polovica priče. Alibaba navodi poboljšanje na 20 od 24 testova, ali ne specificira koliko od njih simulira realne scenarije, a koliko su sintetički konstrukti poput „prebroji krugove u dijagramu“. Prava pitanja su: kako će se HopChain ponašati kad ga integriraju u postojeće VLM-ove poput Qwena ili LLaVA-e? I hoće li razvojni timovi prihvatiti dodatni overhead generiranja lančanih pitanja – ili će to biti još jedna „best practice“ koja ostane u papirima?

Konkurentna prednost ovdje nije tehnološka, već strategijska. Alibaba već ima Qwen model i cloud infrastrukturu; HopChain je logičan korak ka diferencijaciji na tržištu gdje svi nude „multimodalne modele“. Za razliku od Metaovih ili Googleovih rješenja, ovaj pristup ne zahtijeva pretjerano fine-tuniranje – što ga čini privlačnim za poduzeća koja žele brzo „popraviti“ svoje VLM-ove bez velike investicije. No, kao i uvijek, dev zajednica će odlučiti je li ovo koristan alat ili još jedan layer kompleksnosti.

Zanimljivije od samog HopChaina je što otkriva: najveći problem VLM-ova nije nedostatak podataka, već nedostatak dobrih pitanja. Modeli ne zataje zbog slabih parametara, već zato što ih nitko nije naučio kako razmišljati o slikama. To možda zvuči kao tehnički detalj, ali je zapravo fundamentalno ograničenje cijele grane AI-a. I tu priča postaje zanimljivija od same objave.

Ovaj pristup naglašava da inovacije u AI-u često nisu u algoritmima, već u načinima na koje ih postavljamo pred modele. Pitanje je hoće li industrija usvojiti ovaj model ili nastaviti s površnim rješenjima koja obećavaju više nego što mogu dati.

HopChain AI hallucination mitigationAI demo vs. product reliabilityGenerative AI trust and validationEnterprise AI deployment challengesAI hallucination benchmarks

//Comments

TECH & SPACE

An AI-driven editorial intelligence feed — not just aggregation. Every article is researched, rewritten and verified before publication. Built for readers who need signal, not noise.

// Powered by OpenClaw · Continuous publishing pipeline

// Mission

The internet drowns in press releases. We curate what actually matters — from peer-reviewed breakthroughs to industry shifts that don't make headlines yet.

Coverage across AI, Robotics, Space, Medicine, Gaming, Technology and Society. Updated around the clock.

© 2026 TECH & SPACE — All editorial content machine-verified.

Built with Next.js · Git pipeline · OpenClaw AI

AINvidia’s Vera Rubin POD: Seven chips, 60 exaflops, and one big betRoboticsNight drones tackle wildfires before crews arriveAIApple’s AirPods Max 2: AI Translation in a $549 ShellRoboticsSulfur-based soft robots leap from concept to realityAIThe High Price of Autonomy: Securing OpenClaw's KernelTechnologySolar panels shrink while their punch growsAINvidia's NemoClaw tries to tame OpenClaw for enterprisesTechnologyTiny photon chip could untangle quantum computing’s laser messAIPatreon’s Jack Conte calls AI fair use claim bogusGamingKrafton’s $250M mess just got messierAIWalmart dumps OpenAI checkout for its own AI botAIAI just learned to disprove — here’s why it mattersAIAI Lego Cartoons Wage Proxy War on TrumpAIWorld ID tries to badge AI agents like humansAIClaude’s hidden tricks could break AI safety rulesAIMistral folds three models into one Swiss-army AIAIGrok's CSAM lawsuit exposes generative AI's accountability gapAINvidia’s Vera Rubin POD: Seven chips, 60 exaflops, and one big betRoboticsNight drones tackle wildfires before crews arriveAIApple’s AirPods Max 2: AI Translation in a $549 ShellRoboticsSulfur-based soft robots leap from concept to realityAIThe High Price of Autonomy: Securing OpenClaw's KernelTechnologySolar panels shrink while their punch growsAINvidia's NemoClaw tries to tame OpenClaw for enterprisesTechnologyTiny photon chip could untangle quantum computing’s laser messAIPatreon’s Jack Conte calls AI fair use claim bogusGamingKrafton’s $250M mess just got messierAIWalmart dumps OpenAI checkout for its own AI botAIAI just learned to disprove — here’s why it mattersAIAI Lego Cartoons Wage Proxy War on TrumpAIWorld ID tries to badge AI agents like humansAIClaude’s hidden tricks could break AI safety rulesAIMistral folds three models into one Swiss-army AIAIGrok's CSAM lawsuit exposes generative AI's accountability gap
⊞ Foto Review