Lažno viđenje u AI: modele varaju slike koje nisu vidjeli

Lažno viđenje u AI: modele varaju slike koje nisu vidjeli📷 © Tech&Space
- ★Stanford otkriva 'miraž u viđenju'
- ★70-80% rezultata bez ulaznih podataka
- ★Phantom-0 benchmark testira iluziju
Iako ih nismo vidjeli, oslanjamo se na njihovo mišljenje. Multimodalni AI modeli, poput GPT-5, Gemini 3 Pro i Claude Opus 4.5, generiraju detaljne opise slika i dijagnoze čak i kada im se ne pruži nijedan vizualni ulaz.
Izvještaj sa Stanforda otkriva kako ti modeli postižu 70 do 80 posto svojih standardnih benchmark rezultata na Phantom-0 setu od 200 pitanja bez ikakve slike. Ovaj fenomen, nazvan 'miraz u viđenju', nije tek akademska zanimljivost.
U medicinskim ili sigurnosnim aplikacijama lažne dijagnoze mogu rezultirati ozbiljnim posljedicama.

Jaz između benchmarka i realnosti u multimodalnim modelima📷 © Tech&Space
Jaz između benchmarka i realnosti u multimodalnim modelima
Stanfordovim testom obuhvaćene su 20 kategorija, a modeli nisu samo opisivali nepostojeće detalje već su nudili i uvjerljiva objašnjenja za svoju 'percepciju'. To nije samo pitanje performanse — radi se o temeljnoj ranjivosti u procjeni vjerodostojnosti ulaznih podataka.
Zašto benchmarki ne ulove ovaj problem? Phantom-0 je posebno dizajniran kako bi ukazao na praznine u standardnim evaluacijskim metodama.
Dok tradicionalni testovi mjere opću sposobnost modela, Phantom-0 usmjerava pažnju na njihov odnos prema nepostojećim vizualnim informacijama.
Ovo je ozbiljan problem koji zahtijeva pažnju i rješenje. Potrebno je razviti nove benchmarkove koji će ustanoviti stvarnu sposobnost multimodalnih modela. Tek tako možemo osigurati pouzdanost i sigurnost u kritičnim aplikacijama. Time ćemo spriječiti lažne dijagnoze i ozbiljne posljedice.