Googleov studij razotkriva: AI benchmarkovi ignoriraju ljudske nesuglasice

Googleov studij razotkriva: AI benchmarkovi ignoriraju ljudske nesuglasice📷 © Tech&Space
- ★3–5 ocjenjivača često nedovoljna za pouzdane rezultate
- ★1.000 anotacija može biti dovoljno — ako se proračun ispravno podijeli
- ★Pravi problem nije veličina budžeta, već njegova alokacija
Googleov studij — proveden u suradnji s Rochester Institute of Technology — ne otkriva samo da su trenutni AI benchmarkovi nepouzdani. Otkriva zašto: jer se sistematski zanemaruju fundamentalne statističke realnosti ljudske subjektivnosti.
Tri do pet ocjenjivača po primjeru, trenutni industrijski standard, nisu dovoljni za stabilne rezultate — barem ne ako se želi izbjeći da modeli budu ocjenjivani na temelju sretne slučajnosti u malim uzorcima. Problem nije samo u broju ocjenjivača, već u naivnom pretpostavljanju da će nekoliko ljudi uvijek slagati u ocjeni kvalitete AI-ovog odgovora.
Studij pokazuje da čak i s 10 ocjenjivača po primjeru — dvostruko više od trenutnog standarda — rezultati ostaju osjetljivi na varijacije. A to je ključna točka: benchmarkovi nisu samo mjerilo usporedbe modela, već i skriveni regulator koji određuje koji će modeli dobiti financiranje, medijsku pažnju i — na kraju — dominaciju na tržištu.

Demo nasuprot deploymenta: zašto su trenutni standardi ocjenjivanja AI-a manje pouzdani nego što se pretpostavlja📷 © Tech&Space
Demo nasuprot deploymenta: zašto su trenutni standardi ocjenjivanja AI-a manje pouzdani nego što se pretpostavlja
Još zanimljivije je otkriće da 1.000 anotacija može biti dovoljno za pouzdane rezultate — ali samo ako se proračun pametno podijeli. Drugim riječima, problem nije koliko novca ulivate u ocjenjivanje, već kako ga koristite.
To je neugodna poruka za startupe koji se natječu u benchmark ratovima: više anotacija ne znači automatski bolji model, ako su one loše distribuirane. Ovdje se nameće pitanje: koliko trenutnih 'najboljih' modela zapravo duguje svoju reputaciju sretnom izboru ocjenjivača, a ne stvarnoj superiornosti?
Industrija AI-a voli benchmarkove jer pružaju iluziju objektivnosti — brojke koje se mogu usporediti, grafovi za prezentacije, argumenti za investitore. Ali ovaj studij podsjeća da su ti brojevi često izgrađeni na pijesku: malim uzorcima, nejasnim kriterijima i pretpostavci o ljudskoj slagalici koje jednostavno nisu istinite.
Za svu buku oko 'najboljih modela', stvarna priča je da smo možda godinama gradili hijerarhiju AI-a na temelju metrika koje nisu bile dovoljno robustne. I to možda zvuči kao tehnički detalj, ali je zapravo pitanje tko kontrolira narativ o tome koji AI zaslužuje povjerenje — i tko profitira od trenutnog sustava. Ovo otkriće će vjerojatno imati značajan utjecaj na industriju AI-a i potaknuti nove rasprave o tome kako ocjenjivati modele.