Umjetna inteligencijadb#1607

Googleov studij razotkriva: AI benchmarkovi ignoriraju ljudske nesuglasice

(1w ago)
Mountain View, United States
the-decoder.com
Googleov studij razotkriva: AI benchmarkovi ignoriraju ljudske nesuglasice

Googleov studij razotkriva: AI benchmarkovi ignoriraju ljudske nesuglasice📷 © Tech&Space

  • 3–5 ocjenjivača često nedovoljna za pouzdane rezultate
  • 1.000 anotacija može biti dovoljno — ako se proračun ispravno podijeli
  • Pravi problem nije veličina budžeta, već njegova alokacija

Googleov studij — proveden u suradnji s Rochester Institute of Technology — ne otkriva samo da su trenutni AI benchmarkovi nepouzdani. Otkriva zašto: jer se sistematski zanemaruju fundamentalne statističke realnosti ljudske subjektivnosti.

Tri do pet ocjenjivača po primjeru, trenutni industrijski standard, nisu dovoljni za stabilne rezultate — barem ne ako se želi izbjeći da modeli budu ocjenjivani na temelju sretne slučajnosti u malim uzorcima. Problem nije samo u broju ocjenjivača, već u naivnom pretpostavljanju da će nekoliko ljudi uvijek slagati u ocjeni kvalitete AI-ovog odgovora.

Studij pokazuje da čak i s 10 ocjenjivača po primjeru — dvostruko više od trenutnog standarda — rezultati ostaju osjetljivi na varijacije. A to je ključna točka: benchmarkovi nisu samo mjerilo usporedbe modela, već i skriveni regulator koji određuje koji će modeli dobiti financiranje, medijsku pažnju i — na kraju — dominaciju na tržištu.

Demo nasuprot deploymenta: zašto su trenutni standardi ocjenjivanja AI-a manje pouzdani nego što se pretpostavlja

Demo nasuprot deploymenta: zašto su trenutni standardi ocjenjivanja AI-a manje pouzdani nego što se pretpostavlja📷 © Tech&Space

Demo nasuprot deploymenta: zašto su trenutni standardi ocjenjivanja AI-a manje pouzdani nego što se pretpostavlja

Još zanimljivije je otkriće da 1.000 anotacija može biti dovoljno za pouzdane rezultate — ali samo ako se proračun pametno podijeli. Drugim riječima, problem nije koliko novca ulivate u ocjenjivanje, već kako ga koristite.

To je neugodna poruka za startupe koji se natječu u benchmark ratovima: više anotacija ne znači automatski bolji model, ako su one loše distribuirane. Ovdje se nameće pitanje: koliko trenutnih 'najboljih' modela zapravo duguje svoju reputaciju sretnom izboru ocjenjivača, a ne stvarnoj superiornosti?

Industrija AI-a voli benchmarkove jer pružaju iluziju objektivnosti — brojke koje se mogu usporediti, grafovi za prezentacije, argumenti za investitore. Ali ovaj studij podsjeća da su ti brojevi često izgrađeni na pijesku: malim uzorcima, nejasnim kriterijima i pretpostavci o ljudskoj slagalici koje jednostavno nisu istinite.

Za svu buku oko 'najboljih modela', stvarna priča je da smo možda godinama gradili hijerarhiju AI-a na temelju metrika koje nisu bile dovoljno robustne. I to možda zvuči kao tehnički detalj, ali je zapravo pitanje tko kontrolira narativ o tome koji AI zaslužuje povjerenje — i tko profitira od trenutnog sustava. Ovo otkriće će vjerojatno imati značajan utjecaj na industriju AI-a i potaknuti nove rasprave o tome kako ocjenjivati modele.

GoogleAI benchmarkingHuman Bias

//Comments

AIDeepSeek’s Engram: A Fix or Just Another Benchmark Mirage?RoboticsZoox’s robotaxis hit the road—but real miles reveal real limitsAIDatabricks buys AI security startups—hype or real edge?RoboticsMotor-free robotic hand shifts shape in under a secondAIArm’s first solo chip: hype meets hardware realityMedicineDown Syndrome StudyAIMeta’s EUPE: A 100M-Param Vision Model That’s Actually UsefulMedicinePediatric epilepsy treatment shows promise—with clear limitsAIAI royalty fraud exposed: $8M scam reveals streaming’s bot problemMedicinePediatric HCM trial: A drug’s cautious step forwardAITalat AI NotesTechnologyPerovskite solar skips cleanrooms—what it really savesAIFlipper Zero Gets AI BoostTechnologyWi-Fi 8: Reliability Over Speed—What It Really MeansAIAI Chip Smuggling ScandalGamingNeuralink trial shows promise—but don’t call it a cure yetAIReleaslyy AI: Automation or Another AI Hallucination?AIClaude Code’s Auto Mode: Safety Theater or Real Progress?AIMeta’s AI shopping assistant: more sizzle than sellAIGoogle’s Quantum Shield for Android 17 Is Mostly a Bet on TomorrowAIDeepSeek’s Engram: A Fix or Just Another Benchmark Mirage?RoboticsZoox’s robotaxis hit the road—but real miles reveal real limitsAIDatabricks buys AI security startups—hype or real edge?RoboticsMotor-free robotic hand shifts shape in under a secondAIArm’s first solo chip: hype meets hardware realityMedicineDown Syndrome StudyAIMeta’s EUPE: A 100M-Param Vision Model That’s Actually UsefulMedicinePediatric epilepsy treatment shows promise—with clear limitsAIAI royalty fraud exposed: $8M scam reveals streaming’s bot problemMedicinePediatric HCM trial: A drug’s cautious step forwardAITalat AI NotesTechnologyPerovskite solar skips cleanrooms—what it really savesAIFlipper Zero Gets AI BoostTechnologyWi-Fi 8: Reliability Over Speed—What It Really MeansAIAI Chip Smuggling ScandalGamingNeuralink trial shows promise—but don’t call it a cure yetAIReleaslyy AI: Automation or Another AI Hallucination?AIClaude Code’s Auto Mode: Safety Theater or Real Progress?AIMeta’s AI shopping assistant: more sizzle than sellAIGoogle’s Quantum Shield for Android 17 Is Mostly a Bet on Tomorrow
⊞ Foto Review