Umjetna inteligencijadb#2358

Benchmarci za AI su slomljeni: što dolazi umjesto njih

(3d ago)
Cambridge, Massachusetts, United States
technologyreview.com
Benchmarci za AI su slomljeni: što dolazi umjesto njih

Benchmarci za AI su slomljeni: što dolazi umjesto njih📷 © Tech&Space

  • 98% preciznost AI-a u medicinskim skenovima
  • HAIC benchmarki mijenjaju pravila igre
  • Tradicionalni testovi ne prate stvarnu uporabu

Već desetljećima ai se ocjenjuje po jednoj jedinoj mjeri: može li pobijediti čovjeka. Od šaha do matematičkih zadataka, od kodiranja do pisanja eseja — sve se svodilo na usporedbu s pojedinačnim ljudskim performansama.

Problem? Ta usporedba je ne samo zavodljiva, već i temeljito pogrešna. MIT Tech Review ističe da su trenutni benchmarki stvoreni za izolirane zadatke s jasnim ishodima, a ne za stvarni svijet u kojem ai surađuje s ljudima.

Primjer koji najbolje ilustrira jaz između benchmarka i stvarnosti dolazi iz medicine. FDA-odobreni ai modeli čitaju medicinske skenove s 98-postotnom preciznošću — brže i točnije od najboljih radiologa.

No, što se događa kada isti model uđe u stvarni bolnički tim? Tada benchmarki koji mjere samo točnost postaju besmisleni. Nature pokazuje da ključna mjera nije samo brzina, već kako se ai uklapa u postojeće radne procese.

Istraživači su to prepoznali još 2022. godine, kada su počeli razvijati HAIC (Human–AI, Context-Specific Evaluation) benchmarke. Umjesto da mjere ai izolirano, HAIC benchmarki ocjenjuju kako ai funkcionira u stvarnim scenarijima — s ljudskim timovima, nepredvidivim varijablama i dugoročnim posljedicama.

Od šaha do timskog rada: kako AI napokon mjerimo onako kako se koristi

Od šaha do timskog rada: kako AI napokon mjerimo onako kako se koristi📷 © Tech&Space

Od šaha do timskog rada: kako AI napokon mjerimo onako kako se koristi

No, zašto je ovaj zaokret bitan? Zato što trenutni benchmarki stvaraju lažnu sliku o ai sposobnostima.

Tvrtke poput DeepMind i OpenAI godinama plasiraju svoje modele kao 'nadljudske' na temelju sintetičkih testova, ali stvarna uporaba često otkriva potpuno drugačiju sliku. Primjerice, ai koji savršeno rješava matematičke probleme u laboratoriju može potpuno zakazati kada se suoči s nejasnim uputama ili stvarnim podacima.

HAIC benchmarki ne rješavaju sve probleme, ali barem postavljaju pravo pitanje: kako ai funkcionira u stvarnom svijetu? To znači da će se ocjenjivati ne samo točnost, već i pouzdanost, prilagodljivost i sposobnost suradnje s ljudima. IEEE Spectrum ističe da će ovakav pristup možda usporiti objavu novih modela, ali će dugoročno stvoriti pouzdanije i korisnije sustave.

Za industriju, ovo znači da će se fokus pomaknuti s marketinga na stvarne performanse. Tvrtke koje su se do sada oslanjale na benchmarke kao dokaz superiornosti morat će pronaći nove načine dokazivanja vrijednosti.

S druge strane, postoji i mogućnost da će ovi novi benchmarki stvoriti nove izazove i probleme. Na primjer, kako će se osigurati da su HAIC benchmarki objektivni i nepristrani? Kako će se spriječiti da se ai sustavi ne optimiziraju samo za prolazak benchmarka, nego da će biti korisni u stvarnom svijetu? Ovi su pitanja koja će trebati biti riješena u skorijoj budućnosti.

AI benchmarking alternativesAI evaluation frameworksLLM performance metricsAI teamwork/cooperative task assessmentAI real-world usability testing

//Comments

RoboticsBaidu robotaxis grounded: China’s traffic chaos exposes real-world limitsAIDisney’s $1B AI bet collapses before the first frameMedicineInflammation’s Epigenetic Scars May Linger, Raising Colon Cancer RiskAIMistral’s tiny speech model fits on a watch—so what?MedicineBrain aging’s genetic map: AI hype vs. Alzheimer’s realityAIPorn’s AI Clones Aren’t Immortal—Just Better PackagedMedicine$100M federal bet on joint regeneration—what the trials can (and can’t) proveAIGitHub’s Copilot data grab: opt-out or be trainedMedicineRNA Sequencing UnifiesAIAI’s dirty little secret: secure by default is a mythSpaceEarth Formed From Inner Solar SystemAI$70M for AI code verification—because shipping works, not just generating itSpaceYouTube’s AI cloning tool exposes a deeper problemAIAI traffic now outpaces humans—but who’s really winning?SpaceSmile Mission to X-Ray Earth’s Magnetic ShieldAIGemini Live’s voice downgrade: AI progress or collateral damage?SpaceGamma Cas’s X-Ray Mystery Solved After 40 YearsGamingNvidia’s AI art war: Why players are sharpening the pitchforksSpaceUK’s AI probe into Microsoft isn’t just about Windows—it’s about controlTechnologyLeaked iPhone hacking tool exposes Apple’s zero-click blind spotRoboticsBaidu robotaxis grounded: China’s traffic chaos exposes real-world limitsAIDisney’s $1B AI bet collapses before the first frameMedicineInflammation’s Epigenetic Scars May Linger, Raising Colon Cancer RiskAIMistral’s tiny speech model fits on a watch—so what?MedicineBrain aging’s genetic map: AI hype vs. Alzheimer’s realityAIPorn’s AI Clones Aren’t Immortal—Just Better PackagedMedicine$100M federal bet on joint regeneration—what the trials can (and can’t) proveAIGitHub’s Copilot data grab: opt-out or be trainedMedicineRNA Sequencing UnifiesAIAI’s dirty little secret: secure by default is a mythSpaceEarth Formed From Inner Solar SystemAI$70M for AI code verification—because shipping works, not just generating itSpaceYouTube’s AI cloning tool exposes a deeper problemAIAI traffic now outpaces humans—but who’s really winning?SpaceSmile Mission to X-Ray Earth’s Magnetic ShieldAIGemini Live’s voice downgrade: AI progress or collateral damage?SpaceGamma Cas’s X-Ray Mystery Solved After 40 YearsGamingNvidia’s AI art war: Why players are sharpening the pitchforksSpaceUK’s AI probe into Microsoft isn’t just about Windows—it’s about controlTechnologyLeaked iPhone hacking tool exposes Apple’s zero-click blind spot
⊞ Foto Review