Benchmarci za AI su slomljeni: što dolazi umjesto njih

Benchmarci za AI su slomljeni: što dolazi umjesto njih📷 © Tech&Space
- ★98% preciznost AI-a u medicinskim skenovima
- ★HAIC benchmarki mijenjaju pravila igre
- ★Tradicionalni testovi ne prate stvarnu uporabu
Već desetljećima ai se ocjenjuje po jednoj jedinoj mjeri: može li pobijediti čovjeka. Od šaha do matematičkih zadataka, od kodiranja do pisanja eseja — sve se svodilo na usporedbu s pojedinačnim ljudskim performansama.
Problem? Ta usporedba je ne samo zavodljiva, već i temeljito pogrešna. MIT Tech Review ističe da su trenutni benchmarki stvoreni za izolirane zadatke s jasnim ishodima, a ne za stvarni svijet u kojem ai surađuje s ljudima.
Primjer koji najbolje ilustrira jaz između benchmarka i stvarnosti dolazi iz medicine. FDA-odobreni ai modeli čitaju medicinske skenove s 98-postotnom preciznošću — brže i točnije od najboljih radiologa.
No, što se događa kada isti model uđe u stvarni bolnički tim? Tada benchmarki koji mjere samo točnost postaju besmisleni. Nature pokazuje da ključna mjera nije samo brzina, već kako se ai uklapa u postojeće radne procese.
Istraživači su to prepoznali još 2022. godine, kada su počeli razvijati HAIC (Human–AI, Context-Specific Evaluation) benchmarke. Umjesto da mjere ai izolirano, HAIC benchmarki ocjenjuju kako ai funkcionira u stvarnim scenarijima — s ljudskim timovima, nepredvidivim varijablama i dugoročnim posljedicama.

Od šaha do timskog rada: kako AI napokon mjerimo onako kako se koristi📷 © Tech&Space
Od šaha do timskog rada: kako AI napokon mjerimo onako kako se koristi
No, zašto je ovaj zaokret bitan? Zato što trenutni benchmarki stvaraju lažnu sliku o ai sposobnostima.
Tvrtke poput DeepMind i OpenAI godinama plasiraju svoje modele kao 'nadljudske' na temelju sintetičkih testova, ali stvarna uporaba često otkriva potpuno drugačiju sliku. Primjerice, ai koji savršeno rješava matematičke probleme u laboratoriju može potpuno zakazati kada se suoči s nejasnim uputama ili stvarnim podacima.
HAIC benchmarki ne rješavaju sve probleme, ali barem postavljaju pravo pitanje: kako ai funkcionira u stvarnom svijetu? To znači da će se ocjenjivati ne samo točnost, već i pouzdanost, prilagodljivost i sposobnost suradnje s ljudima. IEEE Spectrum ističe da će ovakav pristup možda usporiti objavu novih modela, ali će dugoročno stvoriti pouzdanije i korisnije sustave.
Za industriju, ovo znači da će se fokus pomaknuti s marketinga na stvarne performanse. Tvrtke koje su se do sada oslanjale na benchmarke kao dokaz superiornosti morat će pronaći nove načine dokazivanja vrijednosti.
S druge strane, postoji i mogućnost da će ovi novi benchmarki stvoriti nove izazove i probleme. Na primjer, kako će se osigurati da su HAIC benchmarki objektivni i nepristrani? Kako će se spriječiti da se ai sustavi ne optimiziraju samo za prolazak benchmarka, nego da će biti korisni u stvarnom svijetu? Ovi su pitanja koja će trebati biti riješena u skorijoj budućnosti.