Polovina AI koda ne bi prošla code review u stvarnom projektu

Polovina AI koda ne bi prošla code review u stvarnom projektu📷 © Tech&Space
- ★SWE-bench test nadmašen realnim standardima
- ★Iskusni developeri odbili 50% AI rješenja
- ★Slijepa procjena: ljudima nije bilo poznato podrijetlo koda
Istraživanje organizacije METR otkrilo je da gotovo polovica AI-generiranog koda koji prolazi standardne industrijske testove ne bi dobila zeleno svjetlo od realnih developera. Četvero iskusnih programera pregledalo je 296 AI rješenja generirana s pet različitih modela, uključujući Claude i GPT-5, a njihova procjena nije imala informaciju o podrijetlu koda.
Rezultat? Samo 68% AI rješenja dobilo je zeleno svjetlo.
Uzvratni feedback autora studije ukazuje na sve veći jaz između sintetskih benchmarka i realnih zahtjeva u razvoju. Ovaj eksperiment nije tek akademska vježba.
Kompanije poput Anthropica i OpenAI rutinski citiraju rezultate SWE-bench Verifieda kao dokaz napretka svojih modela, ali kako pokazuju podaci iz studije, automatski testovi često ne odražavaju kvalitetu koju očekuju projektni menadžeri u svakodnevnom radu. Razlika između prolazne ocjene i stvarne prihvatljivosti koda postaje sve jasnija kako AI alatima sve više pristupamo u produkciji.

Umjetna procjena naspram stvarne vrijednosti koda📷 © Tech&Space
Umjetna procjena naspram stvarne vrijednosti koda
Poseban izazov leži u činjenici da su developeri koji su sudjelovali u studiji bili izloženi kodu bez ikakvih naznaka o njegovom podrijetlu. Takav pristup osigurava objektivnost, ali istovremeno otkriva koliko su sintetski benchmarki, kao što je SWE-bench, ograničeni u pokrivanju realnih scenarija.
Značajan dio AI rješenja koja prolaze testove jednostavno ne zadovoljava kriterije održavanja koda u stvarnim projektima, navodi se u zaključku studije. Što to znači za industriju?
Dok su AI modeli postajali sve sofisticiraniji, njihovi benchmark testovi nisu pratili tu evoluciju. Rezultati METR-ovog istraživanja upućuju na potrebu za revidiranjem standarda kojima mjerimo kvalitetu AI-generiranog koda, posebno ako želimo da se ti alati integriraju u produkcijske okoline bez rizika od pokušaja održavanja neodrživog koda.
Konačni cilj je stvoriti AI alate koji će moći generirati kod koji će biti prihvatljiv za stvarne projekte. To će zahtijevati dodatna ulaganja u istraživanja i razvoj AI tehnologija. Međutim, ako se uspije postići ovaj cilj, AI alati će moći biti korisni alat u razvojnim procesima i pomoći u stvaranju kvalitetnog koda.