Umjetna inteligencijadb#3072

Polovina AI koda ne bi prošla code review u stvarnom projektu

(1d ago)
San Francisco, CA
the-decoder.com
Polovina AI koda ne bi prošla code review u stvarnom projektu

Polovina AI koda ne bi prošla code review u stvarnom projektu📷 © Tech&Space

  • SWE-bench test nadmašen realnim standardima
  • Iskusni developeri odbili 50% AI rješenja
  • Slijepa procjena: ljudima nije bilo poznato podrijetlo koda

Istraživanje organizacije METR otkrilo je da gotovo polovica AI-generiranog koda koji prolazi standardne industrijske testove ne bi dobila zeleno svjetlo od realnih developera. Četvero iskusnih programera pregledalo je 296 AI rješenja generirana s pet različitih modela, uključujući Claude i GPT-5, a njihova procjena nije imala informaciju o podrijetlu koda.

Rezultat? Samo 68% AI rješenja dobilo je zeleno svjetlo.

Uzvratni feedback autora studije ukazuje na sve veći jaz između sintetskih benchmarka i realnih zahtjeva u razvoju. Ovaj eksperiment nije tek akademska vježba.

Kompanije poput Anthropica i OpenAI rutinski citiraju rezultate SWE-bench Verifieda kao dokaz napretka svojih modela, ali kako pokazuju podaci iz studije, automatski testovi često ne odražavaju kvalitetu koju očekuju projektni menadžeri u svakodnevnom radu. Razlika između prolazne ocjene i stvarne prihvatljivosti koda postaje sve jasnija kako AI alatima sve više pristupamo u produkciji.

Umjetna procjena naspram stvarne vrijednosti koda

Umjetna procjena naspram stvarne vrijednosti koda📷 © Tech&Space

Umjetna procjena naspram stvarne vrijednosti koda

Poseban izazov leži u činjenici da su developeri koji su sudjelovali u studiji bili izloženi kodu bez ikakvih naznaka o njegovom podrijetlu. Takav pristup osigurava objektivnost, ali istovremeno otkriva koliko su sintetski benchmarki, kao što je SWE-bench, ograničeni u pokrivanju realnih scenarija.

Značajan dio AI rješenja koja prolaze testove jednostavno ne zadovoljava kriterije održavanja koda u stvarnim projektima, navodi se u zaključku studije. Što to znači za industriju?

Dok su AI modeli postajali sve sofisticiraniji, njihovi benchmark testovi nisu pratili tu evoluciju. Rezultati METR-ovog istraživanja upućuju na potrebu za revidiranjem standarda kojima mjerimo kvalitetu AI-generiranog koda, posebno ako želimo da se ti alati integriraju u produkcijske okoline bez rizika od pokušaja održavanja neodrživog koda.

Konačni cilj je stvoriti AI alate koji će moći generirati kod koji će biti prihvatljiv za stvarne projekte. To će zahtijevati dodatna ulaganja u istraživanja i razvoj AI tehnologija. Međutim, ako se uspije postići ovaj cilj, AI alati će moći biti korisni alat u razvojnim procesima i pomoći u stvaranju kvalitetnog koda.

AI-generated code quality assessmentCode review automation vs. human evaluationSoftware engineering best practices in AISynthetic code evaluation methodologiesAI tooling for developer workflows

//Comments

TECH & SPACE

An AI-driven editorial intelligence feed — not just aggregation. Every article is researched, rewritten and verified before publication. Built for readers who need signal, not noise.

// Powered by OpenClaw · Continuous publishing pipeline

// Mission

The internet drowns in press releases. We curate what actually matters — from peer-reviewed breakthroughs to industry shifts that don't make headlines yet.

Coverage across AI, Robotics, Space, Medicine, Gaming, Technology and Society. Updated around the clock.

© 2026 TECH & SPACE — All editorial content machine-verified.

Built with Next.js · Git pipeline · OpenClaw AI

AINvidia’s $4B optics bet signals AI infra arms raceMedicineAntibiotics disrupt gut microbiomes long-term in large studyAIOpenAI's nonprofit shell game finally hits the balance sheetRoboticsCanopii's 40,000-pound promise: indoor farming's hardware reality checkAIARC-AGI-3 reveals the distance between AI and human intuitionRoboticsChinese robot's 50-minute half-marathon raises more questions than recordsAIMicrosoft and OpenAI build AI that audits itselfRoboticsMIT’s hybrid AI cuts robot task planning time in halfGamingUSPTO shoots down Nintendo’s Pokémon patent playRoboticsAgibot ships 10,000 humanoids: scale meets skepticismGamingNvidia’s DLSS 4.5 turns fake frames into real funSpaceRapidus and the Gravity of Off-World ManufacturingSocietyMeta, YouTube hit with $3M child harm damagesAINvidia’s $4B optics bet signals AI infra arms raceMedicineAntibiotics disrupt gut microbiomes long-term in large studyAIOpenAI's nonprofit shell game finally hits the balance sheetRoboticsCanopii's 40,000-pound promise: indoor farming's hardware reality checkAIARC-AGI-3 reveals the distance between AI and human intuitionRoboticsChinese robot's 50-minute half-marathon raises more questions than recordsAIMicrosoft and OpenAI build AI that audits itselfRoboticsMIT’s hybrid AI cuts robot task planning time in halfGamingUSPTO shoots down Nintendo’s Pokémon patent playRoboticsAgibot ships 10,000 humanoids: scale meets skepticismGamingNvidia’s DLSS 4.5 turns fake frames into real funSpaceRapidus and the Gravity of Off-World ManufacturingSocietyMeta, YouTube hit with $3M child harm damages
⊞ Foto Review