Umjetna inteligencijadb#3263

OpenAI tvrdi da GPT-5.4 nadmašuje liječnike — bez obzira na vrijeme

23. travnja 2026.12:13(23h ago)

San Francisco, United States

OpenAI tvrdi da GPT-5.4 nadmašuje liječnike — bez obzira na vrijeme📷 © Tech&Space

★GPT-5.4 postigao 59.0 protiv 43.7 liječnika
★ChatGPT for Clinicians dostupan besplatno
★HealthBench benchmark bez nezavisne verifikacije

OpenAI je lansirao ChatGPT for Clinicians, besplatnu verziju chatbota namijenjenu medicinskim profesionalcima u SAD-u. Tvrtka istovremeno objavljuje HealthBench Professional benchmark koji navodno pokazuje kako GPT-5.4 nadmašuje ljudske liječnike na kliničkim zadacima — čak i kada liječnici imaju neograničeno vrijeme i pristup internetu. Brojevi zvuče impresivno: GPT-5.4 postigao je 59,0 bodova, dok su liječnici zaustavljeni na 43,7.

Prema Karanu Singhalu iz OpenAI-ovog zdravstvenog odjela, 99,6 posto odgovora ocijenjeno je sigurnim i točnim. Alat uključuje značajke poput pretraga kliničkih smjernica u stvarnom vremenu i automatskog prepoznavanja kredita za stalno medicinsko obrazovanje. Međutim, detalji metodologije benchmarka ostaju neprozirni.

Što točno testira HealthBench? Koje kliničke scenarije? Kako su definirani 'točni' odgovori?

Bez nezavisne verifikacije, ovi brojevi su marketing materijal koliko i znanstveni podatak. OpenAI nije prvi igrač u ovom prostoru, ali njihov alat izgleda obećavajuće. ChatGPT for Clinicians razvijen je uz pomoć stotina medicinskih savjetnika i testiran na 6.924 razgovora.

Benchmark nasuprot stvarne kliničke prakse📷 © Tech&Space

Benchmark nasuprot stvarne kliničke prakse

Anthropicov Claude Opus 4.7 postigao je 48,1, a Googleov Gemini 3.1 Pro 47,0 bodova na istom testu. Razlika između prvog i drugog mjesta značajna je, ali kontekst je ključan — sintetički benchmarkovi rijetko prežive kontakt s realnom kliničkom praksom.

To zvuči robustno, dok ne shvatimo da je alat dostupan samo u SAD-u i samo za verificirane zdravstvene radnike. Globalna primjenjivost ostaje otvoreno pitanje.

Ključno pitanje nije može li AI postići više bodova od liječnika na testu. Ključno je hoće li liječnici zaista integrirati ovaj alat u svoj rad — i hoće li regulatori dopustiti takvu integraciju prije nego što neovisni istraživači potvrde te sigurnosne statistike.

Regulatori i stručnjaci moraju pažljivo proučiti rezultate i metodologiju iza njih. Znanstvena zajednica mora biti uključena u proces verifikacije i validacije rezultata.

Razvoj ChatGPT for Clinicians je samo početak. OpenAI mora nastaviti raditi na unapređenju svog alata, kao i na edukaciji liječnika i javnosti o njegovim mogućnostima i ograničenjima. Također, važno je osigurati da alat bude dostupan svima koji ga trebaju, ne samo u SAD-u.

GPT-5.4 clinical benchmarkingAI vs. physician performance comparisonOpenAI medical reasoning evaluationLarge language models in healthcare diagnosticsBenchmarking LLMs against real-world medical expertise

//Comments

Uredi u foto-review →