// INITIALIZING GLOBE FEED...
Umjetna inteligencijadb#3263

OpenAI tvrdi da GPT-5.4 nadmašuje liječnike — bez obzira na vrijeme

(23h ago)
San Francisco, United States
the-decoder.com
OpenAI tvrdi da GPT-5.4 nadmašuje liječnike — bez obzira na vrijeme

OpenAI tvrdi da GPT-5.4 nadmašuje liječnike — bez obzira na vrijeme📷 © Tech&Space

  • GPT-5.4 postigao 59.0 protiv 43.7 liječnika
  • ChatGPT for Clinicians dostupan besplatno
  • HealthBench benchmark bez nezavisne verifikacije

OpenAI je lansirao ChatGPT for Clinicians, besplatnu verziju chatbota namijenjenu medicinskim profesionalcima u SAD-u. Tvrtka istovremeno objavljuje HealthBench Professional benchmark koji navodno pokazuje kako GPT-5.4 nadmašuje ljudske liječnike na kliničkim zadacima — čak i kada liječnici imaju neograničeno vrijeme i pristup internetu. Brojevi zvuče impresivno: GPT-5.4 postigao je 59,0 bodova, dok su liječnici zaustavljeni na 43,7.

Prema Karanu Singhalu iz OpenAI-ovog zdravstvenog odjela, 99,6 posto odgovora ocijenjeno je sigurnim i točnim. Alat uključuje značajke poput pretraga kliničkih smjernica u stvarnom vremenu i automatskog prepoznavanja kredita za stalno medicinsko obrazovanje. Međutim, detalji metodologije benchmarka ostaju neprozirni.

Što točno testira HealthBench? Koje kliničke scenarije? Kako su definirani 'točni' odgovori?

Bez nezavisne verifikacije, ovi brojevi su marketing materijal koliko i znanstveni podatak. OpenAI nije prvi igrač u ovom prostoru, ali njihov alat izgleda obećavajuće. ChatGPT for Clinicians razvijen je uz pomoć stotina medicinskih savjetnika i testiran na 6.924 razgovora.

Benchmark nasuprot stvarne kliničke prakse

Benchmark nasuprot stvarne kliničke prakse📷 © Tech&Space

Benchmark nasuprot stvarne kliničke prakse

Anthropicov Claude Opus 4.7 postigao je 48,1, a Googleov Gemini 3.1 Pro 47,0 bodova na istom testu. Razlika između prvog i drugog mjesta značajna je, ali kontekst je ključan — sintetički benchmarkovi rijetko prežive kontakt s realnom kliničkom praksom.

To zvuči robustno, dok ne shvatimo da je alat dostupan samo u SAD-u i samo za verificirane zdravstvene radnike. Globalna primjenjivost ostaje otvoreno pitanje.

Ključno pitanje nije može li AI postići više bodova od liječnika na testu. Ključno je hoće li liječnici zaista integrirati ovaj alat u svoj rad — i hoće li regulatori dopustiti takvu integraciju prije nego što neovisni istraživači potvrde te sigurnosne statistike.

Regulatori i stručnjaci moraju pažljivo proučiti rezultate i metodologiju iza njih. Znanstvena zajednica mora biti uključena u proces verifikacije i validacije rezultata.

Razvoj ChatGPT for Clinicians je samo početak. OpenAI mora nastaviti raditi na unapređenju svog alata, kao i na edukaciji liječnika i javnosti o njegovim mogućnostima i ograničenjima. Također, važno je osigurati da alat bude dostupan svima koji ga trebaju, ne samo u SAD-u.

GPT-5.4 clinical benchmarkingAI vs. physician performance comparisonOpenAI medical reasoning evaluationLarge language models in healthcare diagnosticsBenchmarking LLMs against real-world medical expertise

//Comments

TECH & SPACE

Uredničko informiranje s fronte tehnologije — UI, svemir, robotika i sve što dolazi.

// Kontinuirani pipeline objavljivanja

// Misija

Internet je preplavljen priopćenjima. Mi izvlačimo ono što stvarno vrijedi — recenzirane proboje, industrijske pomake i signale koji još ne dospijevaju u naslove.

Ažurirano neprestano.

© 2026 TECH & SPACE — Sav sadržaj provjeren AI sustavom.

Next.js · AI Pipeline · Open Source

AIGoogle’s 8th-gen TPUs and Agentic Enterprise playSpaceArtemis 2 crosses lunar sphere as Moon return beginsAIBroadcom’s TPU pipeline fuels Anthropic’s $30B growth claimGamingNvidia's odd 9GB RTX 5050 is a memory math problem nobody asked forAIAnthropic's Claude can now run your computer while you sleepTechnologyAustralia’s NEM flips: when power pays consumersAIAI data centers’ emissions may rival entire nationsAIChatGPT for Clinicians: Marketing edge or real edge?AIGoogle’s 8th-gen TPUs and Agentic Enterprise playSpaceArtemis 2 crosses lunar sphere as Moon return beginsAIBroadcom’s TPU pipeline fuels Anthropic’s $30B growth claimGamingNvidia's odd 9GB RTX 5050 is a memory math problem nobody asked forAIAnthropic's Claude can now run your computer while you sleepTechnologyAustralia’s NEM flips: when power pays consumersAIAI data centers’ emissions may rival entire nationsAIChatGPT for Clinicians: Marketing edge or real edge?
⊞ Foto Review