Umjetna inteligencijadb#1545

AI liječnici: Chatbotovi gore od Googla za samodijagnozu

(1w ago)
Mountain View, CA
medicalxpress.com
AI liječnici: Chatbotovi gore od Googla za samodijagnozu

AI liječnici: Chatbotovi gore od Googla za samodijagnozu📷 © Tech&Space

  • Chatbotovi pogoršavaju točnost samodijagnoze
  • Prošli medicinske ispite, ali propadaju u praksi
  • Tko profitira od ovoga — a tko će platiti cijenu?

Studija objavljena u MedicalXpressu potvrđuje ono što su skeptici već dugo sumnjali: AI chatbotovi ne samo da ne poboljšavaju samodijagnozu, nego je čine gorem. Ispitanici koji su koristili popularne LLMs za procjenu simptoma bili su manje vjerojatni da točno identifikiraju svoj zdravstveni problem nego kontrolna skupina koja uopće nije koristila alate.

Ironično, isti modeli koji prolaze medicinske licence s 90%+ točnošću u teoriji, u praksi zaboravljaju pitati ključna pitanja — poput kada su simptomi počeli ili je li pacijent uzimao lijekove. To nije samo problem 'lošeg UX-a'. Razlika između benchmarka i realnog svijeta ovdje je smrtonosna: chatbotovi su trenirani na statičnim podacima, dok je medicina dinamičan proces pun iznimki.

Na primjer, model može savršeno opisati simptome upale pluća, ali će propustiti upozoriti da isti kašalj kod pušača od 20 godina može značiti nešto sasvim drugo. Britanski glavni liječnik upozorio je na ove rizike još 2023., ali tek sad imamo brojeve koji potkrepljuju skepsu.

Dodatni problem? Chatbotovi ne znaju šutjeti. Umjesto da kažu 'Ne znam' ili 'Idi kod liječnika', generiraju uvjerljive (ali pogrešne) odgovore.

Prema studiji, 68% ispitanika koji su koristili AI mislilo je da je dobilo 'potpunu i točnu' procjenu — iako je objektivna točnost bila ispod 50%. To nije bug, to je feature: LLMs su optimizirani za samopouzdanje, ne za skromnost.

Benchmark vs. stvarni svijet: Zašto LLMs neće zamijeniti liječnike usprkos 90% točnosti na ispitima

Benchmark vs. stvarni svijet: Zašto LLMs neće zamijeniti liječnike usprkos 90% točnosti na ispitima📷 © Tech&Space

Benchmark vs. stvarni svijet: Zašto LLMs neće zamijeniti liječnike usprkos 90% točnosti na ispitima

Tehnički gledano, problem nije u medicinskom znanju modela, već u nedostatku kontekstualne inteligencije. Chatbotovi ne razumiju zašto pacijent postavlja pitanje: da li je to iz zabrine, hipohondrije, ili pokušaja da izbjegne posjet liječniku? Istraživanje MIT-a pokazuje da LLMs u 89% slučajeva ne prepoznaju emocionalni kontekst pitanja — što dovodi do odgovora koji su tehnički točni, ali klinički beskorisni.

Primjer: ako pitate 'Jesam li u opasnosti od srca?' nakon šetnje brzim korakom, chatbot će vam reci statistiku o infarktu, a ne pitati koliko ste stari ili imate li obiteljsku anamnezu. Tržišni efekt ovoga je dvostruk. 1) Velike tech kompanije (poput Googlea i Microsofta) i dalje će prodavati 'AI zdravstvene asistente' bolnicama — ali s fine-printom da su to 'samo alati za edukaciju'. 2) Startupi koji nude 'AI dijagnozu' (npr. Ada Health) sada moraju ili smanjiti obećanja ili uložiti u ljudsku validaciju.

Regulatorni pritisak raste: EU AI Act već klasificira zdravstvene chatbote kao 'visokorizične' — što znači skupe certifikacije i odgođene lansiranja. Zanimljivije od same studije je što developer community nije iznenađen.

Na GitHubu i Hacker News-u, reakcije kreću od 'Tko je mislio da će ovo ikad funkcionirati?' do detaljnih rasprava o tome kako bi fine-tuning na specifične simptome mogao pomoći — ali samo za uske slučajeve upitnika. Pravi signal ovdje nije u tome da AI 'ne radi', već da zdravstvo nije problem koji se može riješiti skaliranjem podataka.

I tu priča postaje zanimljivija od same objave: ako chatbotovi ne mogu ni osnovnu samodijagnozu, što zapravo prodajemo kada kažemo 'AI u zdravstvu'?

Ovo istraživanje pokazuje da je potrebno preispitati ulogu AI u zdravstvu i razviti nove pristupe koji će uzeti u obzir kompleksnost ljudskog zdravlja. Također, potrebno je educirati javnost o ograničenjima AI tehnologija u zdravstvu. Na kraju, cilj je stvoriti sustav koji će omogućiti sigurnu i učinkovitu dijagnozu i liječenje, a to nije moguće bez ljudske intervencije i pregleda.

LLMsMedical DiagnosisChatbotsBenchmarking

//Comments

RoboticsBaidu robotaxis grounded: China’s traffic chaos exposes real-world limitsAIDisney’s $1B AI bet collapses before the first frameMedicineInflammation’s Epigenetic Scars May Linger, Raising Colon Cancer RiskAIMistral’s tiny speech model fits on a watch—so what?MedicineBrain aging’s genetic map: AI hype vs. Alzheimer’s realityAIPorn’s AI Clones Aren’t Immortal—Just Better PackagedMedicine$100M federal bet on joint regeneration—what the trials can (and can’t) proveAIGitHub’s Copilot data grab: opt-out or be trainedMedicineRNA Sequencing UnifiesAIAI’s dirty little secret: secure by default is a mythSpaceEarth Formed From Inner Solar SystemAI$70M for AI code verification—because shipping works, not just generating itSpaceYouTube’s AI cloning tool exposes a deeper problemAIAI traffic now outpaces humans—but who’s really winning?SpaceSmile Mission to X-Ray Earth’s Magnetic ShieldAIGemini Live’s voice downgrade: AI progress or collateral damage?SpaceGamma Cas’s X-Ray Mystery Solved After 40 YearsGamingNvidia’s AI art war: Why players are sharpening the pitchforksSpaceUK’s AI probe into Microsoft isn’t just about Windows—it’s about controlTechnologyLeaked iPhone hacking tool exposes Apple’s zero-click blind spotRoboticsBaidu robotaxis grounded: China’s traffic chaos exposes real-world limitsAIDisney’s $1B AI bet collapses before the first frameMedicineInflammation’s Epigenetic Scars May Linger, Raising Colon Cancer RiskAIMistral’s tiny speech model fits on a watch—so what?MedicineBrain aging’s genetic map: AI hype vs. Alzheimer’s realityAIPorn’s AI Clones Aren’t Immortal—Just Better PackagedMedicine$100M federal bet on joint regeneration—what the trials can (and can’t) proveAIGitHub’s Copilot data grab: opt-out or be trainedMedicineRNA Sequencing UnifiesAIAI’s dirty little secret: secure by default is a mythSpaceEarth Formed From Inner Solar SystemAI$70M for AI code verification—because shipping works, not just generating itSpaceYouTube’s AI cloning tool exposes a deeper problemAIAI traffic now outpaces humans—but who’s really winning?SpaceSmile Mission to X-Ray Earth’s Magnetic ShieldAIGemini Live’s voice downgrade: AI progress or collateral damage?SpaceGamma Cas’s X-Ray Mystery Solved After 40 YearsGamingNvidia’s AI art war: Why players are sharpening the pitchforksSpaceUK’s AI probe into Microsoft isn’t just about Windows—it’s about controlTechnologyLeaked iPhone hacking tool exposes Apple’s zero-click blind spot
⊞ Foto Review