AI liječnici: Chatbotovi gore od Googla za samodijagnozu

AI liječnici: Chatbotovi gore od Googla za samodijagnozu📷 © Tech&Space
- ★Chatbotovi pogoršavaju točnost samodijagnoze
- ★Prošli medicinske ispite, ali propadaju u praksi
- ★Tko profitira od ovoga — a tko će platiti cijenu?
Studija objavljena u MedicalXpressu potvrđuje ono što su skeptici već dugo sumnjali: AI chatbotovi ne samo da ne poboljšavaju samodijagnozu, nego je čine gorem. Ispitanici koji su koristili popularne LLMs za procjenu simptoma bili su manje vjerojatni da točno identifikiraju svoj zdravstveni problem nego kontrolna skupina koja uopće nije koristila alate.
Ironično, isti modeli koji prolaze medicinske licence s 90%+ točnošću u teoriji, u praksi zaboravljaju pitati ključna pitanja — poput kada su simptomi počeli ili je li pacijent uzimao lijekove. To nije samo problem 'lošeg UX-a'. Razlika između benchmarka i realnog svijeta ovdje je smrtonosna: chatbotovi su trenirani na statičnim podacima, dok je medicina dinamičan proces pun iznimki.
Na primjer, model može savršeno opisati simptome upale pluća, ali će propustiti upozoriti da isti kašalj kod pušača od 20 godina može značiti nešto sasvim drugo. Britanski glavni liječnik upozorio je na ove rizike još 2023., ali tek sad imamo brojeve koji potkrepljuju skepsu.
Dodatni problem? Chatbotovi ne znaju šutjeti. Umjesto da kažu 'Ne znam' ili 'Idi kod liječnika', generiraju uvjerljive (ali pogrešne) odgovore.
Prema studiji, 68% ispitanika koji su koristili AI mislilo je da je dobilo 'potpunu i točnu' procjenu — iako je objektivna točnost bila ispod 50%. To nije bug, to je feature: LLMs su optimizirani za samopouzdanje, ne za skromnost.

Benchmark vs. stvarni svijet: Zašto LLMs neće zamijeniti liječnike usprkos 90% točnosti na ispitima📷 © Tech&Space
Benchmark vs. stvarni svijet: Zašto LLMs neće zamijeniti liječnike usprkos 90% točnosti na ispitima
Tehnički gledano, problem nije u medicinskom znanju modela, već u nedostatku kontekstualne inteligencije. Chatbotovi ne razumiju zašto pacijent postavlja pitanje: da li je to iz zabrine, hipohondrije, ili pokušaja da izbjegne posjet liječniku? Istraživanje MIT-a pokazuje da LLMs u 89% slučajeva ne prepoznaju emocionalni kontekst pitanja — što dovodi do odgovora koji su tehnički točni, ali klinički beskorisni.
Primjer: ako pitate 'Jesam li u opasnosti od srca?' nakon šetnje brzim korakom, chatbot će vam reci statistiku o infarktu, a ne pitati koliko ste stari ili imate li obiteljsku anamnezu. Tržišni efekt ovoga je dvostruk. 1) Velike tech kompanije (poput Googlea i Microsofta) i dalje će prodavati 'AI zdravstvene asistente' bolnicama — ali s fine-printom da su to 'samo alati za edukaciju'. 2) Startupi koji nude 'AI dijagnozu' (npr. Ada Health) sada moraju ili smanjiti obećanja ili uložiti u ljudsku validaciju.
Regulatorni pritisak raste: EU AI Act već klasificira zdravstvene chatbote kao 'visokorizične' — što znači skupe certifikacije i odgođene lansiranja. Zanimljivije od same studije je što developer community nije iznenađen.
Na GitHubu i Hacker News-u, reakcije kreću od 'Tko je mislio da će ovo ikad funkcionirati?' do detaljnih rasprava o tome kako bi fine-tuning na specifične simptome mogao pomoći — ali samo za uske slučajeve upitnika. Pravi signal ovdje nije u tome da AI 'ne radi', već da zdravstvo nije problem koji se može riješiti skaliranjem podataka.
I tu priča postaje zanimljivija od same objave: ako chatbotovi ne mogu ni osnovnu samodijagnozu, što zapravo prodajemo kada kažemo 'AI u zdravstvu'?
Ovo istraživanje pokazuje da je potrebno preispitati ulogu AI u zdravstvu i razviti nove pristupe koji će uzeti u obzir kompleksnost ljudskog zdravlja. Također, potrebno je educirati javnost o ograničenjima AI tehnologija u zdravstvu. Na kraju, cilj je stvoriti sustav koji će omogućiti sigurnu i učinkovitu dijagnozu i liječenje, a to nije moguće bez ljudske intervencije i pregleda.