Populaire AI-chatbots geven, ondanks dat ze gezaghebbend lijken, vaak gevaarlijk onnauwkeurig gezondheidsadvies, waaronder bizarre aanbevelingen zoals het rectaal inbrengen van knoflook om de immuniteit te versterken. Uit recente onderzoeken van The Lancet Digital Health en Nature Medicine blijkt dat deze hulpmiddelen niet betrouwbaarder zijn dan een eenvoudige zoekopdracht op internet – en mogelijk zelfs slechter zijn voor de gemiddelde gebruiker.

Het probleem met AI-expertise

Het kernprobleem is niet dat chatbots net zo falen als mensen; het is dat ze zonder aarzeling falen. Een menselijke arts die niet zeker was van een diagnose, pauzeerde, zocht verdere tests of raadpleegde collega’s. Een AI-chatbot levert onjuiste informatie met hetzelfde onwankelbare vertrouwen als correct advies. Dit is vooral gevaarlijk omdat LLM’s (Large Language Models) zijn getraind om de toon van medische professionals na te bootsen, waardoor valse beweringen legitiem lijken.

Toen onderzoekers bijvoorbeeld chatbots met medische desinformatie in gewone taal presenteerden, waren de modellen minder dan 10% van de tijd sceptisch. Toen dezelfde valse claim echter opnieuw werd verpakt in formele klinische taal – zoals een ontslagbrief waarin ‘koude melk voor slokdarmbloedingen’ of ‘rectale knoflookinbrenging ter ondersteuning van het immuunsysteem’ werd aanbevolen – steeg het percentage mislukkingen naar 46%. De AI evalueert de waarheid niet, maar evalueert hoe gezaghebbend de taal klinkt.

Waarom chatbots falen in de gezondheidszorg

LLM’s zijn getraind in enorme tekstdatasets, waaronder medische literatuur, en slagen vaak met hoge scores voor medische licentie-examens. Desondanks kunnen ze geen betrouwbaar onderscheid maken tussen feit en fictie. Meer dan 40 miljoen mensen gebruiken ChatGPT dagelijks voor medische vragen, maar onderzoekers ontdekten dat ongeveer één op de drie keer dat chatbots te maken krijgen met verkeerde informatie, ze accepteren deze eenvoudigweg.

Het probleem is structureel: LLM’s hebben geleerd internetargumenten te wantrouwen, maar niet de taal van klinische documentatie. Ze testen niet of een bewering waar is; ze beoordelen of het klinkt als iets dat een betrouwbare bron zou zeggen. Dit maakt hen bijzonder kwetsbaar voor desinformatie die op gezaghebbende toon wordt gepresenteerd.

Niet beter dan Google

Uit een afzonderlijk onderzoek in Nature Medicine is gebleken dat chatbots niet meer inzicht bieden dan een traditionele internetzoekopdracht wanneer ze mensen helpen beslissen of ze naar de dokter gaan of naar de Eerste Hulp gaan. Deelnemers stelden vaak slechte vragen, en de antwoorden combineerden goed en slecht advies, waardoor het voor gebruikers onmogelijk werd om te bepalen wat ze moesten doen.

Hoewel chatbots in sommige gevallen nuttige aanbevelingen kunnen geven, kunnen mensen zonder medische expertise de nauwkeurigheid van de resultaten niet beoordelen. Een chatbot kan iemand bijvoorbeeld ten onrechte adviseren om af te wachten bij ernstige hoofdpijn die meningitis zou kunnen zijn, een mogelijk fatale fout.

Hoewel het waarschijnlijk in veel situaties nuttig kan zijn, kan het in andere situaties actief schadelijk zijn.

Het eindresultaat

AI-chatbots zijn geen betrouwbaar hulpmiddel voor beslissingen op het gebied van de volksgezondheid. Ze zijn niet bedoeld ter vervanging van medische expertise, en erop vertrouwen voor ernstige gezondheidsvragen kan gevaarlijk zijn. Hoewel ze in de toekomst mogelijk in de geneeskunde zullen worden toegepast, is het huidige gebruik ervan voor zelfdiagnose of behandeling onverantwoord.

попередня статтяVroege zwangerschap kan het risico op borstkanker verminderen: cellulaire eigenaardigheden bieden aanwijzingen
наступна статтяHet vergeten partnerschap: waarom mensen zich opnieuw moeten verbinden met de natuurlijke wereld