I popolari chatbot basati sull’intelligenza artificiale, nonostante appaiano autorevoli, spesso forniscono consigli sanitari pericolosamente imprecisi, inclusi consigli bizzarri come l’inserimento dell’aglio per via rettale per rafforzare l’immunità. Studi recenti di The Lancet Digital Health e Nature Medicine rivelano che questi strumenti non sono più affidabili di una semplice ricerca su Internet e potrebbero addirittura essere peggiori per l’utente medio.
Il problema della “competenza” dell’IA
Il problema principale non è che i chatbot falliscono come gli umani; è che falliscono senza esitazione. Un medico umano, incerto su una diagnosi, farebbe una pausa, cercherebbe ulteriori test o consulterebbe i colleghi. Un chatbot AI fornisce informazioni errate con la stessa incrollabile sicurezza dei consigli corretti. Ciò è particolarmente pericoloso perché i LLM (Large Language Models) sono addestrati a imitare il tono dei professionisti medici, facendo apparire legittime le false affermazioni.
Ad esempio, quando i ricercatori hanno presentato ai chatbot disinformazione medica in un linguaggio casuale, i modelli erano scettici meno del 10% delle volte. Tuttavia, quando la stessa falsa affermazione è stata riconfezionata in un linguaggio clinico formale, come una nota di dimissione che raccomandava “latte freddo per sanguinamento esofageo” o “inserimento di aglio nel retto per supporto immunitario”, il tasso di fallimento è balzato al 46%. L’intelligenza artificiale non sta valutando la verità, sta valutando quanto autorevole suona la lingua.
Perché i chatbot falliscono nel settore sanitario
Gli LLM vengono formati su enormi set di dati di testo, inclusa la letteratura medica, e spesso superano gli esami di licenza medica con punteggi elevati. Nonostante ciò, non riescono a distinguere in modo affidabile tra realtà e finzione. Oltre 40 milioni di persone utilizzano ChatGPT quotidianamente per domande mediche, ma i ricercatori hanno scoperto che circa un caso su tre i chatbot incontrano disinformazione, semplicemente la accettano.
La questione è strutturale: gli LLM hanno imparato a diffidare degli argomenti di Internet ma non del linguaggio della documentazione clinica. Non verificano se un’affermazione è vera; valutano se suona come qualcosa che direbbe una fonte affidabile. Ciò li rende particolarmente vulnerabili alla disinformazione presentata in toni autorevoli.
Non meglio di Google
Uno studio separato pubblicato su Nature Medicine ha rilevato che i chatbot non offrono più informazioni di una tradizionale ricerca su Internet quando aiutano le persone a decidere se consultare un medico o andare al pronto soccorso. I partecipanti spesso ponevano domande scadenti e le risposte combinavano consigli buoni e cattivi, rendendo impossibile per gli utenti determinare cosa fare.
Sebbene i chatbot possano fornire consigli utili in alcuni casi, le persone senza esperienza medica non hanno modo di giudicare l’accuratezza dei risultati. Ad esempio, un chatbot potrebbe consigliare erroneamente a qualcuno di aspettare e vedere in caso di un forte mal di testa che potrebbe essere meningite, un errore potenzialmente fatale.
Anche se probabilmente può essere utile in molte situazioni, potrebbe essere attivamente dannoso in altre.
Il risultato finale
I chatbot basati sull’intelligenza artificiale non sono uno strumento affidabile per le decisioni sulla salute pubblica. Non intendono sostituire la competenza medica e fare affidamento su di essi per gravi questioni di salute potrebbe essere pericoloso. Sebbene possano avere future applicazioni in medicina, il loro attuale utilizzo per l’autodiagnosi o il trattamento è irresponsabile.
























