Immagine AI

I modelli linguistici di grandi dimensioni (LLM) sono celebrati per la loro capacità di superare esami medici e competere con i professionisti del settore. Tuttavia, uno studio condotto dall’Università di Oxford getta luce su una realtà meno rassicurante: l’efficacia di questi strumenti diminuisce significativamente quando interagiscono con pazienti reali. Questo studio evidenzia l’importanza di considerare l’interazione umana nei test dei chatbot medici, suggerendo che l’assenza di un contesto umano può compromettere la loro utilità pratica.

Guidato dal dottor Adam Mahdi, lo studio ha coinvolto 1.298 partecipanti che, simulando pazienti, hanno interagito con diversi LLM per autodiagnosticarsi. I risultati sono sorprendenti: mentre i modelli riuscivano a identificare correttamente le condizioni nel 94,9% dei casi, gli utenti umani che utilizzavano gli stessi strumenti ottenevano risultati accurati solo nel 34,5% dei casi. Ancora più preoccupante, un gruppo di controllo che si è affidato ai propri metodi di autodiagnosi ha avuto successo nel 76% dei casi, superando così le prestazioni degli utenti assistiti dai LLM.

L’analisi dei dati ha rivelato che le difficoltà non risiedono tanto nella capacità dei modelli, quanto nell’interazione con gli utenti. Spesso, gli utenti fornivano informazioni incomplete o imprecise, mentre i modelli interpretavano erroneamente le richieste. Ad esempio, un partecipante che lamentava forti dolori addominali ha descritto genericamente i sintomi, omettendo dettagli cruciali come la localizzazione del dolore. Di conseguenza, il modello ha suggerito una diagnosi errata.

Gli esperti sottolineano che l’efficacia dei chatbot medici dipende in larga misura dalla qualità dell’interazione con l’utente. Nathalie Volkheimer, specialista in esperienza utente, osserva che, come nel caso di un’auto, non basta costruire un veicolo per garantire la sicurezza: è fondamentale considerare il conducente, la strada e le condizioni atmosferiche. Allo stesso modo, un chatbot deve essere progettato tenendo conto delle esigenze e delle capacità dell’utente finale.

Questo studio solleva interrogativi fondamentali sul modo in cui vengono valutati i chatbot medici. Tradizionalmente, le loro capacità vengono testate utilizzando scenari predefiniti, ma ciò non riflette la complessità delle interazioni reali con i pazienti. Per garantire che i chatbot siano veramente utili, è necessario testarli in contesti reali, con utenti che simulano situazioni quotidiane.

Di Fantasy