I modelli linguistici di grandi dimensioni (LLM) e i modelli multimodali di grandi dimensioni (LMM) stanno diventando sempre più presenti nei contesti medici. Tuttavia, nonostante la loro promessa rivoluzionaria, non sono ancora stati pienamente testati in ambiti critici come la diagnosi medica sul campo.
Quindi, quanto possiamo davvero fidarci di questi modelli in situazioni di alto rischio nella vita reale? Secondo i ricercatori dell’Università della California a Santa Cruz e della Carnegie Mellon University, non molto, almeno per ora.
In un recente esperimento, questi ricercatori hanno voluto valutare quanto fossero affidabili gli LMM nella diagnosi medica, ponendo loro domande diagnostiche sia generali che più specifiche e valutando la loro capacità di compiere valutazioni mediche corrette.
Utilizzando un nuovo set di dati e sottoponendo i modelli all’avanguardia a domande su radiografie, risonanze magnetiche e scansioni TC di diverse parti del corpo umano, hanno riscontrato un calo significativo nelle prestazioni dei modelli, che è stato definito “allarmante”.
Anche i modelli più avanzati, come GPT-4V e Gemini Pro, hanno commesso errori casuali nell’identificare condizioni e posizioni richieste. Inoltre, l’introduzione di perturbazioni lievi ha ulteriormente ridotto l’accuratezza dei modelli, con una diminuzione media del 42% nell’accuratezza complessiva.
Questo studio ha utilizzato il metodo Medical Visual Question Answering (Med-VQA) per valutare le capacità dei modelli nella interpretazione di immagini mediche. Anche se gli LMM hanno mostrato progressi quando testati su parametri standard, come VQA-RAD, hanno fallito quando sondati più a fondo.
Per esempio, introducendo un nuovo set di dati chiamato ProbMed, i ricercatori hanno scoperto che i modelli LMM erano meno affidabili nel determinare anomalie e condizioni mediche. Anche se alcuni modelli si sono comportati meglio in compiti generali, hanno mostrato un calo significativo di precisione quando sottoposti a domande più specifiche e complesse.
In particolare, i modelli GPT-4V e Gemini Pro hanno dimostrato di essere più inclini agli errori di allucinazione, accettando informazioni errate su condizioni e posizioni, o rifiutando domande importanti.
Questi risultati evidenziano una significativa vulnerabilità degli LMM nelle situazioni mediche critiche. Anche se alcuni modelli specializzati hanno mostrato una maggiore accuratezza in determinati compiti, l’efficacia complessiva degli LMM nella diagnosi medica è ancora limitata.
Ciò solleva preoccupazioni sull’adozione di queste tecnologie nell’ambito medico e sottolinea l’importanza di valutazioni più rigorose per garantire la loro affidabilità e accuratezza.