Nonostante i modelli linguistici di grandi dimensioni (LLM) siano diventati sempre più sofisticati, continuano a manifestare il fenomeno delle “allucinazioni”, ovvero la generazione di informazioni inesatte o fuorvianti. Questo problema è particolarmente critico nel settore sanitario, dove informazioni errate possono avere conseguenze gravi. Per affrontare questa sfida, la Mayo Clinic ha implementato una tecnica innovativa nota come Reverse Retrieval-Augmented Generation (Reverse RAG), riducendo significativamente le allucinazioni basate sul recupero dei dati in casi d’uso non diagnostici.
La gestione dei dati sanitari è complessa e richiede tempo. Sebbene le cartelle cliniche elettroniche raccolgano enormi quantità di dati, spesso è difficile reperire e analizzare queste informazioni in modo efficiente. La Mayo Clinic ha inizialmente applicato l’IA per sintetizzare i riassunti di dimissione dei pazienti, utilizzando modelli tradizionali di RAG. Tuttavia, sono emerse problematiche legate alle allucinazioni, come l’errata indicazione dell’età del paziente.
Il RAG tradizionale, pur essendo fondamentale per migliorare le capacità degli LLM, presenta delle limitazioni. I modelli possono recuperare dati irrilevanti o inaccurati, non riuscire a determinare se le informazioni siano pertinenti alla richiesta dell’utente o generare output che non corrispondono al formato richiesto. Queste problematiche possono compromettere l’affidabilità delle informazioni fornite dall’IA.
Per superare queste sfide, la Mayo Clinic ha adottato il Reverse RAG, combinando l’algoritmo Clustering Using Representatives (CURE) con LLM e database vettoriali per verificare il recupero dei dati. Il modello divide i riassunti generati in singoli fatti e li confronta con i documenti originali. Un secondo LLM valuta l’allineamento dei fatti con le fonti, verificando l’esistenza di una relazione causale tra essi. Questo approccio garantisce che ogni dato sia riferito alla fonte originale, riducendo significativamente le allucinazioni legate al recupero delle informazioni.