Un problema noto nei modelli linguistici di grandi dimensioni (LLM) è la loro tendenza a generare output errati o senza senso, fenomeno spesso definito “allucinazioni”. Mentre molte ricerche hanno analizzato questi errori dal punto di vista degli utenti, un nuovo studio condotto da ricercatori di Technion, Google Research e Apple esplora il funzionamento interno degli LLM, rivelando che questi modelli comprendono la veridicità in modo più profondo di quanto si pensasse.
Il termine “allucinazione” non ha una definizione univoca e include vari tipi di errori nei LLM, come inesattezze fattuali, pregiudizi e fallimenti di ragionamento. Per questo studio, i ricercatori hanno adottato un’interpretazione ampia, considerando ogni errore prodotto da un LLM.
La maggior parte degli studi precedenti si è concentrata sull’analisi del comportamento esterno degli LLM, esaminando come gli utenti percepiscono gli errori. Tuttavia, questo approccio offre solo una visione limitata di come gli errori vengano codificati ed elaborati all’interno dei modelli. Alcuni ricercatori hanno già iniziato a esplorare le rappresentazioni interne degli LLM, suggerendo che questi modelli possono codificare segnali di veridicità.
Il nuovo studio adotta un metodo diverso, analizzando non solo l’output finale, ma anche i “token di risposta esatta”. Questi token sono quelli che, se modificati, influenzerebbero la correttezza della risposta finale.
I ricercatori hanno testato quattro varianti dei modelli Mistral 7B e Llama 2 su dieci set di dati, coprendo vari compiti come risposte a domande, inferenza linguistica, risoluzione di problemi matematici e analisi del sentiment. Hanno permesso ai modelli di generare risposte illimitate per simulare condizioni di utilizzo reale. I risultati hanno mostrato che le informazioni sulla veridicità sono concentrate nei token di risposta esatti.
Per prevedere le allucinazioni, sono stati addestrati modelli classificatori, definiti “classificatori di sondaggio”, per identificare caratteristiche correlate alla veridicità degli output generati basandosi sulle attivazioni interne degli LLM. È emerso che addestrare i classificatori sui token di risposta esatti migliora notevolmente la capacità di rilevare errori.
I ricercatori hanno anche esaminato se un classificatore di sondaggio addestrato su un set di dati potesse rilevare errori in altri set. Hanno scoperto che i classificatori non generalizzano tra diverse attività, mostrando una veridicità “specifica per abilità”. Possono infatti generalizzare all’interno di attività simili, come il recupero di fatti o il ragionamento di buon senso, ma non tra attività diverse, come l’analisi del sentiment.
Ulteriori esperimenti hanno dimostrato che i classificatori possono non solo prevedere la presenza di errori, ma anche identificare i tipi specifici di errori che il modello potrebbe commettere. Tuttavia, è stata trovata una discrepanza: le attivazioni interne del modello possono identificare correttamente la risposta giusta, ma il modello potrebbe generare comunque una risposta errata. Questo suggerisce che gli attuali metodi di valutazione, basati solo sull’output finale, potrebbero non riflettere accuratamente le reali capacità dei modelli.
I risultati di questo studio possono contribuire a progettare sistemi migliori per mitigare le allucinazioni. Tuttavia, le tecniche utilizzate richiedono l’accesso alle rappresentazioni interne degli LLM, il che è più facilmente realizzabile con modelli open source.
L’analisi delle attivazioni interne può aiutare a sviluppare tecniche più efficaci per rilevare e mitigare gli errori. Questi risultati sono parte di uno studio più ampio volto a comprendere meglio il funzionamento interno degli LLM e le attivazioni che si verificano durante ogni fase di inferenza. I principali laboratori di intelligenza artificiale, come OpenAI, Anthropic e Google DeepMind, stanno lavorando su varie tecniche per interpretare il funzionamento interno dei modelli linguistici.