I ricercatori dell’Università di Oxford hanno scoperto un nuovo metodo per rilevare le allucinazioni nelle risposte generate dai modelli di intelligenza artificiale (AI).
Questo metodo si concentra su un tipo specifico di allucinazioni chiamato “confabulazioni”, che si verificano quando l’AI fornisce risposte incoerenti o errate basate su fatti inventati.
Secondo un articolo pubblicato sulla rivista Nature, i ricercatori hanno sviluppato un approccio che ha mostrato un’accuratezza nel rilevare le confabulazioni dell’AI fino al 79%. Questo rappresenta un miglioramento del 10% rispetto ad altri metodi.
Il metodo utilizza un’entropia semantica per valutare la coerenza delle risposte. Questo valore indica quanto le risposte siano simili o diverse nel significato. Risposte con significati simili ottengono un punteggio basso di entropia semantica, mentre risposte incoerenti ottengono un punteggio alto.
Secondo i ricercatori, questo approccio supera altri metodi nel rilevare le allucinazioni dell’AI e mostra risultati coerenti in diverse aree tematiche.
Tuttavia, l’integrazione pratica di questo metodo nelle applicazioni reali potrebbe essere complessa. Esperti come Arvind Narayanan dell’Università di Princeton riconoscono il valore della ricerca ma sottolineano sfide potenziali nella sua implementazione effettiva.
Il lavoro dei ricercatori di Oxford promette di migliorare l’affidabilità dei sistemi di intelligenza artificiale, potenzialmente riducendo il rischio di fornire risposte errate o incoerenti.