Nella maggior parte dei casi, l’allucinazione si verifica a causa della divergenza tra la fonte e il riferimento.

Google ha sviluppato un set di dati di generazione da tabella a testo di dominio aperto chiamato ToTTo per superare il problema delle allucinazioni.

Il set di dati ToTTo è composto da 121.000 esempi di addestramento e ha 7.500 esempi ciascuno per lo sviluppo e il test. Il team di Google afferma che ToTTo è un punto di riferimento adatto per la ricerca nella generazione di testo ad alta precisione.

Il problema dell’allucinazione
L’allucinazione si riferisce alla generazione di un testo che non è “fedele” alla fonte. Al centro della maggior parte delle applicazioni di PNL risiede la generazione di testo in linguaggio naturale dal contenuto di origine. Gli esempi includono la sintesi, la traduzione automatica, la generazione di dati in testo, ecc. Tuttavia, ci sono stati innumerevoli casi in cui i sistemi neurali hanno generato un testo infedele alla fonte.

Nella maggior parte dei casi, l’allucinazione si verifica a causa della divergenza tra la fonte e il riferimento. Detto questo, l’allucinazione è stata osservata anche in riferimenti puliti. Significa che l’allucinazione si verifica quando il sistema rileva correlazioni errate tra le diverse parti dei dati di allenamento.

Con i dati ei modelli che diventano sempre più grandi e complicati, l’allucinazione indotta da correlazioni errate può limitare gravemente l’utilità dei sistemi neurali in molte situazioni del mondo reale, una preoccupazione pressante, specialmente quando si genera testo relativo a campi medici, finanziari o ingegneristici. In questi casi, è del tutto inaccettabile sia “allucinare” contenuti inesistenti o errati, sia omettere informazioni.

ToTTo Dataset
Il processo di valutazione della fedeltà di un testo generato può essere impegnativo. Tuttavia, l’attività diventa più comoda quando il contenuto di origine è in un formato tabulare o strutturato. I dati in forma tabulare possono anche testare in modo efficiente la capacità di un modello di ragionamento e inferenza numerica.

Tuttavia, i dati tabulari risultano piatti quando si tratta di set di dati strutturati su larga scala, che sono spesso rumorosi. È difficile dedurre frasi di riferimento da dati tabulari, rendendole inaffidabili per misurare l’allucinazione.

Per superare questa limitazione, il set di dati ToTTo utilizza un nuovo processo di annotazione basato sulla revisione della frase insieme a una generazione controllata per valutare l’allucinazione. Le annotazioni sono estremamente accurate, rendendo il set di dati un benchmark adatto.

L’esperimento ha coinvolto una tabella di Wikipedia e una serie di testo evidenziato che fungeva da fonte denominata x. L’obiettivo dell’esperimento era quello di produrre una descrizione a riga singola y del testo di partenza. Il compito è: y dovrebbe descrivere la parte evidenziata x dalla sorgente, che potrebbe far parte di una tabella molto più grande.

Il processo prevedeva due fasi:


Per prima cosa le tabelle, raccolte da Wikipedia, sono abbinate a una frase riassuntiva ottenuta dal contesto della pagina di supporto. Ciò viene eseguito in base all’euristica, come la sovrapposizione di parole e i collegamenti ipertestuali che fanno riferimento ai dati tabulari.
Dopo il primo passaggio, potrebbero esserci frasi nelle frasi che non sono supportate dalla tabella. L’annotatore elimina tali frasi e decontestualizza in modo che la frase sia autonoma.
In un esempio, il documento ha considerato la seguente tabella in cui il contenuto della tabella, i metadati come il titolo e le celle evidenziate sono stati forniti come input per produrre il testo finale.

Il modello a volte produce frasi che potrebbero non essere del tutto fedeli al testo di origine e l’allucinazione potrebbe ancora insinuarsi.
A causa della natura di dominio aperto dell’attività, potrebbe avere problemi quando si tratta di argomenti rari. Ciò è stato dimostrato anche durante l’esperimento relativo alle capacità dei microdrive di IBM.
Sebbene il modello sembri funzionare bene con metriche ampiamente accettate come BLEU (bilingual evaluation understudy), non può essere interpretato come una misura definitiva delle prestazioni.

Di ihal