Un recente studio condotto dall’unità di ricerca DeepMind di Google ha rivelato che un sistema di intelligenza artificiale può superare i verificatori di fatti umani nell’accuratezza delle informazioni generate da grandi modelli linguistici.
L’articolo, intitolato “Long-form factuality in large Language Models” e pubblicato su arXiv, introduce un metodo chiamato Search-Augmented Factuality Evaluator (SAFE). Questo metodo utilizza un modello linguistico di grandi dimensioni per analizzare il testo generato, suddividendolo in singoli fatti, e quindi utilizza i risultati di ricerca di Google per valutare l’accuratezza di ciascuna affermazione.
Secondo gli autori, SAFE utilizza un approccio di ragionamento multi-step che comprende l’invio di query di ricerca a Google per determinare se un fatto è supportato dai risultati della ricerca.
I ricercatori hanno confrontato le valutazioni di SAFE con quelle di annotatori umani su un set di dati di circa 16.000 fatti, scoprendo che le valutazioni di SAFE corrispondevano a quelle umane nel 72% dei casi. Inoltre, in un campione di 100 disaccordi tra SAFE e valutatori umani, il giudizio di SAFE è risultato corretto nel 76% dei casi.
Tuttavia, alcuni esperti, come Gary Marcus, hanno sollevato dubbi sul significato di “sovrumano” nell’ambito di questo studio. Marcus suggerisce che il termine potrebbe semplicemente significare “meglio di un lavoratore sottopagato, piuttosto che un vero verificatore di fatti umani”.
Un vantaggio evidente di SAFE è il suo costo inferiore rispetto ai verificatori di fatti umani, risultando circa 20 volte più economico. Considerando l’enorme quantità di informazioni generate dai modelli linguistici, avere un metodo economico e scalabile per verificare le affermazioni diventa sempre più importante.
Il team di DeepMind ha utilizzato SAFE per valutare l’accuratezza di 13 modelli linguistici principali su un nuovo benchmark chiamato LongFact. I risultati indicano che i modelli più ampi tendono a produrre meno errori, ma anche i modelli più performanti generano un numero significativo di false affermazioni.
Sebbene il codice SAFE e il set di dati LongFact siano stati resi open source su GitHub, c’è ancora bisogno di maggiore trasparenza riguardo alle linee guida umane utilizzate nello studio. Comprendere i dettagli del background e del processo dei lavoratori coinvolti è fondamentale per valutare correttamente le capacità di SAFE.
Mentre la tecnologia continua a svilupparsi, strumenti come SAFE potrebbero giocare un ruolo importante nella verifica automatica dei risultati dei modelli linguistici. Tuttavia, è cruciale che lo sviluppo di tali tecnologie avvenga in modo trasparente e collaborativo, coinvolgendo una vasta gamma di stakeholder e garantendo un’analisi rigorosa rispetto agli esperti umani. Solo così potremo valutare l’impatto reale della verifica automatizzata sui nostri sforzi contro la disinformazione.