I ricercatori di Meta AI hanno lanciato un nuovo benchmark chiamato CRAG (Comprehensive Retrieval-Augmented Generation Benchmark) per spingere avanti i progressi nei sistemi di risposta alle domande potenziati dal recupero. Questi sistemi combinano modelli linguistici di grandi dimensioni con fonti di conoscenza esterne, con l’obiettivo di sviluppare risposte alle domande più affidabili che superino le lacune di conoscenza nei modelli linguistici attuali.

CRAG è composto da 4.409 coppie di domande e risposte che coprono una vasta gamma di argomenti, tra cui finanza, sport, musica, film e temi generali. Include diversi tipi di domande, come confronti, aggregazioni, query multi-hop e false premesse. Il set di dati incorpora anche fatti con varie dinamiche, dalla real-time alla statica, e una diversa popolarità dell’entità, dall’ampia diffusione al lungo tail.

In pratica, CRAG fornisce risultati di ricerca web simulati e API per simulare il recupero di informazioni da Internet e grafici della conoscenza. Questo consente di valutare l’intera pipeline di recupero, sintesi e generazione necessaria per rispondere alle domande basate sulla conoscenza.

Le valutazioni hanno evidenziato lacune significative nei sistemi attuali. Anche i modelli linguistici più avanzati hanno raggiunto solo il 34% di precisione su CRAG, mentre l’aggiunta di recupero ha portato questo valore solo al 44%. I sistemi di recupero potenziati leader del settore hanno risposto solo al 63% delle domande senza allucinazioni, soprattutto in caso di query dinamiche, lunga coda e complessità.

Xiao Yang, ricercatore presso Meta AI e co-responsabile del progetto, ha dichiarato: “CRAG mette in luce le sfide nel creare sistemi di risposta alle domande pienamente affidabili che possano integrare in modo coerente informazioni dal mondo reale. Ci auguriamo che questo benchmark stimoli l’innovazione e monitori i progressi verso questo obiettivo fondamentale”.

CRAG ha fornito la base per la sfida KDD Cup 2024 organizzata da Meta AI, attirando migliaia di partecipanti che lavorano per migliorare le capacità di generazione aumentata di recupero. I ricercatori prevedono di continuare a espandere e migliorare CRAG per avanzare nella ricerca in questo settore.

Di Fantasy