Google DeepMind e Google Research hanno recentemente introdotto FACTS Grounding, un nuovo benchmark progettato per valutare l’accuratezza fattuale dei modelli linguistici di grandi dimensioni (LLM). Questo strumento mira a misurare la capacità dei modelli AI di generare risposte basate su fonti fornite, affrontando problematiche come la disinformazione e le “allucinazioni” nei contenuti generati dall’intelligenza artificiale.

Il benchmark FACTS Grounding comprende 1.719 esempi che testano i modelli su una varietà di compiti, tra cui sintesi, risposta a domande e riformulazione. Questi compiti coprono settori come finanza, diritto e tecnologia, garantendo l’applicabilità del benchmark in contesti reali. Per valutare le prestazioni dei modelli, vengono utilizzate valutazioni automatizzate con l’impiego di modelli giudici multipli, riducendo così i bias e aumentando l’affidabilità dei risultati.

I modelli testati includono Gemini 1.5 Pro e Flash (Team Gemini), Gemini 2.0 Flash Experimental, GPT-4o (OpenAI), OpenAI o1-preview e o1-mini, e Claude 3.5 Haiku e Sonnet (Anthropic). Durante il processo di valutazione, è emerso che i modelli tendevano a valutare le proprie risposte più positivamente rispetto a quelle dei concorrenti, con una differenza media di oltre il 3,23%. Per mitigare questo bias, sono stati utilizzati giudici multipli, aumentando i costi computazionali ma garantendo una valutazione più equa. Inoltre, l’esclusione delle risposte non idonee ha ridotto i punteggi finali di accuratezza fattuale di un intervallo compreso tra l’1% e il 5%, influenzando leggermente le classifiche dei modelli.

Per monitorare i progressi, è stata lanciata una leaderboard su Kaggle, che consente di confrontare le prestazioni dei vari modelli in termini di accuratezza fattuale. Questo approccio promuove la trasparenza e incoraggia lo sviluppo di modelli AI più affidabili e precisi.

Di ihal