Negli ultimi giorni, nel mondo dell’intelligenza artificiale generativa si è affacciato un tema che potrebbe influenzare profondamente il modo in cui aziende, sviluppatori e responsabili tecnici pensano all’uso concreto di questi sistemi: la fattualità, ovvero la capacità di un modello di generare risposte che siano davvero corrette e affidabili nel mondo reale. Il nuovo benchmark lanciato da Google — chiamato FACTS Benchmark Suite — mette in luce con chiarezza una verità forse scomoda: secondo i test iniziali, nessuno dei modelli più avanzati riesce ad andare oltre una soglia di circa il 70% di accuratezza complessiva nelle prove più rigorose. Questo dato non è solo un numero interessante sulla carta, ma un segnale significativo per chi vuole adottare l’IA in contesti dove l’errore non è ammesso.

Il benchmark FACTS è stato sviluppato con l’intento di superare i limiti degli strumenti di valutazione tradizionali. Fino ad ora, molti dei test utilizzati per misurare le capacità dei grandi modelli di linguaggio si erano concentrati su abilità come la risoluzione di problemi, l’aderenza a istruzioni o la capacità di completare frasi. Questi aspetti sono certamente utili, ma non bastano quando la sfida è generare informazioni verificabilmente vere piuttosto che plausibili o coerenti solo dal punto di vista linguistico. Google ha articolato il proprio benchmark in modo da valutare la factualità sotto diversi aspetti: la conoscenza interna del modello, la capacità di utilizzare strumenti di ricerca, l’interpretazione di contenuti multimodali come immagini o grafici e la fedeltà alle informazioni fornite nel contesto di riferimento.

I risultati resi pubblici mostrano che modelli come Gemini 3 Pro, GPT-5 e Claude 4.5 Opus non raggiungono il 70% di accuratezza complessiva, mettendo in evidenza quanto sia difficile ottenere risposte completamente affidabili in tutti questi scenari. Per esempio, mentre alcuni sistemi si comportano relativamente bene nella ricerca di informazioni aggiornate e nell’elaborazione di dati estratti dal web, le prestazioni calano drasticamente quando si tratta di interpretare immagini o grafici senza generare errori. Allo stesso modo, la capacità di restare fedeli a dati forniti in input — evitando quelle che nel gergo vengono chiamate “allucinazioni” — rimane un’area in cui anche i modelli leader del settore mostrano margini di miglioramento.

Questo “tetto del 70%”, come viene definito nei commenti degli esperti, non deve essere visto come un fallimento dei modelli attuali, ma piuttosto come una fotografia realistica della situazione attuale: i sistemi di intelligenza artificiale, pur impressionanti in molti compiti, non sono ancora in grado di garantire una precisione totale quando si tratta di produrre fatti affidabili sotto ogni condizione d’uso. Per chi lavora in settori dove la factualità è critica — ad esempio in ambito legale, finanziario o medico — questa è una chiamata all’attenzione. Le applicazioni di IA non possono essere adottate come “scatole nere” da cui aspettarsi verità garantite; devono essere progettate con strati di controllo, revisione umana e integrazione di strumenti di verifica indipendenti.

Inoltre, l’approccio del benchmark FACTS evidenzia che non esiste un unico modo di misurare la factualità: la precisione assoluta in domande di cultura generale è una cosa, mentre interpretare correttamente un grafico complesso o estrarre informazioni affidabili da una grande mole di dati strutturati è un’altra. La distinzione tra “contextual factualness” — la fedeltà alle informazioni fornite — e “world knowledge factualness” — la capacità di attingere a conoscenze aggiornate e reali — sottolinea quanto l’affidabilità di un modello dipenda dal modo in cui esso viene utilizzato e integrato nei flussi di lavoro.

Per le imprese e i team di sviluppo che stanno costruendo applicazioni basate su grandi modelli linguistici, il messaggio è chiaro: non basta guardare il punteggio complessivo di un modello in benchmark generici, ma occorre valutare la fattualità in modo specifico per i casi d’uso di interesse. Se il target è un assistente interno che deve rispondere a domande sui regolamenti aziendali, allora è cruciale capire come il modello si comporta con testi forniti in input. Se invece il modello viene usato per generare riassunti di dati finanziari o interpretare immagini tecniche, allora serve un’analisi ancora più rigorosa delle sue performance in quelle aree.

Di Fantasy