In un mondo dove il progresso nell’intelligenza artificiale è ormai all’ordine del giorno, OpenAI ha acceso un dibattito cruciale: e se fossero proprio i metodi attuali di valutazione a incoraggiare gli “allucinazioni” nei modelli linguistici? Un’idea tanto provocatoria quanto fondamentale emerge da un recente studio pubblicato sul sito istituzionale di OpenAI.
OpenAI sottolinea che i modelli di linguaggio – come quelli basati su architetture autoregressive – sono progettati per prevedere il prossimo token, agendo su stimoli incompleti e incerti. Non si tratta di un problema nuovo, ma l’aspetto innovativo della discussione riguarda il modo in cui vengono valutati: secondo l’azienda, i benchmark tradizionali creano incentivi sbagliati, spingendo i modelli a indovinare piuttosto che ammettere l’incertezza.
In molti test di valutazione, viene penalizzata la risposta “non lo so”: se un modello risponde con “non saprei”, ottiene 0. Ma se invece indovina – magari a caso – può essere premiato con un buon punteggio. Questo meccanismo incoraggia quindi il modello a rischiare risposte potenzialmente scorrette pur di guadagnare qualche punto in più.
Man mano che il panorama dei modelli si fa più affollato e le prestazioni si avvicinano tutte fra loro, l’importanza di primeggiare nei benchmark diventa sempre più cruciale. In questo contesto, un modello che spesso si dichiara incerto (come Claude di Anthropic) può sembrar meno utile, nonostante le sue risposte più affidabili.
OpenAI ha citato proprio il modello Claude come esempio: lodando la sua capacità di riconoscere l’incertezza e evitare risposte imprecise, ma notando al contempo che il “troppo rifiuto” può rendere il modello meno “pratico” agli occhi degli utenti (e meno competitivo nei test).
Il suggerimento proposto è di rivedere le metriche: sanzionare con più forza gli errori commessi con troppa sicurezza, ma premiare anche – almeno in parte – le risposte che esprimono incertezza in modo consapevole. Non si tratta di un’idea fantasiosa: è già oggetto di ricerca e discussione nel campo.
Modificando le modalità di assegnazione dei punteggi, si potrebbero incentivare pratiche di progettazione dei modelli più prudenti, riducendo le allucinazioni.
Una delle motivazioni dietro questo dibattito sembra essere il caso recente di GPT-5-Thinking-Mini
rispetto a o4-mini: nonostante migliori prestazioni generali, ha ottenuto punteggi inferiori in alcune benchmark tradizionali, pur presentando un tasso più alto di errori e allucinazioni. È un esempio perfetto di come l’ottimizzazione per le metriche sbagliate possa condurre a modelli meno robusti, ma percepiti come “più precisi”.
OpenAI evidenzia che il problema delle allucinazioni va oltre la dimensione dei dataset o della scala computazionale. Non tutti i dati sono etichettati con “vero” o “falso”, e i modelli devono spesso “indovinare” in contesti poco chiari. Alcune richieste possono essere intrinsecamente non rispondibili (come “Dov’è nato il mio cane?”), e dunque anche nel caso di immagini – ad esempio, cercare di dedurre il compleanno di un animale da una fotografia – è impossibile andare oltre la mera supposizione.
Contrariamente a quanto molti potrebbero pensare, OpenAI sostiene che la creazione di modelli sempre più grandi non risolverà il problema delle allucinazioni. Anzi, modelli più compatti potrebbero essere più efficaci nel riconoscere i propri limiti e dire “non lo so”, mentre i modelli di grosse dimensioni – dovendo valutare con maggiore sofisticazione la confidenza nelle risposte – rischiano invece di sbagliare in modo più confidentemente errato.
OpenAI sottolinea di aver voluto chiarire l’essenza delle allucinazioni e sfatare alcuni miti diffusi: primo fra tutti, l’idea che basti aumentare la precisione per eliminare del tutto gli errori. Ma anche l’opposto: le allucinazioni non sono inevitabili; occorre sapere affrontare e gestire l’incertezza.