Immagine AI

Nel dibattito sull’evoluzione dell’intelligenza artificiale, una delle questioni più delicate riguarda da sempre il modo in cui le prestazioni dei modelli vengono misurate e confrontate. Per anni, benchmark accademici e test standardizzati hanno rappresentato il riferimento principale per stabilire quale modello fosse “più intelligente” di un altro. Tuttavia, la rapidità con cui i modelli di nuova generazione hanno iniziato a saturare questi test ha reso evidente un limite strutturale: punteggi sempre più alti, ma sempre meno capaci di distinguere davvero le capacità pratiche e l’utilità concreta dei sistemi di IA. È in questo contesto che Artificial Analysis ha deciso di operare una svolta profonda, rinnovando completamente il proprio framework di valutazione con il lancio dell’Intelligence Index v4.0.

Il nuovo indice, pubblicato il 6 gennaio, non è un semplice aggiornamento incrementale, ma una vera dichiarazione di cambio di paradigma. Artificial Analysis afferma esplicitamente di voler abbandonare una misurazione dell’intelligenza basata sulla memoria o sui punteggi di test tradizionali, per concentrarsi invece sulle capacità comportamentali che generano valore economico reale. In altre parole, la domanda non è più se un modello riesca a risolvere problemi astratti o a eccellere in esercizi da competizione, ma se sia in grado di svolgere attività per cui, nel mondo reale, le persone vengono pagate.

Questo cambio di prospettiva ha portato a una scelta netta e per certi versi coraggiosa: la rimozione di benchmark molto citati e consolidati come MMLU-Pro, AIME 2025 e LiveCodeBench. Al loro posto è stato introdotto un insieme di valutazioni completamente nuove, progettate per riflettere l’impatto concreto dell’IA nel lavoro, nella ricerca e nei processi decisionali. L’Intelligence Index v4.0 si fonda ora su dieci test dettagliati, distribuiti equamente in quattro grandi aree che coprono agenti autonomi, programmazione, ragionamento scientifico e cultura generale, con una difficoltà sensibilmente aumentata per evitare l’effetto di appiattimento dei punteggi osservato nelle versioni precedenti.

Uno degli elementi più rappresentativi di questa nuova filosofia è GDPval-AA, una valutazione che utilizza il dataset GDPval sviluppato da OpenAI per misurare la capacità dei modelli di svolgere compiti con valore economico concreto in 44 professioni distribuite su nove settori. Qui l’IA non viene giudicata su risposte teoriche, ma su output simili a quelli prodotti da lavoratori reali: documenti, presentazioni, fogli di calcolo, diagrammi. I modelli operano all’interno di un ambiente di riferimento chiamato Stirrup, con accesso a shell e navigazione web, come veri e propri agenti digitali. I risultati vengono poi confrontati in modo cieco e valutati tramite punteggi ELO, un approccio più vicino alle dinamiche competitive reali che ai test a risposta chiusa.

Accanto a questa valutazione orientata al lavoro, Artificial Analysis ha introdotto CritPT, un benchmark dedicato alla ricerca scientifica avanzata. Questo test copre ambiti complessi come la fisica della materia condensata, la fisica quantistica e l’astrofisica, ed è stato progettato da oltre cinquanta ricercatori provenienti da più di trenta istituzioni. L’obiettivo non è verificare nozioni di base, ma simulare sfide di ricerca realistiche, paragonabili a quelle che potrebbero essere assegnate a studenti di master o dottorato. In questo contesto emergono chiaramente i limiti attuali dell’IA: anche i modelli più avanzati faticano a raggiungere livelli di performance che possano essere considerati comparabili a quelli di ricercatori umani esperti.

Un terzo pilastro del nuovo indice è AA-Omniscience, una valutazione che misura simultaneamente accuratezza della conoscenza e percezione dell’incertezza. Attraverso circa seimila domande su quarantadue argomenti economici, questo test non premia solo la capacità di rispondere correttamente, ma anche quella, spesso trascurata, di non rispondere quando il modello non è sicuro. In un’epoca in cui le allucinazioni dell’IA rappresentano un rischio concreto, soprattutto in settori come sanità, finanza e diritto, la capacità di astenersi diventa un indicatore chiave di affidabilità.

L’inasprimento generale della difficoltà dei test ha avuto un effetto immediato sui risultati. Se nella versione 3.0 dell’Intelligence Index il punteggio massimo si aggirava intorno a 70, nella nuova versione anche i modelli di punta faticano a superare quota 50. Questo ridimensionamento non indica un peggioramento delle tecnologie, ma al contrario una maggiore capacità del benchmark di discriminare realmente tra livelli di competenza diversi.

Nella classifica complessiva basata sui nuovi criteri, il primo posto è stato conquistato da GPT-5.2 di OpenAI, seguito da Claude Opus 4.5 di Anthropic e da Gemini 3 Pro di Google. In particolare, GPT-5.2 ha ottenuto il punteggio ELO più elevato in GDPval-AA, confermando le dichiarazioni secondo cui il modello sarebbe in grado di superare esperti umani in compiti di conoscenza ben definiti in numerose professioni. Tuttavia, i risultati di CritPT mostrano un quadro più sfumato: anche il modello migliore ha raggiunto solo l’11,5% di risposte corrette nei problemi di fisica di livello di ricerca, segnalando che la strada verso una vera scoperta scientifica guidata dall’IA è ancora lunga.

Anche AA-Omniscience ha restituito risultati interessanti e per certi versi controintuitivi. I modelli con la massima accuratezza non sono necessariamente quelli con meno allucinazioni. La serie Gemini 3 di Google ha eccelso in precisione delle conoscenze, ma ha mostrato un tasso relativamente alto di risposte errate fornite con sicurezza. Al contrario, alcuni modelli di Anthropic e OpenAI, pur con un’accuratezza leggermente inferiore, hanno dimostrato una maggiore prudenza, evitando di rispondere in condizioni di incertezza e riducendo così il rischio complessivo.

Nel complesso, la riorganizzazione dell’Intelligence Index v4.0 rappresenta un segnale forte per l’intero settore. L’intelligenza artificiale non viene più valutata come uno studente brillante agli esami o come un atleta delle Olimpiadi della matematica, ma come uno strumento di lavoro capace di aumentare la produttività e generare valore reale. Artificial Analysis invita esplicitamente le aziende a non fermarsi al punteggio complessivo, ma ad analizzare in dettaglio le aree più rilevanti per i propri casi d’uso. È un invito a guardare l’IA non come un trofeo tecnologico, ma come una leva economica e organizzativa, da adottare con consapevolezza, senso critico e attenzione ai limiti ancora presenti.

Di Fantasy