Metti a confronto un modello d’intelligenza artificiale con un esperto in finanza, sanità o progettazione, chiedendo loro di preparare un documento, un’analisi o una presentazione. E immagina che, in un’analisi “cieca”, esperti del settore scelgano a volte il lavoro dell’IA come equivalente o migliore rispetto a quello umano. Non è fantascienza: è ciò che OpenAI ha appena messo in mostra con il suo nuovo benchmark, denominato GDPval — e i risultati aprono scenari affascinanti, ma anche tortuosi.
OpenAI ha presentato ufficialmente GDPval (versione 0), un benchmark pensato per valutare quanto i modelli di IA possano competere con professionisti umani su compiti “economicamente rilevanti”. In sostanza: non test di matematica astratta o giochi, ma lavori concreti che fanno girare aziende — report, presentazioni, piani, policy brief, progetti CAD, contenuti audio/video — insomma i mattoni dell’attività professionale. Ogni compito è calibrato per un dominio specifico e valutato da esperti del settore tramite confronti ciechi.
Nella versione iniziale, GDPval include 1.320 task complessivi (tra cui 220 in un set “gold” reso pubblico), coprendo 44 professioni distribuite in nove settori che contribuiscono in modo sostanziale al PIL degli Stati Uniti. Gli esperti che hanno progettato i task hanno in media 14 anni di esperienza, e ogni compito ha attraversato vari cicli di validazione per garantire che fosse praticabile e ben formulato.
Il meccanismo di valutazione è elegante e sobrio: ai valutatori viene mostrato, per ciascun task, il risultato prodotto dall’IA e quello prodotto da un esperto umano, senza che sappiano chi abbia fatto cosa. Il compito del giudice è indicare quale dei due lavori appare migliore — o dire che sono equivalenti (tie). Da lì si calcola una “win rate + tie rate” che indica quanto spesso l’IA è risultata pari o superiore al lavoro umano.
Nel risultato, uno dei modelli che spicca è GPT-5-High (una versione potenziata di GPT-5), che ha ottenuto un tasso combinato di vittorie+pari pari al 40,6%. Ciò significa che in quasi 41 casi su 100, i giudici hanno ritenuto il suo output almeno pari a quello di un esperto.
Ma non è tutto: un avversario noto, Claude Opus 4.1 di Anthropic, ha ottenuto un risultato ancora superiore, raggiungendo un tasso vicino al 49 % di win+tie. OpenAI commenta che parte del vantaggio di Claude è dovuto alla sua capacità di produrre documenti esteticamente gradevoli — formattazioni, visual, slide eleganti — che nelle valutazioni contano spesso tanto quanto il contenuto “duro”.
È interessante notare che il benchmark evidenzia anche un progresso netto nel tempo: da GPT-4o a GPT-5, OpenAI sostiene che le prestazioni sui task GDPval siano più che raddoppiate, con una traiettoria quasi lineare di miglioramento.
Inoltre, OpenAI afferma che per questi compiti i modelli frontier riescono a generare risultati 100 volte più velocemente e 100 volte più a basso costo rispetto a un esperto umano, se si considerano solo i tempi di inferenza e i costi API. Ovviamente, questo dato non include il lavoro umano necessario per iterazione, controllo, integrazione, correzioni.
Nonostante l’impatto mediatico del risultato, è importante mantenere uno sguardo critico. GDPval è un passo stimolante, ma non è una fotografia perfetta della complessità del mondo del lavoro.
Innanzitutto, il benchmark privilegia output statici, compiti ben definiti e “puntuali”: redazione di un report, presentazione, analisi. Non coglie bene processi lavorativi più articolati — negoziazioni, collaborazioni iterative, contesti dinamici, cambi di direzione, interazioni umane con stakeholders — elementi tipici nella vita reale di molti ruoli. OpenAI stessa ammette questo limite e annuncia che nelle prossime versioni introdurrà dimensioni come flussi conversazionali, contesto accumulato, stesura iterativa.
Poi, c’è il dettaglio che spesso conta: qualità del prompt, cura dei task, bias nei giudizi. Giudici esperti che leggono in forma cieca scelgono basandosi su criteri (chiarezza, stile, formattazione) che possono premiare modelli che “sanno ben presentarsi”, non necessariamente che capiscono meglio o generano contenuto più valido. Inoltre, il benchmark non misura il “costo cognitivo” di utilizzare l’IA: il come si costruisce il prompt, il come si raffina, il come si integra.
Infine, molte professioni consistono in compiti che non sono ben formalizzabili, che richiedono intuizione, improvvisazione, giudizio morale, creatività radicale — caratteristiche difficili da catturare in benchmark strutturati. GDPval cattura una parte — forse la parte più “misurabile” — dei compiti professionali.
Se consideriamo i risultati per quello che sono — pietre miliari in un percorso evolutivo — allora GDPval ci racconta che alcuni modelli AI stanno entrando in territori prima riservati agli umani esperti. In contesti ben definibili, con criteri chiari, l’IA può produrre risultati che non si distinguono facilmente da quelli umani.
Questo non vuol dire che i professionisti siano presto obsolete. Significa però che alcuni compiti ripetitivi, ben formali, possono essere affidati alle macchine, liberando tempo per chi lavora su parti più creative, critiche, non strutturabili. È un invito a ripensare i confini tra “ciò che l’IA può fare” e “ciò che richiede ancora il tocco umano”.
Aaron Chatterjee, capo economista di OpenAI, lo ha espresso bene: man mano che i modelli diventano più competenti, gli esseri umani potranno delegare compiti e concentrarsi su attività di maggior valore. Tejal Patwardhan, responsabile della valutazione, ha aggiunto che la velocità con cui l’IA entra in compiti reali sta accelerando, e che la tendenza continuerà.
In fondo, GDPval è un po’ un termometro: misura quanta distanza c’è ancora tra “fare il compito” e “fare il lavoro”. Ma segna che quella distanza si sta riducendo — forse più in fretta di quanto pensassimo.