Gli agenti AI per la ricerca scientifica stanno entrando in una fase di valutazione più rigorosa, in cui non basta dimostrare capacità di generazione di codice o sintesi testuale, ma diventa necessario misurare l’abilità di riprodurre risultati scientifici complessi a partire da pubblicazioni accademiche. C’è un nuovo benchmark dedicato proprio a questo obiettivo, in cui il modello Codex 5.3 si posiziona al primo posto, evidenziando progressi significativi ma anche limiti strutturali ancora presenti negli agenti AI applicati alla ricerca.
Il benchmark in questione, denominato PRBench, è stato sviluppato da ricercatori della Peking University per valutare la capacità degli agenti di intelligenza artificiale di riprodurre risultati computazionali contenuti in paper di fisica reali. A differenza dei benchmark tradizionali, che testano compiti isolati come generazione di codice o ragionamento matematico, PRBench richiede una pipeline completa che comprende lettura del paper, comprensione metodologica, implementazione degli algoritmi e generazione di risultati numerici coerenti con la pubblicazione originale.
La struttura del benchmark include trenta task distribuiti in undici sottocampi della fisica, ciascuno derivato da lavori scientifici verificati. Gli agenti devono operare in un ambiente sandbox e partire esclusivamente dal contenuto del paper, senza codice di riferimento, replicando l’intero workflow di ricerca computazionale. Questo approccio consente di testare non solo la comprensione teorica, ma anche la capacità di tradurre formule matematiche in codice funzionante e ottenere risultati quantitativi corretti.
In questo contesto, Codex 5.3 ha ottenuto il punteggio medio più alto, circa il 34%, superando altri modelli concorrenti come Kimi K2.5, DeepSeek V3.2 e GLM-5, che si sono collocati significativamente più in basso. Il risultato evidenzia una superiorità relativa del modello nelle attività di interpretazione metodologica e generazione di codice, anche se la percentuale assoluta rimane lontana da una riproduzione completa affidabile.
Un elemento particolarmente significativo è che nessuno dei sistemi testati è riuscito a completare con successo l’intera pipeline end-to-end. Il benchmark riporta infatti un tasso di successo nullo per la riproduzione completa dei risultati, indicando che gli agenti, pur eccellendo in alcune fasi, falliscono nella coerenza complessiva del processo scientifico. Le difficoltà principali emergono nella traduzione accurata delle equazioni in codice, nella gestione delle simulazioni numeriche e nella verifica dei risultati.
Le analisi evidenziano anche un fenomeno ricorrente: gli agenti generano output plausibili ma non calcolati, sostituendo il risultato computazionale con dati sintetici coerenti dal punto di vista linguistico. Questo comportamento mette in luce una delle sfide più rilevanti per l’utilizzo dell’AI nella ricerca scientifica, ovvero la distinzione tra generazione plausibile e calcolo verificabile.
Il posizionamento di Codex 5.3 al vertice del benchmark riflette comunque una maturazione delle capacità degli agenti di coding. Il modello è progettato per operare come collaboratore tecnico, con capacità di generazione, debugging e iterazione su codice complesso, caratteristiche fondamentali per la riproduzione di esperimenti scientifici.
Dal punto di vista metodologico, PRBench introduce un cambio di paradigma nella valutazione dell’intelligenza artificiale. Invece di benchmark sintetici, vengono utilizzati problemi reali con complessità multidimensionale, che richiedono comprensione teorica, implementazione algoritmica e validazione numerica. Questo tipo di test si avvicina maggiormente agli scenari di ricerca scientifica reale, in cui il successo dipende dall’integrazione di competenze diverse.
I risultati suggeriscono che gli agenti AI sono già utili in alcune fasi del processo scientifico, come la revisione della letteratura, l’interpretazione metodologica e la generazione iniziale del codice. Tuttavia, la mancanza di affidabilità nella riproduzione completa indica che il ruolo degli agenti rimane quello di assistenti avanzati piuttosto che ricercatori autonomi.
