OpenAI ha recentemente intensificato i suoi sforzi nella valutazione delle prestazioni degli agenti di intelligenza artificiale (IA) introducendo tre nuovi benchmark: BrowseComp, PaperBench e il programma OpenAI Pioneers. Questi strumenti sono progettati per misurare e migliorare le capacità degli agenti IA in vari contesti applicativi.
Il 10 aprile, OpenAI ha rilasciato BrowseComp, un benchmark open source che valuta le capacità di ricerca sul web degli agenti IA. Questo strumento comprende 1.266 domande progettate per sfidare i modelli a navigare tra più pagine web, organizzare informazioni diverse e filtrare dati irrilevanti o errati. I risultati dei test hanno evidenziato che agenti come ‘GPT-4o’ e ‘GPT-4.5’ hanno ottenuto punteggi di precisione rispettivamente dell’1,9% e dello 0,9%, mentre ‘Deep Research’, un agente specializzato nella ricerca web, ha raggiunto una precisione del 51,5%.
Il 2 aprile, OpenAI ha introdotto PaperBench, un benchmark che valuta la capacità degli agenti IA di replicare ricerche avanzate nel campo dell’apprendimento automatico. Questo test richiede agli agenti di comprendere articoli scientifici, sviluppare codice correlato e eseguire esperimenti con successo. I risultati hanno mostrato che l’agente ‘Claude 3.5 Sonnet’ ha ottenuto un punteggio medio del 21%, mentre ‘o1-high’ di OpenAI ha registrato il 13,2%.
Il 9 aprile, OpenAI ha annunciato il programma OpenAI Pioneers, volto a collaborare con startup per sviluppare benchmark di IA specifici per settori come sanità, finanza, diritto e produzione. L’obiettivo è creare indicatori di valutazione delle prestazioni su misura per le esigenze pratiche di questi settori, supportando strumenti di ottimizzazione del modello per massimizzare le prestazioni dell’IA in contesti reali.