Immagine AI

OpenAI GPT-5.5 ha ottenuto il miglior risultato nel benchmark Agents’ Last Exam, una nuova valutazione progettata per misurare le capacità operative degli agenti AI in scenari complessi che richiedono pianificazione, utilizzo di strumenti esterni, ricerca di informazioni e completamento autonomo di attività articolate. Nei risultati pubblicati, GPT-5.5 ha raggiunto un tasso di successo del 24%, superando Claude Fable 5 di Anthropic e gli altri modelli presenti nella classifica.

Agents’ Last Exam è stato sviluppato per affrontare uno dei problemi più discussi nella valutazione dei sistemi agentici moderni: la tendenza dei benchmark tradizionali a fornire risultati influenzati da dataset già presenti nei dati di addestramento o da sistemi di valutazione relativamente semplici. La nuova metodologia utilizza invece compiti complessi e verifiche progettate per ridurre la possibilità che i modelli ottengano punteggi elevati semplicemente grazie alla memorizzazione di informazioni già viste durante il training.

La prova valuta la capacità di un modello di eseguire sequenze di azioni, raccogliere informazioni da fonti differenti, utilizzare strumenti software e adattare il proprio comportamento in base ai risultati intermedi ottenuti durante l’esecuzione del compito. Questo tipo di valutazione si avvicina maggiormente agli scenari reali in cui gli agenti AI vengono impiegati per attività professionali, ricerca, sviluppo software e automazione aziendale.

Il risultato assume particolare rilevanza perché arriva pochi giorni dopo il rilascio pubblico di Claude Fable 5, modello che in numerosi benchmark tradizionali aveva registrato prestazioni superiori rispetto a GPT-5.5, soprattutto nei test relativi alla programmazione agentica, all’uso di strumenti e ai compiti di conoscenza generale. In questo nuovo contesto di valutazione, tuttavia, GPT-5.5 è riuscito a ottenere il punteggio più elevato, evidenziando differenze significative tra benchmark specialistici e scenari agentici end-to-end.

Uno degli aspetti più interessanti emersi dai risultati riguarda il livello assoluto delle prestazioni. Nonostante GPT-5.5 abbia conquistato il primo posto, il tasso di successo complessivo rimane relativamente basso rispetto agli standard umani, indicando che anche i modelli più avanzati incontrano ancora notevoli difficoltà quando devono affrontare problemi aperti, multi-step e caratterizzati da numerosi passaggi decisionali.

Il benchmark evidenzia quindi come la competizione tra i principali laboratori AI stia progressivamente spostandosi dalla semplice generazione di testo verso la capacità di eseguire workflow completi in autonomia. In questo scenario, la qualità del ragionamento multi-fase, la gestione degli strumenti e la capacità di portare a termine obiettivi complessi stanno diventando parametri sempre più importanti per valutare l’effettiva utilità operativa dei modelli foundation di nuova generazione.

Di Fantasy