Un recente studio condotto da ricercatori dell’Università di Harvard e della Vrije Universiteit Brussel ha analizzato le prestazioni dei modelli di linguaggio di OpenAI, focalizzandosi su o1-mini e o3-mini. L’obiettivo era determinare se catene di ragionamento più lunghe portassero a risposte più accurate. I risultati hanno rivelato che o3-mini supera o1-mini in accuratezza, nonostante utilizzi catene di ragionamento più brevi.
I ricercatori hanno confrontato le performance di o1-mini e o3-mini su problemi matematici di livello olimpico. Contrariamente all’ipotesi che un ragionamento più esteso conduca a risposte più precise, lo studio ha evidenziato che l’accuratezza tende a diminuire con l’aumento della lunghezza delle catene di ragionamento. Questo calo è meno pronunciato nei modelli più avanzati, suggerendo che le nuove generazioni di modelli di ragionamento utilizzano le risorse computazionali in modo più efficiente durante l’esecuzione dei compiti.
La ricerca propone che “pensare più intensamente” non equivalga a “pensare più a lungo”. Una possibile spiegazione per la diminuzione di accuratezza con catene di ragionamento più lunghe è che i modelli tendono a elaborare maggiormente su problemi che non riescono a risolvere facilmente. Inoltre, catene di ragionamento più estese potrebbero avere una probabilità intrinseca più elevata di portare a soluzioni errate.
Questi risultati hanno rilevanza significativa per l’evoluzione dei modelli di intelligenza artificiale. Mentre l’industria dell’IA investe sempre più nei modelli di ragionamento, come dimostrato dall’introduzione di Grok 3 da parte di xAI e dai piani di Anthropic per un modello ibrido con capacità di ragionamento, è essenziale considerare che l’efficacia del ragionamento non dipende necessariamente dalla sua lunghezza. OpenAI, pioniera in questo campo con la serie o1, ha recentemente annunciato la famiglia di modelli o3, considerati i più potenti modelli di ragionamento finora sviluppati.
Nonostante la disponibilità di o3-mini, OpenAI prevede di unificare le serie o e GPT con il prossimo rilascio di GPT-5, senza l’intenzione di rilasciare o3 come modello autonomo. Questa strategia riflette un approccio integrato allo sviluppo dell’IA, in cui l’accuratezza e l’efficienza del ragionamento sono ottimizzate senza necessariamente aumentare il tempo di elaborazione.