Un recente studio condotto da ricercatori dell’Università di Harvard e della Vrije Universiteit Brussel ha analizzato le prestazioni dei modelli di linguaggio di OpenAI, focalizzandosi su o1-mini e o3-mini. L’obiettivo era determinare se catene di ragionamento più lunghe portassero a risposte più accurate. I risultati hanno rivelato che o3-mini supera o1-mini in accuratezza, nonostante utilizzi catene di ragionamento più brevi.​

I ricercatori hanno confrontato le performance di o1-mini e o3-mini su problemi matematici di livello olimpico. Contrariamente all’ipotesi che un ragionamento più esteso conduca a risposte più precise, lo studio ha evidenziato che l’accuratezza tende a diminuire con l’aumento della lunghezza delle catene di ragionamento. Questo calo è meno pronunciato nei modelli più avanzati, suggerendo che le nuove generazioni di modelli di ragionamento utilizzano le risorse computazionali in modo più efficiente durante l’esecuzione dei compiti.​

La ricerca propone che “pensare più intensamente” non equivalga a “pensare più a lungo”. Una possibile spiegazione per la diminuzione di accuratezza con catene di ragionamento più lunghe è che i modelli tendono a elaborare maggiormente su problemi che non riescono a risolvere facilmente. Inoltre, catene di ragionamento più estese potrebbero avere una probabilità intrinseca più elevata di portare a soluzioni errate.​

Questi risultati hanno rilevanza significativa per l’evoluzione dei modelli di intelligenza artificiale. Mentre l’industria dell’IA investe sempre più nei modelli di ragionamento, come dimostrato dall’introduzione di Grok 3 da parte di xAI e dai piani di Anthropic per un modello ibrido con capacità di ragionamento, è essenziale considerare che l’efficacia del ragionamento non dipende necessariamente dalla sua lunghezza. OpenAI, pioniera in questo campo con la serie o1, ha recentemente annunciato la famiglia di modelli o3, considerati i più potenti modelli di ragionamento finora sviluppati.​

Nonostante la disponibilità di o3-mini, OpenAI prevede di unificare le serie o e GPT con il prossimo rilascio di GPT-5, senza l’intenzione di rilasciare o3 come modello autonomo. Questa strategia riflette un approccio integrato allo sviluppo dell’IA, in cui l’accuratezza e l’efficienza del ragionamento sono ottimizzate senza necessariamente aumentare il tempo di elaborazione.

Di Fantasy