I modelli di intelligenza artificiale (IA) specializzati nel ragionamento, come l’o1 di OpenAI, sono progettati per emulare il pensiero umano attraverso processi di deduzione e analisi sequenziale. Tuttavia, una sfida significativa associata a questi modelli è il fenomeno del “pensiero eccessivo” o “overthinking”, in cui l’IA impiega risorse computazionali sproporzionate per risolvere problemi semplici, aumentando inutilmente i costi operativi.
Recentemente, un team di ricerca composto da Tencent e dalla Shanghai Jiao Tong University ha affrontato questo problema, proponendo un metodo di apprendimento per mitigare l’overthinking nei modelli di ragionamento. Nel loro studio intitolato “Don’t Overthink About 2+3: On Overthinking in o1-Like LLMs”, i ricercatori evidenziano come questi modelli possano generare processi di ragionamento eccessivamente dettagliati anche per operazioni semplici come “2+3”, consumando più token rispetto ai modelli linguistici di grandi dimensioni (LLM) tradizionali.
Per affrontare questa inefficienza, il team ha introdotto un approccio di autoapprendimento che integra due metriche di valutazione: “efficienza del risultato” ed “efficienza del processo”. Questo metodo mira a ridurre i passaggi di ragionamento non necessari, mantenendo al contempo la capacità del modello di riflettere e produrre risposte accurate. Implementando strategie come “First-Correct Solutions” (FCS) e “FCS con riflessione”, i ricercatori sono riusciti a semplificare i processi computazionali senza compromettere la precisione.
Ad esempio, applicando queste tecniche al modello QwQ-32B-Preview di Alibaba, simile all’o1, è stato possibile ridurre del 48,6% l’utilizzo dei token nel dataset MATH500, mantenendo invariata l’accuratezza. Con l’aggiunta della strategia FCS con riflessione, l’efficienza è migliorata fino al 75,8%. Anche su dataset più complessi come GPQA e AIME, il modello ha mantenuto elevate prestazioni riducendo l’impiego di risorse computazionali.
La questione dei costi associati ai modelli di ragionamento è cruciale per la loro adozione pratica. OpenAI, ad esempio, ha recentemente lanciato l’o1-Pro, disponibile solo per gli utenti con un abbonamento mensile di 200 dollari, evidenziando come i costi possano rappresentare una barriera significativa.
Parallelamente, altre iniziative mirano a ottimizzare l’efficienza dei modelli LLM. Ricercatori dell’Università di Nanchino, della Rutgers University e dell’Università del Massachusetts Amherst hanno presentato il framework TALE (Token-Budget-Aware LLM rEasoning), che consente ai modelli di regolare dinamicamente l’allocazione dei token durante il ragionamento a catena (Chain-of-Thought), producendo risposte concise e precise. TALE introduce il concetto di “elasticità dei token” per identificare l’intervallo ottimale di utilizzo dei token, riducendo in media del 68,64% il consumo di token e mantenendo la diminuzione dell’accuratezza al di sotto del 5%.