I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato il campo dell’intelligenza artificiale, offrendo capacità avanzate di comprensione e generazione del linguaggio naturale. Una componente fondamentale di questi modelli è il “chain-of-thought” (CoT), o catena di pensiero, un processo che scompone i problemi in passaggi sequenziali per dedurre le risposte. Tuttavia, mentre catene di pensiero più lunghe possono migliorare l’accuratezza delle risposte, aumentano significativamente i costi computazionali, rendendo l’implementazione su larga scala una sfida.
Recentemente, i ricercatori della Carnegie Mellon University hanno proposto una tecnica innovativa chiamata “length controlled policy optimization” (LCPO) per affrontare questo problema. LCPO introduce un doppio obiettivo durante l’addestramento dei modelli: non solo ottenere risposte corrette, ma anche mantenere le catene di pensiero entro un limite di token predefinito. Questo approccio consente agli sviluppatori di bilanciare l’accuratezza delle risposte con i costi computazionali, offrendo un controllo più preciso sulla lunghezza delle catene di pensiero generate.
Gli esperimenti hanno dimostrato che i modelli addestrati con LCPO possono fornire un equilibrio fluido tra accuratezza e costi, superando sorprendentemente modelli più grandi quando si confrontano catene di pensiero di lunghezza simile. Questo significa che, con LCPO, è possibile ridurre drasticamente i costi di inferenza nelle applicazioni aziendali, risparmiando migliaia di token in ogni interazione con un LLM.
Tradizionalmente, i modelli di ragionamento come OpenAI o DeepSeek-R1 sono stati addestrati utilizzando l’apprendimento per rinforzo (RL) per generare catene di pensiero prima di fornire una risposta. Le evidenze empiriche mostrano che, man mano che i modelli “pensano” più a lungo, tendono a migliorare le loro prestazioni nei compiti di ragionamento. Tuttavia, queste catene di pensiero più lunghe possono creare un collo di bottiglia computazionale, con sequenze che si estendono fino a decine di migliaia di token senza offrire guadagni significativi in termini di accuratezza.
LCPO affronta questa sfida introducendo due obiettivi di addestramento: ottenere la risposta corretta e mantenere la catena di pensiero entro una lunghezza di token specifica. Se il modello produce la risposta corretta ma genera troppe token nella catena di pensiero, riceve una penalità, costringendolo a elaborare una catena di ragionamento più concisa ed efficiente. Questo approccio non solo riduce i costi computazionali, ma mantiene anche l’accuratezza delle risposte, rendendo i modelli più efficienti e pratici per l’uso su larga scala.