Google propone l’Internal Reinforcement Learning per migliorare il ragionamento a lungo termine degli LLM

Negli ultimi anni i modelli linguistici di grandi dimensioni hanno mostrato capacità sorprendenti nel dialogo, nella scrittura e nella risoluzione di problemi complessi. Eppure, dietro a queste prestazioni impressionanti, rimane una debolezza strutturale ben nota agli addetti ai lavori: quando i compiti richiedono pianificazione a lungo termine, ragionamento su molte fasi o obiettivi distanti nel tempo, gli LLM tendono a perdersi, a “allucinare” oppure a seguire percorsi logicamente coerenti solo in apparenza. Proprio per affrontare questo limite, Google ha presentato una nuova tecnica di apprendimento, chiamata Internal Reinforcement Learning, che mira a cambiare il modo in cui questi modelli imparano a ragionare.

L’annuncio, reso pubblico il 16 gennaio attraverso l’archivio di ricerca online, parte da una constatazione semplice ma cruciale. Gli attuali LLM si basano su un’architettura autoregressiva che prevede il token successivo uno alla volta, anche quando vengono raffinati tramite apprendimento per rinforzo dopo il pre-addestramento. Questo approccio ha funzionato molto bene per migliorare la qualità delle risposte e l’allineamento con gli obiettivi umani, ma mostra limiti evidenti quando il problema da risolvere non è immediato. In ambienti con ricompense rare o in attività che richiedono decine di passaggi coordinati, l’esplorazione token per token diventa estremamente inefficiente. I ricercatori spiegano che, in questi casi, la probabilità di trovare per puro caso una sequenza corretta di azioni può scendere a “una su un milione”.

Il problema, sottolineano, non è semplicemente che il modello sbagli. È più profondo: il modello opera spesso al livello di astrazione sbagliato. A volte si concentra su dettagli locali e perde di vista l’obiettivo generale; altre volte mantiene una direzione astratta ma sbaglia l’esecuzione concreta. In entrambi i casi, la pianificazione di lungo periodo risulta fragile. Da tempo, la comunità scientifica tenta di affrontare questo nodo attraverso l’apprendimento per rinforzo gerarchico, un filone che cerca di insegnare ai modelli a ragionare in termini di sotto-obiettivi, o subroutine, invece che di singole azioni elementari. Tuttavia, nella pratica, identificare automaticamente queste strutture significative si è rivelato estremamente difficile, e molti algoritmi finiscono per convergere su schemi poco realistici o inefficaci.

La proposta di Google nasce da un’intuizione diversa. I ricercatori partono dall’idea che i modelli linguistici moderni sappiano già internamente come eseguire azioni complesse, grazie al vasto pre-addestramento su dati massivi. Questa competenza, però, rimane in gran parte nascosta nelle rappresentazioni interne del modello, nel cosiddetto flusso residuo, e i segnali di apprendimento tradizionali non riescono a sfruttarla appieno. In altre parole, il modello possiede già schemi utili di alto livello, ma non viene guidato a usarli nel modo giusto durante il ragionamento.

Per colmare questo divario, il team ha introdotto un elemento chiave: un meta-controllore, una rete neurale interna che non agisce direttamente sull’output testuale, ma interviene sulle attivazioni degli strati intermedi del modello. Invece di dire al sistema quale token generare dopo, il meta-controllore lo orienta verso uno “stato interno utile”, una sorta di direzione astratta che rappresenta un’azione o un obiettivo di alto livello. Una volta fornita questa direzione, il modello di base è in grado di produrre autonomamente i passaggi dettagliati necessari, sfruttando le competenze già acquisite durante il pre-addestramento.

Un aspetto particolarmente interessante è il modo in cui questo meta-controllore viene addestrato. Non c’è etichettatura umana diretta. Il sistema utilizza un apprendimento autosupervisionato che analizza intere sequenze di azioni e ricostruisce a posteriori l’intento di alto livello che meglio le spiega. In questo schema, l’obiettivo non è più prevedere il token successivo, ma apprendere quale decisione astratta conduca alla soluzione complessiva. È un cambio di prospettiva che sposta l’attenzione dal “come” immediato al “perché” dell’azione.

I ricercatori hanno testato l’Internal RL in ambienti notoriamente difficili per i metodi tradizionali. Tra questi figurano un mondo a griglia discreta e un compito di controllo continuo che coinvolge un robot quadrupede, chiamato Ant, costretto a coordinare numerosi movimenti articolari. In entrambi i casi, le ricompense erano rare e le sequenze di azioni molto lunghe, condizioni che mettono in crisi la maggior parte degli algoritmi di apprendimento per rinforzo. I risultati mostrano una differenza netta: mentre approcci avanzati come GRPO o CompILE non riescono a convergere nemmeno dopo un milione di episodi di addestramento, l’Internal RL raggiunge un alto tasso di successo con un numero di sessioni molto inferiore.

Il motivo di questa efficienza sta nel fatto che il meta-controllore riduce drasticamente lo spazio di esplorazione. Invece di testare infinite combinazioni di passaggi elementari, il sistema sceglie prima obiettivi di alto livello e lascia al modello di base il compito di tradurli in azioni concrete. Un risultato particolarmente significativo emerge da un dettaglio sperimentale: le prestazioni migliori si ottengono quando il modello di base viene congelato e si addestra soltanto il meta-controllore. Quando entrambi vengono aggiornati contemporaneamente, il sistema fatica a sviluppare astrazioni stabili. Al contrario, mantenendo fisso il modello pre-addestrato, il meta-controllore riesce a scoprire in autonomia strutture interne che corrispondono a reali cambiamenti di sotto-obiettivo, senza alcuna guida esplicita.

Questa ricerca arriva in un momento in cui il settore dell’AI è fortemente concentrato sull’estrazione del ragionamento tramite lunghe catene di pensiero esplicite, le cosiddette Chain of Thought. Il lavoro di Google suggerisce invece che il ragionamento interno, non necessariamente visibile sotto forma di token generati, possa essere più efficiente e più adatto a compiti complessi. Piuttosto che rendere ogni passaggio esplicito, il modello potrebbe imparare a pianificare e ragionare a un livello più astratto, lasciando emergere l’output finale in modo più stabile.

Le implicazioni di questo approccio sono ampie. Secondo i ricercatori, l’Internal Reinforcement Learning potrebbe aprire la strada a sistemi capaci di affrontare problemi che richiedono pianificazione di lungo periodo, agenti autonomi più affidabili e persino applicazioni nel controllo robotico nel mondo reale. In ambiti come la generazione di codice, dove è necessario mantenere una visione globale della struttura logica senza perdere la correttezza sintattica locale, questo metodo potrebbe offrire un equilibrio nuovo tra libertà di esplorazione e stabilità dell’output.

Google propone l’Internal Reinforcement Learning per migliorare il ragionamento a lungo termine degli LLM

DiFantasy

Di Fantasy

Articoli correlati

Anthropic Claude diventa l’app gratuita più scaricata nell’App Store USA dopo il divieto del governo

Cortical Labs presenta CL-1: un computer con cellule cerebrali umane gioca a Doom

Meta brevetta un’AI che potrebbe continuare a pubblicare e rispondere dopo la morte dell’utente

Ultimi Post

Anthropic Claude diventa l’app gratuita più scaricata nell’App Store USA dopo il divieto del governo

Cortical Labs presenta CL-1: un computer con cellule cerebrali umane gioca a Doom

Meta brevetta un’AI che potrebbe continuare a pubblicare e rispondere dopo la morte dell’utente

I robot umanoidi conquistano la TV cinese tra spettacolo tecnologico e paura di perdere il lavoro