Nell’intelligenza artificiale, una delle sfide più ardue è quella della ragionamento lungo, ovvero la capacità di un modello di pensare attraverso molte fasi intermedie, mantenendo coerenza, memoria e capacità di collegamento. In un articolo pubblicato recentemente su Mila (il laboratorio di ricerca canadese), è stato introdotto un nuovo metodo denominato “pensiero markoviano” (o “Markovian Thinking”) che promette di superare una delle principali limitazioni dei modelli linguistici di oggi.
Per comprendere la portata di questa innovazione, conviene partire innanzitutto dalla critica al paradigma attuale. I grandi modelli linguistici (LLM, “large language models”) che eseguono ragionamenti complessi — come la risoluzione di problemi matematici, l’analisi di codice, la trattazione di argomenti scientifici — spesso lo fanno mediante quello che viene chiamato “chain-of-thought” (CoT): una catena di pensiero generata token per token, passo dopo passo. In pratica, il modello genera una lunga sequenza di token intermedi prima di giungere alla risposta. L’ostacolo tecnico è che, man mano che la sequenza di ragionamento si allunga, la “finestra di contesto” del modello – quella porzione di testo che il modello deve elaborare in ogni passo – cresce continuamente, con un costo computazionale che cresce quadraticamente rispetto alla lunghezza della catena.
La proposta dei ricercatori di Mila è quella di evitarne del tutto questo aumento quadratico del costo. Mediante il paradigma del “pensa in blocchi” (“chunked reasoning”) chiamato Delethink, il modello divide il compito in porzioni fisse — ad esempio blocchi da 8.000 token — e in ciascun blocco ragiona utilizzando la propria finestra di contesto standard. Alla fine di ciascun blocco, piuttosto che far crescere ulteriormente la quantità di contesto da considerare, il sistema crea una nuova prompt che include la domanda originale più un “carry-over” (trascinamento) che può essere una sintesi del ragionamento precedente o gli ultimi token generati. In questo modo, il modello apprende non solo a ragionare dentro ogni blocco, ma anche a decidere cosa ricordare e cosa portare avanti al blocco successivo.
Questo cambiamento di paradigma converte la crescita quadratica della memoria e del costo in una crescita lineare, fissando la finestra di contesto ma permettendo di ragionare per un numero potenzialmente enorme di token complessivi. I risultati preliminari sono notevoli: con un modello da 1,5 miliardi di parametri, utilizzando Delethink, è stato possibile addestrare il modello a ragionare fino a 24.000 token (con blocchi da 8.000) e ottenere prestazioni pari o superiori a un modello tradizionale LongCoT addestrato nello stesso budget. Ancora più sorprendente: in test estesi, il modello ha continuato a migliorare anche oltre quel budget, mostrando capacità di ragionamento fino a circa 140.000 token in certi casi.
Questa efficienza ha implicazioni pratiche molto importanti: i ricercatori stimano che addestrare un modello con metodo LongCoT per un ragionamento medio di 96.000 token richiederebbe qualcosa come 27 mesi-GPU H100, mentre con Delethink si ridurrebbe a circa 7 mesi-GPU H100. In fase di inferenza (cioè l’uso operativo del modello) il vantaggio si mantiene: lo stesso metodo di ragionamento a blocchi fissi consente memoria costante e costo lineare.
Dal punto di vista concettuale, ciò significa che stiamo avvicinandoci al sogno di modelli in grado di “pensare” per milioni di token, un livello di ragionamento che fino a poco tempo fa era fuori portata. I ricercatori di Mila affermano che il pensiero markoviano “apre la via” a modelli capaci di ragionare su orizzonti molto lunghi, e lo considerano un passo verso la scoperta scientifica assistita da IA.
In un senso più ampio, questa innovazione suggerisce come la ricerca di modelli sempre più grandi e sempre più costosi — magari con contesti enormi — possa essere affiancata, oppure superata, da nuovi paradigmi che cambiano la modalità di ragionamento. Non è più solo questione di “più token” o “finestra più grande”, ma di “come ragiona” un modello a lungo termine, come gestisce lo stato interno, come decide cosa conservare della sua storia di pensiero. In questo senso il pensiero markoviano indica un’evoluzione significativa: da un ragionamento monolitico e progressive-expanding a un ragionamento modulare, frammentato ma consecutivo.
Per gli operatori, le imprese e gli sviluppatori che si occupano di IA, questo significa che in futuro si potranno costruire sistemi più efficienti, che ragionano su compiti molto complessi (analisi di grandi codici, studi scientifici, simulazioni a lungo termine) senza richiedere risorse esorbitanti. Questo apre scenari come assistenti che mantengano contesti veramente lunghi, modelli che collaborino all’interno di processi di ricerca prolungati, macchine che “pensino” non solo per qualche migliaia di token, ma per decine o centinaia di migliaia.