Un recente studio condotto da ricercatori di Google e dell’Università della Virginia, pubblicato sull’archivio arXiv con il titolo “Think Deeply, Not Think Long: Measuring LLM Reasoning Effort with Deep Thinking Tokens”, mette in discussione un presupposto diffuso nell’ingegneria dei modelli linguistici di grandi dimensioni: l’idea che allungare la catena di pensiero, generando più token durante l’inferenza, conduca automaticamente a una maggiore accuratezza. L’analisi dimostra che l’estensione della Chain-of-Thought (CoT) non garantisce un miglioramento sistematico delle prestazioni e, in diversi casi, può addirittura degradarle. Secondo i ricercatori, ciò che realmente incide sulla qualità del ragionamento non è la quantità di testo generato, bensì la profondità del processo inferenziale interno al modello.
Negli ultimi anni, l’estensione della CoT tramite test-time compute è stata una strategia efficace per migliorare le capacità di ragionamento degli LLM. Generando passaggi intermedi espliciti, i modelli riescono a scomporre problemi complessi in sotto-problemi e a ridurre errori superficiali. Tuttavia, lo studio evidenzia un limite strutturale: l’aggiunta indiscriminata di token non è un indicatore affidabile dello sforzo cognitivo reale del modello. L’analisi empirica mostra una correlazione media negativa pari a -0,59 tra numero di token generati e accuratezza. Il segno negativo indica che, in media, più il modello produce testo, maggiore è la probabilità che commetta errori. Questo fenomeno è attribuito a dinamiche di sovra-ragionamento, cicli ripetitivi, amplificazione di ipotesi errate e dispersione computazionale su token a basso contenuto informativo.
Il punto centrale dello studio è che il “pensiero” del modello non coincide con il testo visibile all’utente. Il processo inferenziale avviene nei livelli interni della rete neurale, attraverso una sequenza di trasformazioni che raffinano progressivamente le rappresentazioni latenti. Durante la previsione di ciascun token, il modello attraversa una gerarchia di livelli L. Per token semplici o predizioni dirette, la distribuzione di probabilità si stabilizza rapidamente: già nei primi cinque livelli la risposta corretta tende a consolidarsi e rimane sostanzialmente invariata fino agli strati finali. Al contrario, nei casi che richiedono logica complessa, simbolismo matematico o inferenze articolate, la distribuzione cambia in modo significativo lungo la profondità della rete e si stabilizza soltanto negli ultimi livelli. Questi token, la cui rappresentazione continua a evolvere fino agli strati più profondi, sono definiti “deep thinking tokens”.
Per rendere osservabile questo fenomeno, i ricercatori hanno sviluppato una tecnica che consente di tradurre la matrice di unembedding degli stati nascosti intermedi in parole interpretabili, permettendo di visualizzare le “bozze” generate dai livelli interni prima dell’output finale. Il confronto tra rappresentazioni intermedie e risultato conclusivo è stato quantificato tramite la divergenza di Jensen-Shannon (JSD). Un valore elevato di JSD indica che le distribuzioni intermedie differiscono significativamente dall’output finale, segnalando che il modello ha effettivamente rielaborato e raffinato la risposta lungo la profondità della rete.
Su questa base è stato introdotto un nuovo indicatore, il Deep Thinking Rate (DTR), che misura la proporzione di token per i quali il modello continua a rivedere significativamente la propria distribuzione predittiva fino all’ultimo 15% dei livelli. In altre parole, il DTR quantifica quante parti della risposta richiedono una vera elaborazione profonda anziché una semplice conferma precoce. Nei test condotti su modelli open source come DeepSeek-R1-70B, Qwon3-30B-Sinking e gpt-oss-120B, il DTR ha mostrato una correlazione media di 0,683 con l’accuratezza, valore decisamente elevato e in netto contrasto con la correlazione negativa osservata per il semplice conteggio dei token.
L’introduzione del DTR ha permesso al team di sviluppare un nuovo metodo di scaling dell’inferenza denominato Think@n, concepito come alternativa più efficiente al tradizionale Consensus@n. Quest’ultimo prevede la generazione di un elevato numero di risposte candidate, tipicamente 48, per poi selezionare quella più frequente tramite voto di maggioranza. Sebbene efficace, il metodo è computazionalmente oneroso, poiché richiede la generazione completa di tutte le sequenze prima di poter effettuare la selezione.
Think@n modifica radicalmente questa logica. Dopo aver generato un breve prefisso di circa 50 token per ciascun candidato, il sistema calcola il DTR preliminare e interrompe la generazione delle risposte con profondità di pensiero insufficiente. In questo modo elimina precocemente le traiettorie inferenziali superficiali, concentrando le risorse solo sulle risposte promettenti. L’analogia proposta dai ricercatori è quella di un esame in cui non si attende la fine della prova per valutare tutti gli elaborati, ma si esaminano le prime righe delle soluzioni per identificare immediatamente quelle approssimative e scartarle.
L’efficacia del metodo è stata testata sul benchmark matematico AIME 2025. Il Consensus@n ha raggiunto un’accuratezza del 92,7% generando 307.600 token. Think@n ha invece ottenuto un’accuratezza del 94,7% generando soltanto 155.400 token, con un miglioramento del 2% nelle prestazioni e una riduzione del 50% nel costo di inferenza. Il risultato dimostra che una selezione basata sulla profondità del ragionamento consente di ridurre significativamente il consumo di risorse computazionali mantenendo o superando gli standard di voto a maggioranza.
Le implicazioni industriali di questo approccio sono rilevanti. In un contesto in cui il costo dei token rappresenta una componente significativa dell’operatività dei sistemi AI su larga scala, la possibilità di ridurre il numero di token generati senza sacrificare l’accuratezza apre la strada a modelli più sostenibili ed economicamente efficienti. Inoltre, la distinzione tra lunghezza e profondità del ragionamento suggerisce un cambio di paradigma nello sviluppo dei sistemi di inferenza: non si tratta più di estendere indiscriminatamente la CoT, ma di identificare e valorizzare i segmenti realmente informativi del processo cognitivo interno.
