Immagine AI

Per molto tempo, lo sviluppo dei modelli linguistici di grandi dimensioni è stato guidato da una convinzione quasi indiscussa: per ottenere un ragionamento migliore servono modelli sempre più grandi, con più parametri, più dati e più potenza di calcolo. Negli ultimi mesi, però, questa idea sta iniziando a essere messa in discussione da una serie di ricerche che suggeriscono un’alternativa radicale. Una di queste arriva da un team di ricerca cinese composto da Steppun, Tsinghua University e Peking University, che ha presentato un nuovo framework chiamato PaCoRe, progettato per massimizzare le capacità di ragionamento dei modelli linguistici senza aumentarne necessariamente le dimensioni.

Il punto di partenza di questa ricerca è una critica strutturale al modo in cui gli LLM ragionano oggi. La maggior parte dei modelli, anche i più avanzati, affronta i problemi complessi generando una lunga Catena di Pensiero, un flusso sequenziale di token che si sviluppa passo dopo passo. Questo approccio ha dimostrato di essere efficace, ma porta con sé due limiti fondamentali. Da un lato, la finestra di contesto impone un vincolo fisico alla lunghezza del ragionamento che può essere mantenuto in memoria; dall’altro, l’inferenza rimane intrinsecamente seriale, anche quando l’hardware sottostante sarebbe in grado di gestire calcoli paralleli molto più ampi. In pratica, anche se il modello è enorme, il modo in cui “pensa” resta lineare, lento e poco scalabile.

PaCoRe nasce proprio per superare questo collo di bottiglia. Invece di seguire un’unica traiettoria di pensiero, il framework introduce una struttura di inferenza basata sull’esplorazione parallela e sul coordinamento. Per ogni problema, il modello sviluppa simultaneamente decine di percorsi di ragionamento differenti. Ogni percorso esplora una possibile soluzione, con ipotesi, deduzioni e passaggi intermedi propri. Tuttavia, invece di accumulare tutti questi pensieri in una sequenza sempre più lunga, PaCoRe ne distilla solo gli elementi chiave alla fine di ogni ciclo. Queste sintesi compatte diventano l’input del ciclo successivo, consentendo al sistema di estendere il ragionamento senza saturare la finestra di contesto.

Il risultato è una forma di pensiero che assomiglia più a una discussione interna che a un monologo lineare. Le diverse traiettorie di ragionamento non vengono semplicemente confrontate per maggioranza, come avviene in alcuni approcci che generano più risposte e scelgono quella più frequente. PaCoRe utilizza invece l’apprendimento per rinforzo per valutare, confrontare e sintetizzare le conclusioni dei diversi percorsi, mettendo in relazione anche prove contraddittorie. Questo processo consente al sistema di convergere progressivamente verso una soluzione più solida, anche quando le singole esplorazioni iniziali sono imperfette o addirittura sbagliate.

Uno degli aspetti più interessanti emersi dagli esperimenti è un fenomeno che i ricercatori definiscono “correttezza emergente”. In pratica, può accadere che tutte le risposte intermedie generate nei primi cicli siano errate, ma che il processo di coordinamento e raffinamento porti comunque, alla fine, alla risposta corretta. Questo suggerisce che il valore di PaCoRe non risiede nella precisione immediata dei singoli ragionamenti, bensì nella capacità del sistema di organizzare, confrontare e migliorare collettivamente le proprie ipotesi.

Dal punto di vista computazionale, il framework dimostra anche un uso molto più efficiente delle risorse al momento dell’inferenza, quello che viene chiamato Test-Time Compute. Grazie alla parallelizzazione e alla compressione delle informazioni tra un ciclo e l’altro, PaCoRe è riuscito a raggiungere un TTC effettivo equivalente a circa due milioni di token, senza mai superare i limiti di contesto del modello. Questo dato è particolarmente significativo, perché indica che è possibile ottenere un “pensiero profondo” non allungando indefinitamente la sequenza di output, ma orchestrando in modo più intelligente il calcolo disponibile.

I risultati sperimentali confermano la portata di questa intuizione. Un modello relativamente piccolo, con 8 miliardi di parametri, a cui è stato applicato PaCoRe, ha raggiunto un’accuratezza del 94,5% nel benchmark matematico HMMT 2025, superando modelli molto più grandi e avanzati, inclusi sistemi di ultima generazione. Questo dimostra che un uso più sistematico e strutturato del calcolo in fase di inferenza può produrre guadagni prestazionali superiori a quelli ottenuti semplicemente aumentando la scala del modello.

L’efficacia di PaCoRe, inoltre, non si limita alla matematica. Nei test di generazione di codice e nei benchmark che valutano la capacità di problem-solving generale in domini diversi, il framework ha mostrato miglioramenti significativi rispetto ai modelli basati su apprendimento per rinforzo tradizionale. Questo rafforza l’idea che PaCoRe non sia una tecnica specialistica per un singolo compito, ma un approccio generale al ragionamento complesso, applicabile a una vasta gamma di problemi che richiedono logica, pianificazione e capacità di sintesi.

Un altro elemento rilevante è la scelta del team di rendere open source i checkpoint del modello, i dati di addestramento e il codice di inferenza. Questa decisione apre la strada a sperimentazioni indipendenti e a un possibile utilizzo del framework in contesti diversi, accelerando la ricerca su metodi di ragionamento alternativi alla semplice crescita dimensionale dei modelli.

Nel complesso, il lavoro su PaCoRe suggerisce un cambio di prospettiva importante per il futuro dell’intelligenza artificiale. Invece di chiederci quanto grandi debbano diventare i modelli, potremmo iniziare a chiederci quanto bene sappiano organizzare il loro pensiero. La ricerca del team cinese mostra che il ragionamento non è solo una questione di dimensioni, ma di struttura, coordinamento e uso intelligente delle risorse disponibili. Se questa direzione verrà ulteriormente esplorata, potrebbe segnare un passaggio decisivo verso sistemi di AI più efficienti, più interpretabili e, paradossalmente, più intelligenti proprio perché capaci di pensare insieme a se stessi.

Di Fantasy