Immagina che, fin dal primo istante, un modello di linguaggio venga educato non solo a predire la parola successiva in una frase, ma a ragionare — non come un calcolatore, bensì come una mente che esplora opzioni, pesa conseguenze, elabora passaggi intermedi prima di scegliere. È questa l’idea audace che un gruppo di ricercatori NVIDIA ha messo al centro del loro lavoro recente. Il punto non è più solo “allenare modelli sempre più grandi”, ma cambiare il modo in cui apprendono la logica e il ragionamento, facendo sì che il pensiero diventi parte integrante del processo di apprendimento iniziale.
Tradizionalmente, i grandi modelli linguistici — i cosiddetti LLM (Large Language Models) — vengono addestrati in due fasi distinte e sequenziali: nella prima fase (il pre-training) il modello impara dalle enormi quantità di testi, esercitandosi a prevedere la parola che verrà dopo; nella fase successiva (fine-tuning o addestramento supervisionato, talvolta con reinforzo) gli vengono insegnate capacità più sofisticate, come ragionare per passi intermedi, correggere errori, affinare comportamenti adeguati. Questo approccio ha prodotto notevoli successi, ma ha anche un’incoerenza di fondo: il ragionamento, fino a quel momento, resta un’appendice, qualcosa che si applica “dopo”, anziché essere parte del paradigma cognitivo del modello fin da subito.
I ricercatori di NVIDIA propongono un cambiamento radicale: introdurre il ragionamento come parte integrante fin dal pre-training, mediante una tecnica chiamata reinforcement learning pre-training (RLP). L’idea è che, ad ogni passo del processo, il modello non si limiti a predire la parola successiva, ma prima generi una “catena di pensieri interni” — una sorta di ragionamento in forma testuale — e poi utilizzi quel ragionamento per migliorare la scelta della parola successiva. Se quel pensiero ha effettivamente aiutato a fare una previsione più accurata, il modello riceve una ricompensa (reward). Questo meccanismo spinge il modello a imparare quando ragionare, e in che modo farlo in modo utile, selezionando pensieri efficaci e scartando quelli inutili.
Questa strategia sfida l’idea che il ragionamento debba essere “insegnato dopo”. Invece, RLP integra una dinamica attiva fin dall’inizio: il modello impara a “pensare prima di parlare”, o meglio, prima di predire. Il vantaggio è duplice: da una parte, le catene di ragionamento si costruiscono usando dati testuali grezzi, senza bisogno di dataset curati appositamente per ragionamento; dall’altra, non serve un supervisore esterno che valuti il ragionamento generato, perché la ricompensa è valutata automaticamente in base a quanto quel ragionamento ha aiutato la previsione rispetto al caso “senza pensiero”.
I risultati preliminari non sono banali: nei test condotti con modelli come Qwen3-1.7B e Nemotron-Nano-12B, le versioni addestrate con RLP mostrano un miglioramento consistente nelle attività che richiedono ragionamento, specialmente su compiti di matematica e scienze. In uno scenario aziendale, ciò potrebbe tradursi in agenti AI in grado di affrontare processi multi-step, analisi complesse o sintesi di documenti con maggiore affidabilità. In termini quantitativi, i modelli con RLP ottengono punteggi finali del 7-8 % superiori rispetto ai modelli “tradizionali” che hanno ricevuto lo stesso successivo fine-tuning, suggerendo che il miglioramento introdotto non viene “dimenticato” nelle fasi successive, ma si integra con esse.
Un’altra scoperta interessante è che l’approccio RLP sembra essere efficiente: su Qwen3-1.7B, ha permeato un miglioramento del 17 % rispetto all’allenamento continuo tradizionale, e addirittura ha superato una tecnica comparabile (RPT, “reinforcement pretraining via prefix-matching rewards”) se paragonata all’equivalente costo computazionale. Anche quando il modello tradizionale cerca di pareggiare il costo addestrando con dataset molto più grandi, non raggiunge i medesimi risultati, suggerendo che il vantaggio deriva dalla struttura dell’apprendimento, non solo dall’intensità del calcolo.
Certo, RLP non si presenta come sostituto totale delle fasi successive di addestramento supervisionato o di apprendimento da feedback umano: gli esperti NVIDIA chiariscono che le tecniche tradizionali rimangono fondamentali per allineare il comportamento del modello con requisiti di sicurezza, correttezza, stile e policy aziendali. Quello che RLP offre è un “vantaggio strutturale”: un modello che già ha compreso l’atto del ragionamento, che possiede una base più robusta su cui applicare il perfezionamento.
Dal punto di vista della visione filosofica, questa innovazione fa emergere un’idea profonda: non basta aumentare dimensioni, parametri o dataset; serve migliorare la qualità del processo di apprendimento. In termini figurati, non è solo questione di “quanto apprendi”, ma di come apprendi. Dare al modello la capacità di pensare, non solo di imitare, fin dalle sue prime fasi può dare un salto qualitativo, rendendolo più flessibile, robusto e meno incline a errori logici.