Pensare in parallelo: la nuova tecnica Parallel-R1di Tencent per allenare l’AI a ragionare meglio

Una delle sfide cruciali dell’AI è insegnare ai modelli non soltanto a produrre risposte corrette, ma a farlo con ragionamenti robusti, esplorando diverse strade e confrontando ipotesi alternative. È questa l’idea centrale dell’ultima innovazione proposta da Tencent: una tecnica chiamata Parallel-R1, che mira a infondere nei grandi modelli linguistici una sorta di “pensiero parallelo” (parallel thinking), capace di arricchire i processi di ragionamento durante l’inferenza stessa, senza appesantire il modello con enormi dati annotati manualmente.

Il problema è questo: molti modelli oggi rispondono bene quando il quesito è “diritto”, lineare, o rientra in qualcosa di già visto durante l’addestramento. Ma quando la domanda richiede creatività, scelta combinatoria, esplorazione di molte possibili vie prima di arrivare a una conclusione, il modello tende spesso a “scegliere una sola strada” e seguirla, senza contrapporre scenari alternativi.

In qualche modo, ciò limita la sua robustezza: se quella strada scelta è errata, l’errore è definitivo. Da qui l’idea di rendere il modello capace di generare più “rami di pensiero”, esplorare alternative, confrontare e poi sintetizzare: è il concetto di pensiero parallelo.

Modelle e tecniche affini già hanno sperimentato versioni di questa idea: approcci come “best of N” (generare N risposte e scegliere la più coerente), o algoritmi tipo Monte Carlo Tree Search, o il “Tree of Thoughts” (alberi di pensiero), cercano di esplorare lo spazio delle soluzioni. Ma spesso dipendono da regole “esterne” (manuali), da strutture rigide o da componenti non integrate direttamente nel modello.

Tencent e i suoi collaboratori hanno voluto invece “insegnare” al modello stesso la capacità di generare quei rami interiori, in modo fluido, durante l’inferenza— e lo hanno fatto con una pipeline in tre fasi: “Cold-Start”, “RL su matematica facile” e “RL su matematica generale”.

Il metodo è astuto e strutturato in due momenti principali:

Exploration – il modello, durante la generazione del testo, può “iniziare un ramo parallelo” quando identifica un passaggio critico. A quel punto genera più percorsi di ragionamento indipendenti (i “rami”) con tag come , ognuno esplorando possibilità diverse.
Summary – una volta conclusi quei rami distinti, il modello genera un sommario (il tag ) che confronta i risultati emersi nei vari percorsi e “sceglie” o sintetizza la conclusione migliore, per poi riprendere il discorso principale.

Alla base, la formazione è divisa in tre fasi:

Cold-Start Stage: qui il modello viene addestrato a riconoscere e produrre la struttura del pensiero parallelo. Si usa un dataset creato ad hoc, generato da un LLM potente che costruisce esempi di ragionamenti paralleli di problemi più semplici, senza che siano problemi finali complessi. L’obiettivo non è insegnare a risolvere, bensì ad apprendere il “format” del pensiero in ramificazione.
RL su matematica facile: a questo stadio si applica il reinforcement learning sullo stesso dataset di problemi più semplici, con una funzione di premio doppia: da una parte si premia la correttezza della risposta, dall’altra si premia l’uso coerente e disciplinato delle strutture parallele. Così il modello impara a “pensare in parallelo” con una certa regolarità e disciplina.
RL su matematica generale: infine, il modello viene messo alla prova su problemi più complessi, non presenti nel dataset iniziale, per generalizzare la capacità di pensiero parallelo. In questo modo si spera che il ragionamento non resti vincolato ai soli esempi di “allenamento”, ma diventi uno stile di elaborazione flessibile.

Questa struttura permette di “scalare il ragionamento” nel momento dell’inferenza, senza dover costruire giganteschi dataset manuali per ogni tipo di problema.

Nelle sperimentazioni, si è provato a implementare Parallel-R1 su un modello base open source (Qwen-3-4B-Base) e poi testarlo su benchmark standard di ragionamento matematico come AIME, AMC, MATH. Il modello così “potenziato” ha superato versioni basate su RL tradizionale o su tecniche convenzionali, dimostrando che la strategia del “pensare in parallelo” fa una differenza reale.

Un aspetto particolarmente interessante è che questa strategia fornisce “potenza di ragionamento” in modo più efficiente rispetto all’aumento del modello. In altre parole: non serve soltanto rendere il modello più grande (più parametri, più calcolo), ma dotarlo di una modalità cognitiva più raffinata.

In contesti reali, ciò significa che una IA dotata di Parallel-R1 potrebbe affrontare con maggiore sicurezza problemi complessi, in cui ci sono molti possibili percorsi di ragionamento, senza cadere facilmente in trappole logiche o vicoli ciechi.

Naturalmente, nessuna tecnica è magica né priva di punti deboli, e Parallel-R1 non fa eccezione. Un primo problema è il “cold start”: insegnare al modello il formato del ragionamento parallelo richiede un dataset iniziale ben costruito. Anche se i ricercatori usano un LLM per generare tali esempi, la qualità dei dati auto-generati è critica: errori, incoerenze o bias nei dati di avvio possono influenzare negativamente l’apprendimento.

Poi c’è la questione della funzione di ricompensa (reward). Se la ricompensa è focalizzata solo sulla risposta corretta, il modello potrebbe “saltare” il ragionamento parallelo e puntare direttamente alla risposta (cioè imboccare scorciatoie). Se invece si forza un uso eccessivo delle strutture parallele anche quando non necessarie, si rischia di rallentare il sistema e introdurre complessità inutile. Trovare l’equilibrio giusto è una sfida.

Infine, la generalizzazione rimane delicata: quanto bene la tecnica si espande in aree al di fuori della matematica, in ragionamenti più qualitativi e astratti, è ancora da scoprire. L’idea di “rami di pensiero” è naturalmente più semplice da applicare quando i passaggi logici sono discretamente definiti, come nei problemi numerici. Ma quando il ragionamento coinvolge ambiguità, valori soggettivi, contesto ricco, sarà più complesso adattare la struttura.

Tuttavia, la proposta di Tencent segna un passo significativo: stiamo passando da IA che “risponde” a IA che “ragiona”. E si tratta di un salto concettuale: non stiamo solo affinando i modelli, ma plasmando la loro metodologia interna di pensiero.

Pensare in parallelo: la nuova tecnica Parallel-R1di Tencent per allenare l’AI a ragionare meglio

DiFantasy

Di Fantasy

Articoli correlati

Perché l’AI potrebbe subire un crollo, ma è destinata a dominare, proprio come fece Internet?

C3, il problema della memoria a lungo termine dell’AI

Il crollo del muro GPU con le architetture post Transformer

Ultimi Post

Perché l’AI potrebbe subire un crollo, ma è destinata a dominare, proprio come fece Internet?

C3, il problema della memoria a lungo termine dell’AI

Il crollo del muro GPU con le architetture post Transformer

VCPI, il piano di Ginkgo contro la crisi dei dati di qualità nella scoperta di farmaci tramite AI