Nel mondo degli enormi modelli linguistici (LLM), l’addestramento tramite apprendimento per rinforzo (reinforcement learning, RL) stava finora vivendo in gran parte nell’ombra dei modelli di pre-training: sappiamo che più dati, più parametri e più calcolo portano a miglioramenti, e abbiamo leggi empiriche abbastanza solide per il pre-training.

Tuttavia, per il RL si sapeva molto meno: quali sono le leggi che governano come le prestazioni migliorano con l’aumento del calcolo, e come prevedere in anticipo a che punto vale davvero investire nuovi cicli di GPU?

È qui che entra in scena lo studio intitolato The Art of Scaling Reinforcement Learning Compute for LLMs, condotto da un team che include ricercatori di Meta, University of Texas at Austin, University College London, University of California, Berkeley, Harvard University e della startup Periodic Labs. Pubblicato in pre-print il 15 ottobre 2025, lo studio analizza oltre 400.000 ore GPU dedicate a esperimenti di RL su modelli LLM.

L’importanza dello studio è duplice: da un lato, rappresenta uno dei primi tentativi davvero sistematici di definire una legge di scala prevedibile per l’RL nei modelli linguistici; dall’altro, mostra come non tutti gli approcci a RL sono equivalenti in termini di scalabilità e che certi dettagli “di ricetta” – ordine di apprendimento, tipo di batch, aggregazione delle perdite, etc. – influenzano fortemente quanta prestazione si ottiene, pur non sempre cambiando il “tetto” massimo che il modello può raggiungere.

Gli autori notano che, a differenza dei modelli di pre-training dove la “law of diminishing returns” segue spesso una curva di potenza, per l’RL la dinamica è diversa: miglioramenti rapidi all’inizio, poi un rallentamento progressivo, fino a un plateau. In pratica, una curva sigmoide descrive bene la relazione tra il calcolo impiegato (ore GPU) e la prestazione ottenuta.

Questo significa che, dopo una certa soglia di calcolo, gli incrementi diventano meno «efficienti» — non perché il modello smetta di imparare, ma perché le “facili” migliorie sono già state acquisite e servono investimenti maggiori per guadagni minori. Gli autori formalizzano la curva con parametri come “A” (la prestazione asintotica → il massimo teorico), “B” (quanto velocemente si avanza verso quel massimo) e “C_mid” (il punto in cui si ottiene la metà del guadagno).

Ma un risultato chiave è che fin da poche migliaia di ore GPU (nell’ordine di 1.000–2.000 ore) si possono già raccogliere dati utili per prevedere come andrà la corsa sulla scala molto più ampia (10.000+ ore GPU). In altre parole, non serve subito investire centinaia di migliaia di ore GPU per capire se un particolare setup di RL “vale” la pena: si può sperimentare su scala più piccola e poi estrapolare.

Sulla base della serie di esperimenti e varianti testate, gli autori propongono quello che definiscono un “best-practice recipe” per RL nei LLM, chiamato ScaleRL. Non si tratta di un nuovo algoritmo radicale, quanto di una combinazione ben calibrata di componenti progettuali: impiego di RL off-policy (ossia dove i dati di apprendimento possono venire da politiche precedenti), aggregazione delle perdite a livello di prompt oppure batch, normalizzazione dei vantaggi, regolarizzazione della ricompensa, definizione del curriculum (ossia l’ordine in cui i dati vengono presentati), scelta del batch size, precisione numerica (ad esempio mantenere FP32 su certe parti critiche).

Grazie a questi accorgimenti, in un esperimento singolo che ha impiegato 100.000 ore GPU, il setup ha seguito in modo molto vicino la curva predetta dalla formula sigmoide, il che conferma l’efficacia della previsione e la stabilità del metodo.

Questa ricerca ha implicazioni notevoli per chi costruisce grandi modelli e sistemi di AI. Fino a oggi, il pre-training era quasi «l’area» dove si poteva applicare un modello matematico di scalabilità: numero di parametri, numero di token, ore di calcolo → prestazione. Ma per l’RL – che è essenziale per insegnare al modello a ragionare, a rispondere, a comportarsi come agente intelligente – mancava quel grado di prevedibilità.

Ora che esiste una prima legge empirica per l’RL sui LLM, chi progetta infrastrutture di addestramento può fare scelte più informate: decidere se vale la pena raddoppiare il budget GPU, stimare il ritorno sull’investimento, capire quali varianti di algoritmo offrono effettivo valore o solo cambi di efficienza. Inoltre, da un punto di vista accademico, la presenza di una curva di scalabilità apre nuove domande: fino a che punto possiamo spingere? Qual è il limite teorico? E come varia la curva in funzioni di dominio o tipo di modello?

Nonostante la forza dello studio, gli autori riconoscono che ci sono ancora cose da chiarire. Per esempio: la curva è stata misurata in contesti specifici (modelli da ~8 miliardi di parametri e MoE da ~17 miliardi×16 “experti”) e su certi tipi di task, quindi non è garantito che la stessa legge valga per modelli molto più grandi o domini radicalmente diversi. Inoltre, il “tetto” A della prestazione è influenzato da fattori che vanno oltre il solo calcolo: dimensione del modello, lunghezza degli output, qualità dei dati, effettività della ricompensa di RL.

Lo studio “The Art of Scaling Reinforcement Learning Compute for LLMs” porta ordine dove c’era sperimentazione massiva e spesso empirica. Introduce una legge — una curva sigmoide — che descrive la relazione tra calcolo e prestazione nell’apprendimento per rinforzo dei modelli linguistici, e offre una ricetta (ScaleRL) che può essere adottata per rendere l’addestramento RL più efficiente e prevedibile. In un’epoca in cui i costi di addestramento sono enormi e le “ricette segrete” delle grandi aziende sono spesso opache, un contributo di questo tipo ha il potenziale di democratizzare e rendere più trasparente la ricerca e l’ingegneria dell’IA.

Di Fantasy