Immagina una mente artificiale che, di fronte a un problema matematico complesso, non si accontenta di un “pensierino” in linguaggio naturale, ma scrive un pezzo di codice Python, lo esegue, verifica se la risposta funziona… e se serve, modifica il codice, riprova. Quasi come uno studente meticoloso, instancabile. Questo è il cuore di rStar2‑Agent, il nuovo modello matematico di Microsoft, presentato il 30 agosto 2025.
Diversamente da altri grandi modelli linguistici (LLM), rStar2‑Agent non si basa unicamente sull’inferenza passiva. Il suo meccanismo è dinamico: è un modello di 14 miliardi di parametri che, oltre a risolvere problemi, verifica autonomamente il proprio ragionamento generando ed eseguendo codice Python. Questo processo—pensa, codifica, esegui, correggi—si ripete fino ad arrivare alla risposta migliore, in pieno stile analogico matematico-human-in-the-loop.
I risultati? In benchmark sfidanti come AIME24, ottiene precisione pari all’80,6 %, e in AIME25 il 69,8 %—superando modelli enormemente più grandi, come DeepSeek‑R1 da 671 miliardi di parametri.
Tre innovazioni chiave sono:
- Hardware ed efficienza: rStar2‑Agent è stato addestrato in una sola settimana su 64 GPU AMD MI300X, grazie a un’infrastruttura capace di eseguire Python ad alta intensità con costi contenuti.
- GRPO‑RoC (Group Policy Optimization – Resample on Correct): un algoritmo RL agentico che, attraverso una strategia “risampiona se esatto”, confronta più soluzioni, scarta quelle sbagliate e convergendo verso la risposta migliore, riducendo l’impatto di errori intermedi.
- Tre fasi di training progressive:
— Fase 1: inferenza rapida entro 8.000 token per iniziare il ragionamento.
— Fase 2: espansione a 12.000 token per ragionamenti più articolati.
— Fase 3: focus sui casi più complessi per ottimizzare le performance.
Non solo ha superato DeepSeek‑R1, ma ha raggiunto questi risultati usando meno tracce di ragionamento: circa 10.000 passi, contro le 17.000 dei modelli più pesanti. Un’efficienza impressionante, che conferma come l’integrazione intelligente degli strumenti sia più rilevante della mera dimensione del modello.
Anche se addestrato principalmente su compiti matematici, rStar2‑Agent ha mostrato capacità di ragionamento scientifico e di allineamento (alignment), oltre alla capacità di agentic tool‑use: integra strumenti, ragiona con consapevolezza e guida sé stesso, proprio come un piccolo centro cognitivo autonomo.
Questo sviluppo ribalta l’idea che la potenza dell’intelligenza artificiale consista esclusivamente in modelli mastodontici. rStar2‑Agent dimostra che, grazie a un processo sofisticato di auto-verifica e ottimizzazione, modelli compatti possono raggiungere risultati da frontiera—con efficienza, pragmaticità e flessibilità.