Microsoft ha recentemente presentato rStar-Math, una metodologia innovativa che consente ai modelli linguistici di piccole dimensioni (SLM) di risolvere problemi matematici complessi con un’accuratezza sorprendente, eguagliando o addirittura superando modelli più grandi come l’o1 di OpenAI.
Tradizionalmente, i modelli linguistici di grandi dimensioni (LLM) hanno dominato il campo dell’intelligenza artificiale grazie alla loro capacità di gestire compiti complessi.
Tuttavia, rStar-Math dimostra che modelli più piccoli possono raggiungere prestazioni di alto livello nel ragionamento matematico attraverso un processo di auto-evoluzione e una verifica accurata passo dopo passo, senza dipendere dal trasferimento di conoscenza da modelli più grandi.
Una caratteristica distintiva di rStar-Math è l’utilizzo della Monte Carlo Tree Search (MCTS), una strategia spesso impiegata in giochi come gli scacchi, per affrontare i problemi suddividendoli in passaggi più gestibili.
Ogni passaggio viene validato mediante l’esecuzione di codice per garantire l’accuratezza, evitando così il problema comune di generare risposte corrette con ragionamenti errati.
Il sistema integra tre innovazioni chiave per migliorare le prestazioni:
- Generazione di dati di addestramento passo-passo tramite MCTS: questo approccio assicura che ogni fase del processo sia accurata e contribuisca alla soluzione complessiva.
- Modello di preferenza del processo (PPM): valuta e guida i passaggi intermedi senza fare affidamento su punteggi imprecisi, garantendo una maggiore precisione nel percorso di soluzione.
- Evoluzione iterativa: il sistema si perfeziona attraverso quattro cicli, raffinando modelli e dati per affrontare problemi di crescente complessità.
I risultati ottenuti sono notevoli:
- Benchmark MATH: l’accuratezza è aumentata dal 58,8% al 90%, superando le prestazioni dell’o1-preview di OpenAI.
- USA Math Olympiad (AIME): il sistema ha risolto il 53,3% dei problemi, posizionandosi nel top 20% dei concorrenti a livello di scuola superiore.
Inoltre, rStar-Math ha mostrato performance eccellenti su altri benchmark, tra cui GSM8K, Olympiad Bench e sfide a livello universitario.
Un aspetto significativo di questa ricerca è la dimostrazione che modelli di intelligenza artificiale più piccoli possono sviluppare capacità di ragionamento avanzate tipicamente associate a sistemi più grandi. Inoltre, questi modelli possono acquisire una forma di auto-riflessione intrinseca, permettendo loro di identificare e correggere errori durante il processo di risoluzione dei problemi.
Microsoft ha reso disponibile il framework, insieme al codice e ai dati, in modalità open-source su GitHub, facilitando l’accesso a ricercatori e sviluppatori.