Microsoft sta facendo passi da gigante con il suo approccio all’apprendimento per rinforzo (Reinforcement Learning, RL). Dopo aver collaborato con OpenAI per sviluppare modelli come GPT-4, l’azienda ha deciso di intraprendere un percorso autonomo, creando modelli open-source come la serie Phi, progettati per essere leggeri ed efficienti. L’ultimo arrivato in questa famiglia è Phi-4 Reasoning Plus, un modello da 14 miliardi di parametri che ha ottenuto risultati sorprendenti in compiti complessi come la programmazione, la matematica e le scienze avanzate.
A differenza dei modelli tradizionali, che si concentrano sulla previsione della parola successiva, l’apprendimento per rinforzo permette al modello di esplorare diverse soluzioni per arrivare alla risposta corretta. Questo metodo si ispira al modo in cui gli esseri umani risolvono i problemi: attraverso tentativi ed errori, con l’obiettivo di ottimizzare il risultato finale. Nel caso di Phi-4 Reasoning Plus, l’allenamento si è concentrato su compiti matematici, premiando le risposte corrette e penalizzando quelle eccessivamente lunghe o ripetitive, favorendo così risposte concise e ben strutturate.
Un elemento chiave del successo di Phi-4 Reasoning Plus è la qualità dei dati utilizzati per l’addestramento. Microsoft ha impiegato oltre 1,4 milioni di prompt provenienti da discipline come la programmazione e le scienze, con risposte generate dal modello o3-mini di OpenAI. Questi dati sono stati selezionati per sfidare i limiti del modello base Phi-4, assicurando che l’addestramento fosse mirato e efficace.
L’approccio di Microsoft all’apprendimento per rinforzo offre nuove prospettive per l’evoluzione dell’intelligenza artificiale. Consentendo ai modelli di esplorare diverse strade per arrivare alla soluzione, si promuove una maggiore flessibilità e adattabilità. Questo potrebbe portare a sistemi più robusti e in grado di affrontare compiti complessi in modo più umano. Inoltre, l’uso di dati di alta qualità e la focalizzazione su compiti specifici permettono di ottimizzare le prestazioni del modello, rendendolo più efficiente e preciso.