Microsoft ha recentemente introdotto Phi-4-Reasoning-Plus, un modello linguistico compatto da 14 miliardi di parametri progettato per affrontare compiti complessi di ragionamento strutturato. Questo modello, sviluppato da Microsoft Research, si distingue per la sua capacità di eseguire ragionamenti logici avanzati, risoluzione di problemi matematici e analisi del codice, mantenendo al contempo un’architettura efficiente e accessibile.
Nonostante le sue dimensioni relativamente contenute, Phi-4-Reasoning-Plus ha dimostrato prestazioni superiori rispetto a modelli più grandi, come DeepSeek-R1-Distill-70B, in vari benchmark. Ad esempio, nell’esame matematico AIME 2025, il modello ha ottenuto una maggiore accuratezza nel rispondere correttamente a tutte le 30 domande al primo tentativo, superando il modello da 70 miliardi di parametri e avvicinandosi alle prestazioni di DeepSeek-R1, che conta ben 671 miliardi di parametri.
Il successo di Phi-4-Reasoning-Plus è il risultato di una strategia di formazione orientata ai dati. Durante la fase di fine-tuning supervisionato, il modello è stato addestrato utilizzando una combinazione di tracce di ragionamento “chain-of-thought” sintetiche e prompt di alta qualità selezionati. Un’innovazione chiave in questo approccio è l’uso di token speciali e , che guidano il modello a separare i passaggi intermedi del ragionamento dalla risposta finale, migliorando la trasparenza e la coerenza nelle soluzioni a problemi complessi.
Successivamente al fine-tuning, Microsoft ha applicato un apprendimento rinforzato basato su risultati, utilizzando l’algoritmo Group Relative Policy Optimization (GRPO), per affinare ulteriormente le capacità di ragionamento del modello. La funzione di ricompensa in questo processo è stata progettata per bilanciare la correttezza con la concisione, penalizzare la ripetizione e garantire la coerenza nel formato delle risposte. Questo ha portato a risposte più lunghe ma più ponderate, soprattutto su domande in cui il modello inizialmente mostrava incertezze.
Phi-4-Reasoning-Plus è stato rilasciato con una licenza MIT permissiva, consentendo un ampio utilizzo commerciale e aziendale, nonché la possibilità di effettuare fine-tuning o distillazione senza restrizioni. Il modello è compatibile con framework di inferenza ampiamente utilizzati, tra cui Hugging Face Transformers, vLLM, llama.cpp e Ollama. Microsoft fornisce anche raccomandazioni dettagliate sui parametri di inferenza e sulla formattazione dei prompt di sistema per aiutare gli sviluppatori a ottenere il massimo dal modello.
Le capacità avanzate di ragionamento di Phi-4-Reasoning-Plus lo rendono adatto a una varietà di applicazioni nel mondo reale. In ambito educativo, può essere utilizzato per sviluppare tutor intelligenti in grado di risolvere problemi complessi in materie STEM. Nel settore sanitario, può supportare i professionisti medici nell’analisi dei dati dei pazienti e nella generazione di approfondimenti. In ambito legale, può aiutare gli avvocati a redigere contratti e analizzare documenti legali con ragionamento preciso. Nel settore finanziario, può migliorare la modellizzazione finanziaria e l’analisi dei rischi, garantendo previsioni accurate.