Microsoft presenta Phi-4-Reasoning-Vision-15B, un modello AI compatto per visione e ragionamento

Microsoft ha recentemente introdotto Phi-4-reasoning-vision-15B, un nuovo modello di intelligenza artificiale multimodale progettato per affrontare uno dei problemi emergenti nella progettazione dei sistemi di IA avanzati: la gestione efficiente del ragionamento. In molti modelli contemporanei, infatti, il processo di ragionamento esplicito — spesso rappresentato da catene di pensiero o passaggi intermedi di calcolo — viene attivato anche quando non è realmente necessario, aumentando i tempi di risposta, il consumo di risorse computazionali e i costi di inferenza. Il nuovo modello della famiglia Phi cerca invece di introdurre un approccio più adattivo, nel quale l’IA è in grado di valutare autonomamente quando è opportuno attivare un processo di ragionamento approfondito e quando è sufficiente fornire una risposta diretta.

Il modello appartiene alla linea Phi, una serie di modelli compatti sviluppati da Microsoft Research con l’obiettivo di dimostrare che architetture relativamente piccole, se progettate con tecniche di training avanzate e dataset curati, possono competere con sistemi molto più grandi. Phi-4-reasoning-vision-15B possiede circa 15 miliardi di parametri, una dimensione significativamente inferiore rispetto ai grandi modelli multimodali utilizzati dalle principali aziende del settore, che spesso superano i 30 o 70 miliardi di parametri o arrivano addirittura a centinaia di miliardi. Nonostante questa dimensione relativamente contenuta, Microsoft sostiene che il modello sia in grado di raggiungere prestazioni competitive su numerosi benchmark di visione-linguaggio e ragionamento scientifico.

Uno degli elementi distintivi del sistema è la sua capacità di elaborare simultaneamente informazioni visive e testuali. Il modello può analizzare immagini, interpretare grafici e diagrammi scientifici, comprendere documenti complessi e svolgere compiti pratici come la lettura di ricevute o l’interpretazione di interfacce grafiche. Questo tipo di capacità multimodale è particolarmente rilevante per applicazioni che richiedono l’integrazione di diversi tipi di dati, ad esempio nell’automazione di software, nell’analisi documentale o nei sistemi di assistenza digitale avanzata.

Dal punto di vista architetturale, Phi-4-reasoning-vision-15B utilizza un approccio definito mid-fusion. In questa configurazione un encoder visivo pre-addestrato trasforma le immagini in rappresentazioni numeriche che vengono poi convertite in token e integrate nello spazio di embedding del modello linguistico. In questo modo il sistema può trattare informazioni visive e testuali all’interno di un unico processo di elaborazione, senza richiedere pipeline separate. L’encoder visivo utilizzato deriva dalla famiglia SigLIP-2, una rete specializzata nell’estrazione di caratteristiche visive ad alta risoluzione.

L’innovazione più interessante del modello riguarda però il modo in cui è stato addestrato per gestire il ragionamento. Durante il training, Microsoft ha utilizzato un dataset multimodale composto da circa 200 miliardi di token, una quantità significativamente inferiore rispetto a quella utilizzata da molti modelli concorrenti, che spesso superano il trilione di token. Questo risultato è stato ottenuto partendo dal backbone linguistico Phi-4-Reasoning e integrando un mix di esempi con e senza tracce di ragionamento esplicito.

In pratica, circa il 20% dei dati di addestramento includeva sequenze di ragionamento esplicito, racchiuse in tag specifici che indicavano al modello di generare passaggi intermedi di analisi. Il restante 80% dei dati era invece progettato per produrre risposte dirette, senza catene di pensiero. Questo schema di addestramento consente al modello di apprendere implicitamente quando è utile attivare un processo di reasoning e quando invece è più efficiente fornire una risposta immediata.

Il risultato è un sistema che bilancia precisione e velocità. Nei compiti più semplici — ad esempio la descrizione di un’immagine o la lettura di un testo — il modello risponde rapidamente senza generare lunghi passaggi di ragionamento. Nei problemi più complessi, come quelli matematici o scientifici, il sistema attiva invece strutture di ragionamento più articolate per migliorare l’accuratezza della risposta. Questo comportamento adattivo rappresenta un tentativo di affrontare uno dei limiti principali dei modelli di ragionamento esplicito, che spesso sacrificano la velocità per ottenere maggiore precisione.

Le valutazioni pubblicate da Microsoft mostrano che il modello ottiene risultati competitivi su diversi benchmark multimodali. Tra questi figurano test dedicati alla comprensione di diagrammi scientifici, all’analisi di grafici, alla risoluzione di problemi matematici basati su immagini e all’identificazione di elementi nelle interfacce software. In alcuni casi i risultati risultano leggermente inferiori rispetto ai modelli più grandi, come le varianti da 32 miliardi di parametri della famiglia Qwen, ma rimangono comunque comparabili considerando la differenza di dimensione e di risorse computazionali richieste.

La strategia alla base della famiglia Phi riflette una tendenza emergente nel settore dell’intelligenza artificiale. Negli ultimi anni molti progressi sono stati ottenuti aumentando semplicemente la dimensione dei modelli e la quantità di dati utilizzati per l’addestramento. Tuttavia questo approccio presenta costi molto elevati in termini di infrastrutture, energia e latenza. Microsoft sta quindi esplorando un percorso alternativo basato su modelli più piccoli ma altamente ottimizzati, in grado di offrire prestazioni competitive grazie a tecniche di training sofisticate e a dataset accuratamente selezionati.

Questa filosofia progettuale ha implicazioni importanti per l’adozione dell’IA nel contesto aziendale. Molte applicazioni industriali richiedono modelli che possano essere eseguiti localmente o su infrastrutture limitate, come server aziendali, dispositivi edge o computer personali. In questi contesti, i modelli di dimensioni estremamente grandi risultano spesso impraticabili a causa dei requisiti hardware e dei costi di inferenza. Un sistema multimodale da 15 miliardi di parametri, capace di offrire prestazioni vicine a quelle dei modelli più grandi, può quindi rappresentare un compromesso molto interessante tra potenza computazionale e accessibilità operativa.

Un altro aspetto rilevante della strategia di Microsoft riguarda la distribuzione open-weight del modello. Phi-4-reasoning-vision-15B è stato reso disponibile attraverso piattaforme come Hugging Face, GitHub e Microsoft Foundry, insieme ai log di valutazione e agli strumenti necessari per il fine-tuning. Questa scelta consente alla comunità di ricerca e agli sviluppatori di analizzare il modello, verificarne le prestazioni e adattarlo a specifici casi d’uso.

L’ecosistema Phi sta inoltre espandendosi in diverse direzioni. Oltre ai modelli linguistici e multimodali, Microsoft sta sperimentando varianti ottimizzate per dispositivi edge, per applicazioni educative e perfino per sistemi robotici. In uno degli sviluppi più recenti, il laboratorio di ricerca dell’azienda ha presentato un prototipo di modello derivato dalla famiglia Phi in grado di tradurre comandi linguistici in azioni robotiche per sistemi di manipolazione a due bracci.

Microsoft presenta Phi-4-Reasoning-Vision-15B, un modello AI compatto per visione e ragionamento

DiFantasy

Di Fantasy

Articoli correlati

Mistral AI rilascia un modello text-to-speech open che punta a superare ElevenLabs e a portare la sintesi vocale on-device

Robot che giocano a tennis: un passo avanti nel controllo motorio AI

Google lancia Lyria 3 Pro: musica AI fino a 3 minuti

Ultimi Post

Mistral AI rilascia un modello text-to-speech open che punta a superare ElevenLabs e a portare la sintesi vocale on-device

Robot che giocano a tennis: un passo avanti nel controllo motorio AI

Google lancia Lyria 3 Pro: musica AI fino a 3 minuti

Meta e Google condannate per dipendenza da social