Microsoft presenta la famiglia MAI: sette modelli sviluppati in casa per dipendere meno da OpenAI e Anthropic

Al Build 2026, la conferenza per sviluppatori di Microsoft, il team Superintelligence guidato da Mustafa Suleyman ha presentato una famiglia di sette modelli costruiti interamente in casa sotto il marchio MAI, coprendo reasoning, coding, generazione di immagini, trascrizione e sintesi vocale. Il punto che Microsoft ha voluto rimarcare con più forza è metodologico: tutti e sette i modelli sono stati addestrati da zero su dati con licenza commerciale, senza alcuna distillazione da modelli di terze parti, compresi quelli di OpenAI. È una scelta che parla direttamente alle aziende attente alla provenienza dei dati e alla pulizia della filiera di addestramento, e che separa nettamente questa generazione dai precedenti esperimenti più piccoli e open source del gruppo.

Il modello di punta è MAI-Thinking-1, il primo modello di reasoning dell’azienda. Microsoft lo descrive come un modello di taglia media progettato per alta efficienza e basso costo per token, e sul piano delle prestazioni dichiara due risultati precisi: in test alla cieca con valutatori umani raggiunge la parità di preferenza con Claude Sonnet 4.6, mentre su un benchmark di coding molto diffuso eguaglia il più capace Claude Opus 4.6. Suleyman ha insistito sul fatto che questo risultato è stato ottenuto senza appoggiarsi a output di altri laboratori, inquadrando il tutto dentro quella che chiama una “hill-climbing machine”, un’infrastruttura di addestramento condivisa pensata per mantenere i modelli competitivi man mano che le risorse di calcolo globali cresceranno nei prossimi anni.

Sul versante dello sviluppo software arriva MAI-Code-1-Flash, un modello agentico leggero da cinque miliardi di parametri che viene integrato dentro GitHub Copilot e VS Code, collocandosi su un livello paragonabile a Claude Haiku ma a costo inferiore. Per la parte visiva ci sono MAI-Image-2.5 e la sua variante Flash, i primi modelli Microsoft capaci di gestire carichi text-to-image e image-to-image; l’azienda sostiene che MAI-Image-2.5 superi il punteggio Arena di Nano Banana Pro e il rollout parte da PowerPoint e da OneDrive per gli utenti Foundry in preview. Completano la famiglia MAI-Transcribe-1.5 per lo speech-to-text, indicato come cinque volte più veloce dei concorrenti su 43 lingue, e MAI-Voice-2 per la generazione vocale, disponibile su 15 lingue, con una variante Voice-2-Flash in arrivo a costo più basso.

Oltre ai benchmark generalisti, Microsoft ha mostrato due risultati di adattamento verticale che spiegano bene l’obiettivo commerciale: un modello MAI ottimizzato per compiti su Excel eguaglia GPT-5.4 girando fino a dieci volte più efficiente, mentre una versione tarata sugli standard enterprise di McKinsey ha ottenuto il win rate più alto tra i modelli testati a un costo circa dieci volte inferiore. È stata annunciata anche una collaborazione con la Mayo Clinic per co-sviluppare un modello clinico di frontiera, addestrato su dati di pazienti de-identificati, e la distribuzione dei modelli passerà anche da piattaforme come Fireworks AI e Baseten.

La cornice strategica è esplicita. Microsoft è il maggiore finanziatore di OpenAI, con investimenti cumulativi per 13 miliardi di dollari, ma l’accordo è stato modificato ad aprile, ponendo fine all’accesso esclusivo alla proprietà intellettuale di OpenAI e aprendo a quest’ultima la vendita dei propri servizi su piattaforme concorrenti come Amazon. In questo contesto Suleyman parla apertamente di “autosufficienza di lungo periodo” e di modelli di cui ci si possa fidare, mentre Satya Nadella ha sintetizzato la posizione affermando che è arrivato il momento per ogni azienda di passare dal consumare un modello di frontiera al partecipare pienamente alla frontiera.

Microsoft presenta la famiglia MAI: sette modelli sviluppati in casa per dipendere meno da OpenAI e Anthropic

DiFantasy

Di Fantasy

Articoli correlati

Gemini Spark integra Chrome per automatizzare le attività sul web

Grok Imagine aggiunge video nativi in 1080p e riferimenti per personaggi e voci

DeepSeek aggiorna V4 Flash migliorando le prestazioni degli agenti AI

Ultimi Post

Gemini Spark integra Chrome per automatizzare le attività sul web

Grok Imagine aggiunge video nativi in 1080p e riferimenti per personaggi e voci

DeepSeek aggiorna V4 Flash migliorando le prestazioni degli agenti AI

OpenAI Astra risolve dieci problemi aperti di matematica e informatica teorica