Immagine AI

Microsoft ha compiuto un passo strategico significativo nel consolidamento della sua posizione nel panorama dell’Intelligenza Artificiale, annunciando l’integrazione, per la prima volta, di modelli di generazione di immagini e vocali sviluppati interamente in-house all’interno della sua suite di prodotti Copilot. Questa mossa è molto più di un semplice aggiornamento di funzionalità; rappresenta una chiara iniziativa volta a ridurre la dipendenza dall’alleato storico OpenAI e a forgiare una propria, robusta tecnologia AI di prossima generazione.

Il lancio ufficiale di “MAI-Image-1” è stato annunciato dal CEO di Microsoft AI, Mustafa Suleiman, e questo modello è stato immediatamente incluso nell’attuale Bing Image Creator. Gli utenti ora hanno la libertà di scegliere tra l’eccellenza consolidata di modelli OpenAI come DALL-E 3 e GPT-4o, e la nuova potenza di fuoco sviluppata da Microsoft.

MAI-Image-1 è stato presentato con l’obiettivo specifico di eccellere nella generazione di immagini fotorealistiche e nella riproduzione di scene complesse con un alto livello di precisione, citando come esempi fenomeni naturali come i fulmini o paesaggi ricchi di dettagli. La sua progettazione è stata guidata da un approccio orientato all’utente, che ha attivamente integrato il feedback di creativi professionisti per evitare il problema diffuso della ripetitività o monotonia dei risultati generati. L’efficacia del modello è stata anche confermata in contesti esterni, con MAI-Image-1 che ha raggiunto il 9° posto nel noto sito di benchmark ‘LM Arena’ per la valutazione delle prestazioni dell’AI nella generazione di immagini.

In parallelo, Microsoft ha potenziato la sua offerta con Copilot Audio Expressions, che sfrutta il modello vocale interno “MAI-Voice-1” (rilasciato ad agosto) per convertire il testo in parlato. Questa funzionalità apre la strada a nuove interazioni, come la “Modalità Storia”, che permette agli utenti di creare un vero e proprio artbook combinando immagini generate dall’AI con la riproduzione vocale.

L’integrazione della funzionalità vocale è stata estesa all’app mobile “MS 365 Copilot”, un potenziamento critico per l’utente aziendale moderno. Questa mossa mira a consentire ai dipendenti di utilizzare l’AI in modalità “a mani libere” anche mentre sono in movimento o impegnati in altre attività, rendendo l’accesso all’assistente AI essenziale per il flusso di lavoro. Il CEO di Microsoft, Satya Nadella, ha persino sottolineato l’importanza personale di questo strumento, dichiarando pubblicamente di utilizzare la funzionalità vocale ogni giorno, elevandola al rango di componente essenziale del suo lavoro.

Attualmente, questa capacità vocale è disponibile per gli utenti con licenza Copilot sull’app mobile, ma l’azienda ha già preannunciato l’arrivo imminente del supporto per le piattaforme desktop e web.

Il lancio di MAI-Image-1 e MAI-Voice-1 segue il rilascio del modello LLM “MAI-1-preview” ad agosto. Questi tre modelli segnano la prima serie di AI sviluppata e rilasciata internamente da quando il CEO Mustafa Suleiman è entrato in Microsoft, rappresentando una vera e propria svolta verso la sovranità tecnologica.

L’applicazione immediata dei modelli di immagine e voce ai prodotti reali è un segnale forte. L’obiettivo principale di Microsoft con la serie MAI è duplice: ridurre la dipendenza dai modelli OpenAI e migliorare l’efficienza. I modelli della serie MAI sono infatti noti per essere più veloci e leggeri rispetto ai modelli OpenAI, un fattore che contribuirà significativamente alla riduzione dei costi operativi di esecuzione dell’AI su vasta scala.

Il modello di base, MAI-1-preview, pur non essendo ancora rilasciato al pubblico in generale, è già destinato all’applicazione in specifici casi d’uso di Copilot, a dimostrazione di una strategia di integrazione incrementale ma determinata. Con la serie MAI, Microsoft sta chiaramente investendo nel proprio know-how AI per garantire una piattaforma Copilot più personalizzata, sicura ed economicamente sostenibile.

Di Fantasy