Microsoft ha introdotto MAI-Image-2, un nuovo modello di generazione di immagini basato su intelligenza artificiale progettato per migliorare il fotorealismo, la leggibilità del testo all’interno delle immagini e la gestione di composizioni visive complesse. Si tratta del secondo sistema text-to-image sviluppato internamente dall’azienda, parte di una strategia più ampia volta a ridurre la dipendenza da tecnologie esterne e a rafforzare l’ecosistema AI integrato in strumenti come Copilot e Bing Image Creator. Il modello è già in fase di rollout su queste piattaforme e ha debuttato tra i primi posti della classifica Arena.ai, posizionandosi tra le principali soluzioni nel campo della generazione visiva automatica.
L’elemento distintivo di MAI-Image-2 è l’attenzione al fotorealismo. Microsoft ha sviluppato il modello raccogliendo feedback da fotografi, designer e professionisti della comunicazione visiva, con l’obiettivo di ottenere immagini con illuminazione naturale, carnagioni più accurate e texture credibili. Questo approccio mira a ridurre la necessità di post-produzione, uno dei limiti più frequenti dei generatori di immagini AI, che spesso producono risultati artificiali o incoerenti nei dettagli. Il sistema è progettato per creare scene che appaiano realistiche e coerenti dal punto di vista visivo, mantenendo uniformità tra elementi complessi e ambientazioni articolate.
Un secondo aspetto tecnico rilevante riguarda la capacità di generare testo leggibile all’interno delle immagini. Storicamente, i modelli text-to-image hanno mostrato difficoltà nel produrre lettere corrette, con parole deformate o incoerenti. MAI-Image-2 introduce miglioramenti specifici per la tipografia integrata nelle scene, consentendo la creazione di infografiche, poster, segnaletica e layout con contenuti testuali comprensibili. Questa caratteristica amplia notevolmente le applicazioni professionali, rendendo il modello adatto alla produzione di materiali grafici per presentazioni, marketing e documentazione visiva.
Il terzo pilastro del modello riguarda la generazione di scene complesse. MAI-Image-2 è progettato per gestire composizioni con numerosi elementi, ambientazioni cinematografiche e concetti visivi articolati. Il sistema è in grado di combinare più oggetti e contesti mantenendo coerenza prospettica e stilistica, un aspetto fondamentale per applicazioni creative avanzate. Questa capacità consente di generare immagini dense e dettagliate, inclusi scenari surreali o narrativi, senza perdita di consistenza tra i diversi componenti della scena.
MAI-Image-2 è attualmente un sistema text-to-image puro. Il modello genera immagini a partire da descrizioni testuali, ma non include ancora funzionalità di editing avanzato, inpainting o trasformazione di immagini esistenti. Inoltre, nella versione iniziale supporta esclusivamente il formato quadrato 1:1, senza opzioni per orientamento orizzontale o verticale. Queste limitazioni indicano che il modello è ancora in fase evolutiva, con potenziali estensioni future verso flussi di lavoro più completi.
