Ora Microsoft vuole una quota della torta “Generatore di immagini AI”.
Rispetto a DALL-E, Imagen e Midjourney, NUWA-Infinity può generare immagini ad alta risoluzione con dimensioni arbitrarie e supportare la generazione di video di lunga durata, afferma Microsoft
I modelli generativi da testo a immagine come DALL-E 2 di OpenAI stanno attirando un’attenzione significativa grazie alla loro capacità di produrre immagini basate semplicemente su messaggi di testo. Mentre DALL-E 2 è il più popolare, ci sono altri generatori di immagini AI in erba come “Midjourney” di Ultraleap, “Craiyon” di Hugging Face, “Make-A-Scene” di Meta e “Imagen” di Google.
Ora, sembra che Microsoft voglia anche una quota della torta del “generatore di immagini AI”. Di recente, il team di ricerca asiatico di Microsoft ha introdotto NUWA-Infinity, un modello generativo multimodale progettato per generare immagini e video di alta qualità da qualsiasi input di testo, immagine o video.
Nel suo documento di ricerca intitolato “NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis”, Microsoft ha affermato di aver valutato NUWA-Infinity su cinque attività di sintesi visiva ad alta risoluzione:
Generazione di immagini incondizionata
Da testo a immagine
Da testo a video
Animazione dell’immagine
Immagine Outpainting
Rispetto al suo predecessore “NUWA”, che copre anche immagini e video, NUWA-Infinity ha capacità di sintesi visiva superiori in termini di risoluzione e generazione di dimensioni variabili.
Poiché NUWA-Infinity si concentra sulla generazione di immagini e video ad alta risoluzione e di lunga durata, la maggior parte dei set di dati esistenti non può essere utilizzata nella formazione o nella valutazione. Pertanto, il team ha sviluppato quattro nuovi database con risoluzioni elevate per addestrare il modello.
Il team ha inoltre rivelato che pre-addestrerà la prossima versione di NUWA-Infinity con più dati visivi raccolti e segnalerà le sue capacità di generalizzazione su input di dominio aperto.
Ma il problema più grande è che NUWA Infinity può generare video dal testo. Può generare video invisibili da un semplice prompt. Inoltre, può generare video da schizzi. Può generare video di dominio aperto coerenti temporanei.
Inoltre, può anche prevedere i fotogrammi successivi in un video. Si può inserire un’immagine e chiedere alla macchina di prevedere i fotogrammi futuri e NUWA Infinity predice il futuro dell’immagine, che si tratti di un paesaggio o dell’immagine di un volto umano.
Un altro aspetto accattivante di NUWA Infinity è che è in grado di generare immagini con una risoluzione fino a 38912 × 2048. Una risoluzione più alta non implica solo più dettagli, ma anche viste più ampie.Come se la cava contro i suoi concorrenti?
In primo luogo, ciò che distingue NUWA-Infinity dai suoi concorrenti è che è progettato per generare non solo immagini di alta qualità, ma anche video da un determinato testo, immagine o video, qualcosa di cui nessuno dei suoi concorrenti è in grado di farlo.
“Rispetto a DALL-E 2 , Imagen e MidJourney, NUWA-Infinity può generare immagini ad alta risoluzione con dimensioni arbitrarie e supportare la generazione di video di lunga durata”, afferma Microsoft.
DALL-E 2 genera l’incorporamento di immagini da un testo di input basato su un modello autoregressivo o di diffusione e utilizza un modello di diffusione per produrre l’immagine di output. Imagen di Google utilizza un modello linguistico pre-addestrato su larga scala congelato “T5-XXL” per codificare ogni testo di input e utilizza due modelli di diffusione per generare immagini ad alta risoluzione basate sull’incorporamento del testo.
Tuttavia, entrambi questi metodi di generazione da testo a immagine basati sulla diffusione non possono supportare la generazione di immagini di dimensioni arbitrarie, poiché la dimensione delle immagini di output è predefinita prima dell’addestramento e dell’inferenza.
NUWA Infinity introduce il meccanismo autoregressivo su autoregressivo nella procedura di generazione, che consente la capacità di generare immagini e video di dimensioni variabili, ha spiegato Microsoft .
NUWA-Infinity ha la capacità di allungare le immagini per crearne una con dimensioni e risoluzione maggiori. Lo stesso è dimostrato allungando il dipinto, “La notte stellata” dell’artista Vincent van Gogh. Il modello AI è in grado di sottolineare l’immagine senza compromettere la qualità dell’immagine.
Inoltre, NUWA-Infinity è anche in grado di dare vita ad immagini statiche con un risultato eccessivamente realistico. È in grado di trasformare un’immagine in un video e mostrare una vividezza accattivante.
Per quanto riguarda la disponibilità al pubblico, i modelli AI come DALL-E 2 e Midjourney sono disponibili al pubblico con prezzi diversi, tuttavia, NUWA Infinity non è attualmente disponibile al pubblico. È disponibile per individui selezionati e solo per scopi di ricerca.
Google ha deciso di non rilasciare Imagen al pubblico a causa dei rischi di uso improprio. Allo stesso modo, il Make-a-Scene di Meta sarebbe aperto esclusivamente a specifici artisti di intelligenza artificiale.
Internet ama i generatori di immagini AI
Di recente, OpenAI , una società in cui ha investito anche Microsoft, ha annunciato che inizierà a vendere DALL-E 2 a un milione di persone in lista d’attesa. Anche prima, gli utenti che avevano accesso a DALL-E 2 utilizzavano l’IA per generare immagini creative tramite prompt e le pubblicavano sui social media.
Più di recente, un utente di TikTok ha utilizzato il messaggio “selfie alla fine del mondo” su DALL-E 2 e ha pubblicato i risultati creando un ronzio sui social media. I risultati, tuttavia, potrebbero essere spiacevoli per alcuni in quanto ha un’atmosfera apocalittica.
Anche Max Woolf, Data Scientist di BuzzFeed, è andato di recente su Twitter per mostrare il suo esperimento con DALL-E 2. Woolf ha usato il suggerimento “Darth Vader indossa uno smoking con il suo appuntamento del ballo di fine anno in foto imbarazzanti del ballo di fine anno” e i risultati sono stati affascinanti, per dire il minimo.
Microsoft spera che NUWA-Infinity aiuti i creatori di contenuti visivi a risparmiare tempo, ridurre i costi e aumentare la produttività e la creatività.