Nvidia oggi ha dettagliato un sistema di intelligenza artificiale chiamato GauGAN2, il successore del suo modello GauGAN , che consente agli utenti di creare immagini di paesaggi realistici che non esistono. Combinando tecniche come la mappatura della segmentazione, l’inpainting e la generazione da testo a immagine in un unico strumento, GauGAN2 è progettato per creare arte fotorealistica con un mix di parole e disegni.
“Rispetto ai modelli all’avanguardia specifici per applicazioni text-to-image o segmentazione map-to-image, la rete neurale dietro GauGAN2 produce una maggiore varietà e qualità di immagini”, Isha Salian, membro di Il team di comunicazione aziendale di Nvidia, ha scritto in un post sul blog. “Piuttosto che dover disegnare ogni elemento di una scena immaginata, gli utenti possono inserire una breve frase per generare rapidamente le caratteristiche chiave e il tema di un’immagine, come una catena montuosa innevata. Questo punto di partenza può quindi essere personalizzato con schizzi per rendere più alta una montagna specifica o aggiungere un paio di alberi in primo piano o nuvole nel cielo.
GauGAN2, il cui omonimo è il pittore post-impressionista Paul Gauguin, migliora il sistema GauGAN di Nvidia del 2019, che è stato addestrato su oltre un milione di immagini pubbliche di Flickr. Come GauGAN, GauGAN2 ha una comprensione delle relazioni tra oggetti come neve, alberi, acqua, fiori, cespugli, colline e montagne, come il fatto che il tipo di precipitazione cambia a seconda della stagione.
GauGAN e GauGAN2 sono un tipo di sistema noto come rete generativa avversaria (GAN), che consiste in un generatore e un discriminatore. Il generatore preleva campioni, ad esempio immagini abbinate a testo, e prevede quali dati (parole) corrispondono ad altri dati (elementi di un’immagine di un paesaggio). Il generatore viene addestrato cercando di ingannare il discriminatore, che valuta se le previsioni sembrano realistiche. Sebbene le transizioni del GAN siano inizialmente di scarsa qualità, migliorano con il feedback del discriminatore.
A differenza di GauGAN, GauGAN2, che è stato addestrato su 10 milioni di immagini, può tradurre le descrizioni del linguaggio naturale in immagini di paesaggi. Digitare una frase come “tramonto su una spiaggia” genera la scena, mentre l’aggiunta di aggettivi come “tramonto su una spiaggia rocciosa” o scambiare “tramonto” con “pomeriggio” o “giornata di pioggia” modifica istantaneamente l’immagine.
Con GauGAN2, gli utenti possono generare una mappa di segmentazione, un profilo di alto livello che mostra la posizione degli oggetti nella scena. Da lì, possono passare al disegno, modificando la scena con schizzi approssimativi utilizzando etichette come “cielo”, “albero”, “roccia” e “fiume” e consentendo al pennello dello strumento di incorporare gli scarabocchi nelle immagini.
Brainstorming guidato dall’intelligenza artificiale
GauGAN2 non è diverso da DALL-E di OpenAI, che può generare immagini simili per abbinare un prompt di testo. Sistemi come GauGAN2 e DALL-E sono essenzialmente generatori di idee visive, con potenziali applicazioni in film, software, videogiochi, prodotti, moda e interior design.
Nvidia afferma che la prima versione di GauGAN è già stata utilizzata per creare concept art per film e videogiochi. Come con esso, Nvidia prevede di rendere disponibile il codice per GauGAN2 su GitHub insieme a una demo interattiva su Playground, l’hub web per l’intelligenza artificiale di Nvidia e la ricerca sul deep learning.
Un difetto dei modelli generativi come GauGAN2 è il potenziale di bias. Nel caso di DALL-E, OpenAI ha utilizzato un modello speciale — CLIP — per migliorare la qualità dell’immagine facendo emergere i campioni migliori tra le centinaia per prompt generati da DALL-E. Ma uno studio ha scoperto che CLIP classificava erroneamente le foto di individui neri a un tasso più elevato e associava le donne a occupazioni stereotipate come “tata” e “governante”.
Nei suoi materiali per la stampa, Nvidia ha rifiutato di dire come – o se – ha verificato GauGAN2 per bias. “Il modello ha oltre 100 milioni di parametri e ha richiesto meno di un mese per l’addestramento, con immagini di addestramento da un set di dati proprietario di immagini di paesaggi. Questo particolare modello è focalizzato esclusivamente sui paesaggi e abbiamo verificato per assicurarci che nessuna persona fosse presente nelle immagini di allenamento… GauGAN2 è solo una demo di ricerca”, ha spiegato un portavoce di Nvidia via e-mail.GauGAN è uno dei più recenti strumenti di intelligenza artificiale di Nvidia, creatore di tecnologia deepfake come StyleGAN, che può generare immagini realistiche di persone che non sono mai esistite . Nel settembre 2018, i ricercatori dell’azienda hanno descritto in un documento accademico un sistema in grado di creare scansioni sintetiche del cancro al cervello. Nello stesso anno, Nvidia ha dettagliato un modello generativo in grado di creare ambienti virtuali utilizzando video del mondo reale.
Il debutto iniziale di GauGAN ha preceduto GAN Paint Studio , uno strumento di intelligenza artificiale disponibile pubblicamente che consente agli utenti di caricare qualsiasi fotografia e modificare l’aspetto degli edifici, della flora e degli infissi raffigurati. Altrove, sono stati utilizzati modelli di apprendimento automatico generativo per produrre video realistici guardando clip di YouTube, creando immagini e storyboard da didascalie in linguaggio naturale e animando e sincronizzando i movimenti facciali con clip audio contenenti il linguaggio umano.