Quando Meta fa una scena
Il modello di Meta raggiunge i suoi risultati all’avanguardia in virtù di confronti approfonditi
Un’immagine vale più di mille parole. Ma è davvero? Con la generazione da testo a immagine, poche parole possono essere sufficienti per creare mille immagini.
Nell’aprile 2022, OpenAI ha suscitato scalpore con il lancio del suo ultimo modello, ” DALL-E-2 “, che utilizza i messaggi di testo per creare immagini mozzafiato di alta qualità. Google Brain Team ha seguito l’esempio e ha lanciato “Imagen”, il modello di intelligenza artificiale di Google basato su modelli di diffusione con profonda comprensione del linguaggio per creare immagini straordinarie in diversi stili, che vanno dalle illustrazioni a pennello alle immagini ad alta definizione.
Al contrario, Meta ha sfidato la monotonia del processo di generazione da testo a immagine con il proprio modello di intelligenza artificiale, “Make-a-scene”, che non solo richiede istruzioni di testo ma anche schizzi per creare capolavori visivi ad alta definizione su una tela digitale .
Il modello “Make-a-scene” di Meta dimostra l’uso potenziante della tecnologia per aumentare la creatività umana con l’aiuto dell’intelligenza artificiale.
Innovando ulteriormente consentendo agli utenti di inserire prompt visivi insieme a prompt di testo , Meta è stata in grado di alterare le attuali dinamiche del processo di generazione da testo a immagine dell’IA. Tuttavia, rimane discutibile se il modello di intelligenza artificiale migliorato di Meta sarebbe in grado di reggere il confronto con i tradizionali modelli di testo a immagine.
Come funziona “Crea una scena”?
Il modello utilizza un trasformatore autoregressivo che integra l’uso convenzionale di token di testo e immagine. Questo modello introduce anche il condizionamento implicito sui “token di scena”, facoltativamente controllati e derivati da mappe di segmentazione . Questi token di segmentazione vengono generati indipendentemente da un trasformatore durante l’inferenza o estratti direttamente dall’immagine di input, fornendo la possibilità di includere vincoli aggiuntivi sull’immagine generata dall’IA.
In contrasto con i token di segmentazione prevalenti per il condizionamento esplicito generati dai modelli basati su GAN , “Make-a-scene” utilizza i token di segmentazione per il condizionamento implicito. In pratica, questa innovazione migliora la varietà di campioni generati dal modello di Meta.
“Make-a-scene” genera immagini dopo aver ricevuto un messaggio di testo e uno schizzo opzionale a cui il modello di intelligenza artificiale fa riferimento come mappa di segmentazione.
I ricercatori di Meta hanno esplorato oltre l’approccio basato sulla scena e hanno migliorato la qualità generale e percepita della generazione di immagini migliorando la rappresentazione dello spazio dei token. L’introduzione di diverse modifiche nel processo di tokenizzazione ha sottolineato la consapevolezza di aspetti critici importanti per la prospettiva umana come oggetti e volti salienti.
Al fine di aggirare la necessità di un processo di filtraggio dopo la generazione dell’immagine, migliorando contemporaneamente la qualità della generazione e l’allineamento prima della generazione dell’immagine, il modello utilizza una guida “senza classificatori”.
Un’analisi approfondita del funzionamento di “Make-a-scene” rivela quattro elementi distinti unici del metodo di Meta:
Rappresentazione e tokenizzazione della scena : consiste in una miscela di tre gruppi di segmentazione semantica complementari : panottica, umana e faccia. Tali combinazioni consentono alla rete neurale di apprendere come generare il layout semantico e implementare varie condizioni nella generazione dell’immagine finale.
Identificazione delle preferenze umane nello spazio dei token con perdite esplicite : con la generazione di immagini basata su trasformatore, è evidente che le immagini generate hanno una qualità inerente al limite superiore, una conseguenza del metodo di “ricostruzione della tokenizzazione”. Per mitigare questo risultato, il modello di Meta introduce diverse modifiche alla ricostruzione dell’immagine e ai metodi di segmentazione, come la quantizzazione vettoriale face-aware, l’enfasi facciale nello spazio della scena e la quantizzazione vettoriale object-aware.
Trasformatore basato sulla scena : basato su un trasformatore autoregressivo con tre spazi token indipendenti e consecutivi – testo, scena e immagine – questo metodo si basa su un trasformatore autoregressivo
prima di addestrare un trasformatore basato sulla scena. Ogni trasformatore ha una sequenza di token codificata corrispondente alla tripletta testo-scena-immagine che viene quindi estratta utilizzando il codificatore corrispondente, che successivamente produce una sequenza. Con questa sequenza generata, i relativi token vengono poi generati dal trasformatore per essere ulteriormente codificati e decodificati dalle reti corrispondenti.
Guida senza trasformatore classificatore : questo processo guida un campione incondizionato verso un campione condizionale. Per supportare il campionamento incondizionato, il trasformatore viene messo a punto sostituendo casualmente i prompt di testo con token di riempimento. Di conseguenza, durante l’inferenza vengono generati due flussi di token paralleli, ovvero un flusso di token condizionale , basato su testo e un flusso di token incondizionato , basato su un flusso di testo vuoto inizializzato con token di riempimento.
Prove di confronto
Il modello di Meta raggiunge i suoi risultati all’avanguardia in virtù di confronti approfonditi con GLIDE, DALL-E , CogView e XMC-GAN basati su vari suggerimenti umani e numerici.
Inoltre, il modello dimostra nuove capacità creative che derivano dal metodo di Meta che consente una maggiore controllabilità.
Per valutare l’effetto di ogni nuova capacità creativa, viene utilizzato un trasformatore con quattro miliardi di parametri per generare una sequenza di 256 token di testo, 256 token di scena e 1024 token di immagine. Questi token vengono quindi decodificati in immagini da 256 × 256 o 512 × 512 pixel.
Non ancora open source
Per ulteriori sforzi di ricerca e sviluppo, Meta ha consentito l’accesso alla versione demo di “Make-a-scene” per alcuni noti artisti esperti nell’utilizzo di modelli di IA generativa all’avanguardia. Questo elenco di artisti include Sofia Crespo, Scott Eaton, Alexander Reben e Refik Anadol.
Questi artisti hanno quindi integrato il modello demo nei propri processi creativi per fornire feedback insieme a diverse immagini accattivanti.
Sofia Crespo, un’artista di intelligenza artificiale che si concentra sulla fusione della tecnologia con la natura, ha utilizzato lo schizzo e le istruzioni di testo di Make-a-scene per creare un’immagine ibrida di una medusa a forma di fiore. Ha notato che le capacità di disegno a mano libera nel modello hanno aiutato a portare la sua immaginazione sulla tela digitale a un ritmo molto più rapido.
” Aiuterà a far muovere la creatività molto più velocemente e aiuterà gli artisti a lavorare con interfacce più intuitive .”—Sofia Crespo
Un altro artista, Scott Eaton, un tecnologo creativo ed educatore, ha utilizzato Make-a-scene per comporre deliberatamente mentre esplorava le variazioni con diversi suggerimenti.
“ Make-a-scene fornisce un livello di controllo che mancava in altri sistemi di IA generativa SOTA. Il prompt di testo da solo è molto limitato, spesso come vagare nell’oscurità. Essere in grado di controllare la composizione è una potente estensione per artisti e designer . ”—Scott Eaton
Ricercatore e robotico, Alexander Reben è stato uno degli artisti che ha adottato un approccio più unico al suo feedback sul modello. Ha utilizzato prompt di testo generati dall’intelligenza artificiale da un altro modello di intelligenza artificiale, ha creato uno schizzo per interpretare il testo e ha inserito sia il testo che l’immagine nel modello “Crea una scena”.
(Fonte immagine: facebook.blog )
” Ha fatto una bella differenza essere in grado di abbozzare le cose, specialmente per dire al sistema dove volevi che le cose gli dessero suggerimenti su dove dovrebbero andare le cose, ma essere comunque sorpreso alla fine .” —Alexander Reben
Di Kartik Wali da analyticsindiamag.com