OpenAI fa emergere GLIDE, supera il suo DALL-E
GLIDE (Guided Language to Image Diffusion for Generation and Editing) è un modello di generazione da testo a immagine di 3,5 miliardi di parametri
 
L’innovatore tecnologico OpenAI ha deciso di dire addio al 2021 con il botto con il rilascio di GLIDE (Guided Language to Image Diffusion for Generation and Editing), un nuovo modello di generazione text-to-image da 3,5 miliardi di parametri che è persino migliore di DALL-E . All’inizio del 2021, ha rilasciato DALL-E, una versione da 12 miliardi di parametri di GPT-3 addestrata a generare immagini da descrizioni di testo utilizzando un set di dati di coppie testo-immagine. Per GLIDE, ha addestrato un modello più piccolo su un set di dati filtrato e ha rilasciato il codice e i pesi .

Il documento pubblicato da OpenAI ha affermato che i ricercatori hanno scoperto che i campioni del modello che hanno generato con una guida senza classificatore sono sia fotorealistici che riflettono una vasta gamma di conoscenze del mondo. Ha aggiunto che i campioni che hanno generato sono stati preferiti a quelli di DALL-E l’87% delle volte quando valutati per il fotorealismo e il 69% delle volte quando valutati per la somiglianza delle didascalie da giudici umani.

 
Guida senza CLIP e classificatore
Nel documento pubblicato intitolato ” GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models “, i ricercatori hanno affermato di aver addestrato il modello di diffusione dei parametri da 3,5 miliardi che utilizza un codificatore di testo per condizionare le descrizioni del linguaggio naturale. Quindi, hanno proceduto a confrontare la guida CLIP e la guida senza classificatore per guidare i modelli di diffusione verso i prompt di testo. CLIP (Contrastive Language-Image Pretraining) è un’architettura di rete neurale per l’ apprendimento di modelli visivi trasferibili dalla supervisione del linguaggio naturale . I ricercatori hanno poi scoperto che la guida senza classificatore produce immagini di qualità superiore utilizzando valutazioni umane e automatizzate.

Hanno anche affermato di aver fornito al modello funzionalità di modifica insieme alla generazione zero-shot. Ciò consente agli umani di migliorare in modo iterativo i campioni del modello fino a quando non corrispondono a prompt più complessi. Il team ha anche messo a punto il modello per eseguire il repainting dell’immagine. Le modifiche prodotte dal modello corrispondono allo stile e all’illuminazione del contesto circostante, comprese ombre e riflessi convincenti.

 Come è stato addestrato GLIDE

Il documento afferma che i ricercatori hanno addestrato un modello di diffusione condizionale del testo da 3,5 miliardi di parametri con una risoluzione di 64 × 64 e un altro modello di diffusione con sovracampionamento condizionale del testo da 1,5 miliardi di parametri per aumentare la risoluzione a 256 × 256. Hanno addestrato un 64 × sensibile al rumore. 64 ViT-L Modello CLIP per guida CLIP. Per il condizionamento del testo, lo hanno codificato in una sequenza di token K e hanno inserito questi token in un modello Transformer. Questo output viene utilizzato per due cose: l’incorporamento di token finale viene utilizzato al posto dell’incorporamento di classe nel modello ADM, l’ultimo livello di incorporamenti di token proiettato separatamente sulla dimensionalità di ciascun livello di attenzione in tutto il modello ADM e quindi concatenato al contesto di attenzione ad ogni livello, come da carta. 

Il modello viene addestrato sullo stesso set di dati di DALL-E, utilizzando la stessa architettura del modello. Viene scalato a 512 canali e 24 blocchi residui di larghezza 2048, utilizzati per la codifica del testo, creando 1,2 miliardi di parametri.

ridipingere
I ricercatori hanno anche messo a punto il modello per eseguire il repainting durante il quale vengono cancellate regioni casuali di esempi di addestramento e le parti rimanenti vengono inserite nel modello insieme a un canale maschera come informazioni di condizionamento aggiuntive.

OpenAI ha affermato di aver “addestrato modelli CLIP sensibili al rumore con un codificatore di immagini fi(xt, t) che riceve immagini con rumore xt ed è altrimenti addestrato con lo stesso obiettivo del modello CLIP originale”.

 
GLIDE viene confrontato con DALL-E utilizzando il nostro protocollo di valutazione umana. Sono state effettuate tre serie di confronti tra DALL-E e GLIDE, come da documento :

Entrambi i modelli vengono confrontati quando non si utilizza il reranking CLIP
Usa il reranking CLIP solo per DALL-E
Il reranking CLIP viene utilizzato per DALL-E e anche per proiettare campioni GLIDE attraverso il VAE discreto utilizzato da DALL-E.
Immagine: GLIDE: verso la generazione e l’editing di immagini fotorealistiche con modelli di diffusione guidata dal testo
Il team ha affermato che le valutazioni sono state eseguite utilizzando due temperature per il modello DALL-E. I risultati mostrano che GLIDE è preferito dai valutatori umani in tutti i contesti.

Di ihal