Google lancia Muse, un nuovo modello di trasformazione da testo a immagine
Muse afferma di essere più veloce in quanto utilizza uno spazio latente discreto e compresso e una decodifica parallela.
 
Dall’inizio del 2021, i progressi nella ricerca sull’IA sono stati rivoluzionati con la nascita di una pletora di modelli text-to-image supportati dal deep learning come DALL-E-2 , Stable Diffusion e Midjourney , solo per citarne alcuni. All’elenco si aggiunge Muse di Google, un modello Transformer da testo a immagine che afferma di ottenere prestazioni di generazione di immagini all’avanguardia. 


Dato l’incorporamento del testo ottenuto da un modello linguistico di grandi dimensioni (LLM) che è già stato addestrato, Muse viene addestrato su un’attività di modellazione mascherata in uno spazio token discreto. Muse è stato addestrato per prevedere token immagine mascherati in modo casuale. Muse afferma di essere più efficace dei modelli di diffusione dello spazio pixel come Imagen e DALL-E 2 poiché utilizza token discreti e richiede meno iterazioni di esempio. Il modello genera gratuitamente un editing zero-shot e senza maschera ricampionando in modo iterativo i token di immagine condizionati da un prompt di testo.

A differenza di Parti e di altri modelli autoregressivi, Muse utilizza la decodifica parallela . Un LLM pre-addestrato consente la comprensione del linguaggio a grana fine, la traduzione in generazione di immagini ad alta fedeltà e la comprensione di concetti visivi come oggetti, le loro relazioni spaziali, posa, cardinalità, ecc. Inoltre, Muse supporta l’inpainting, l’outpainting e l’editing senza maschera senza la necessità di modificare o invertire il modello.


Con un punteggio FID di 6,06, il modello di parametro 900M raggiunge un nuovo SOTA su CC3M. Sulla valutazione COCO zero-shot, il modello di parametro Muse 3B ottiene un FID di 7,88 e un punteggio CLIP di 0,32. 

Architettura del modello:

Per entrambi i livelli Transformer di base e super-res, il codificatore di testo crea un’incorporamento di testo che viene utilizzato per l’attenzione incrociata con i token immagine. Il modello base utilizza quindi un VQ Tokenizer che genera uno spazio latente di token 16*16 dopo essere stato preaddestrato su immagini a risoluzione inferiore (256*256). La perdita di entropia incrociata impara quindi a prevedere i token mascherati che sono stati mascherati a un tasso variabile per ciascun campione. Dopo aver addestrato il modello di base, i token a bassa risoluzione ricostruiti e i token di testo vengono quindi inseriti nel modello super-res. Ora il modello può prevedere i token mascherati a una risoluzione più elevata.

Di ihal