I modelli di diffusione: dall’arte allo stato dell’arte
L’introduzione di vari modelli di diffusione è un enorme balzo nella giusta direzione con un aumento della fedeltà e una riduzione dei tempi di rendering

I modelli di diffusione hanno guadagnato popolarità negli ultimi mesi. Questi modelli generativi sono stati in grado di superare i GAN sulla sintesi delle immagini con strumenti rilasciati di recente come DALL.E2 di OpenAI o Stable Diffusion e Midjourney di StabilityAI.

Di recente, DALL-E ha introdotto Outpainting , una nuova funzionalità che consente agli utenti di espandere i bordi originali di un’immagine, aggiungendo elementi visivi dello stesso stile tramite prompt di descrizione in linguaggio naturale.


Fondamentalmente, i modelli di generazione che funzionano sul metodo di diffusione possono generare immagini randomizzando prima i dati di addestramento aggiungendo il rumore gaussiano e quindi recuperando i dati invertendo il processo del rumore. Il modello probabilistico di diffusione (modello di diffusione) è una catena di Markov parametrizzata addestrata utilizzando diverse inferenze per produrre immagini corrispondenti ai dati dopo un dato tempo.

La genesi
La sintesi delle immagini è nata nel 2015 quando Google Research ha annunciato il modello di diffusione Super Resolution (SR3) in grado di acquisire immagini di input a bassa risoluzione e utilizzare il modello di diffusione per creare output ad alta risoluzione senza perdere alcuna informazione. Ciò ha funzionato aggiungendo gradualmente rumore puro all’immagine ad alta risoluzione e quindi rimuovendolo progressivamente con la guida dell’immagine a bassa risoluzione di input.

Il Class-Conditional Diffusion Model (CDM) è addestrato sui dati ImageNet per creare immagini ad alta risoluzione. Questi modelli ora costituiscono la base per i modelli di diffusione da testo a immagine per fornire immagini di alta qualità.


L’ascesa dei modelli da testo a immagine 
Lanciato nel 2021, DALL.E2 è stato sviluppato con l’idea di zero-shot learning. In questo metodo, il modello da testo a immagine viene addestrato rispetto a miliardi di immagini con la loro didascalia incorporata. Sebbene il codice non sia ancora aperto, DALL.E2 è stato annunciato in contemporanea con il CLIP (Contrastive Language-Image Pre-training) che è stato addestrato su 400 milioni di immagini con testo, prelevate direttamente da Internet.

Lo stesso anno, OpenAI ha lanciato GLIDE , che genera immagini fotorealistiche con modelli di diffusione guidati dal testo. La tecnica di guida CLIP di DALL.E2 può generare immagini diverse ma a rischio dell’alta fedeltà. Per ottenere il fotorealismo, GLIDE utilizza una guida priva di classificatori, che aggiunge la possibilità di modificare oltre alla generazione zero-shot.

GLIDE, dopo l’addestramento sui metodi di diffusione condizionale del testo, viene messo a punto per la generazione di immagini incondizionate sostituendo il token del testo di addestramento con sequenze vuote. In questo modo il modello è in grado di mantenere la sua capacità di generare immagini incondizionatamente insieme a output dipendenti dal testo.


D’altra parte, Imagen di Google si espande su un grande modello di linguaggio trasformatore (LM) e comprende il testo per combinarlo con modelli di diffusione ad alta fedeltà come GLIDE, metodi probabilistici di diffusione de-noising e modelli di diffusione a cascata. Ciò si traduce quindi nella produzione di immagini fotorealistiche con una profonda comprensione del linguaggio nella sintesi da testo a immagine.

Di recente, Google ha ampliato Imagen con DreamBooth , che non è solo un generatore di testo in immagini, ma consente il caricamento di una serie di immagini per cambiare il contesto. Questo strumento analizza il soggetto dell’immagine di input, lo separa dal contesto o dall’ambiente e lo sintetizza in un nuovo contesto desiderato con alta fedeltà.


I modelli di diffusione latente , utilizzati da Stable Diffusion, utilizzano un metodo simile all’incorporamento CLIP per la generazione di immagini, ma possono anche estrarre informazioni da un’immagine di input. Ad esempio, un’immagine iniziale verrà codificata in uno spazio già denso di informazioni chiamato spazio latente. Simile a GAN, questo spazio estrarrà informazioni rilevanti dallo spazio e ne ridurrà le dimensioni mantenendo quante più informazioni possibili.

Ora con il condizionamento, quando inserisci il contesto, che può essere testo o immagini, e li unisci nello spazio latente con la tua immagine di input, il meccanismo capirà il modo migliore per modellare l’immagine nell’input del contesto e preparerà il rumore iniziale per il processo di diffusione. Simile a Imagen, ora il processo prevede la decodifica della mappa del rumore generata per costruire un’immagine finale ad alta risoluzione.

Futuro perfetto 
La formazione, il campionamento e la valutazione dei dati ha consentito ai modelli di diffusione di essere più trattabili e flessibili. Sebbene ci siano importanti miglioramenti nella generazione di immagini con modelli di diffusione su GAN, VAE e modelli basati sul flusso, si basano sulla catena di Markov per generare campioni, rendendola più lenta.

Mentre OpenAI correva verso lo strumento perfetto per la generazione di immagini, c’è stato un enorme passo avanti nella realizzazione di modelli a diffusione multipla, in cui utilizzano vari metodi per migliorare la qualità dell’output, oltre ad aumentare la fedeltà, riducendo i tempi di rendering . Ciò include Imagen di Google, “Make-A-Scene” di Meta, Stable Diffusion, Midjourney, ecc. 

Inoltre, i modelli di diffusione sono utili per la compressione dei dati poiché riducono le immagini ad alta risoluzione su Internet globale consentendo una più ampia accessibilità per il pubblico. Tutto ciò alla fine porterà a modelli di diffusione praticabili per usi creativi nell’arte, nella fotografia e nella musica.

Di ihal