DALL-E 2, Midjourney e Stable Diffusion la loro storia , da dove arrivano

La fisica dell’IA Art: uno sguardo ai modelli di diffusione
I moderni generatori di arte da testo a immagine si basano su principi di fisica e la storia è piuttosto interessante.

DALL-E 2, Midjourney e Stable Diffusion, le bestie dell’IA generativa sono stati i momenti salienti del 2022. Inserisci il tuo prompt di testo e i modelli genererebbero l’arte desiderata in pochi minuti, se non secondi. È sicuro dire che questi sono ancora pubblicizzati come una delle più grandi scoperte dell’IA negli ultimi tempi.

Questi modelli generativi da testo a immagine lavorano sul metodo di diffusione, che lavora su metodi di stima probabilistici . Per la generazione di immagini, ciò significa aggiungere rumore a un’immagine e quindi rimuoverla, applicando diversi parametri lungo il percorso per guidarla e modellarla per l’output. Questo è ulteriormente chiamato “Denoising Diffusion Models”.

Il concetto di generazione di immagini utilizzando modelli di diffusione nasce dal mondo della fisica, in particolare dalla termodinamica di non equilibrio , che si occupa della compressione e diffusione di fluidi e gas in base all’energia. Diamo un’occhiata a come esattamente i ricercatori hanno tratto l’ispirazione e la tecnica per la generazione di immagini comprendendo qualcosa al di fuori dell’apprendimento automatico.

Uniformità del rumore
Per cominciare con un esempio, se mettiamo una piccola goccia di vernice rossa in un bicchiere d’acqua, inizialmente sembrerà una macchia rossa nell’acqua. Alla fine, la goccia inizierà a diffondersi e gradualmente trasformerà l’intero colore dell’acqua in un rosso pallido o aggiungerà una sfumatura rossastra al bicchiere d’acqua.

Nel metodo di stima probabilistica, se si vuole stimare la probabilità di trovare una molecola di vernice rossa in qualsiasi punto del bicchiere d’acqua, si deve iniziare campionando la probabilità del colore a partire dalla prima volta che tocca l’acqua e inizia a diffondersi . Questo è uno stato complesso ed è molto difficile da tracciare. Ma quando il colore è completamente diffuso nell’acqua, diventa rosso pallido. Ciò fornisce una distribuzione uniforme del colore ed è quindi relativamente più facile da calcolare utilizzando un’espressione matematica.

La termodinamica di non equilibrio può tracciare ogni fase di questo processo di diffusione e diffusione e comprenderla per invertirla con piccoli passaggi nello stato complesso originale. Invertire il bicchiere d’acqua rosso pallido in acqua limpida, con una goccia di vernice rossa.

Nel 2015, Jascha Sohl-Dickstein ha utilizzato questo principio di diffusione dalla fisica e lo ha utilizzato nella modellazione generativa. I metodi di diffusione per la generazione di immagini iniziano con la conversione dei dati di addestramento (colore rosso) con un insieme di immagini complesse e la loro trasformazione in rumore (bicchiere d’acqua rosso pallido). Quindi, la macchina viene addestrata a invertire il processo per convertire il rumore in immagini.

Jascha Sohl-Dickstein
Puoi leggere il documento: Deep Unsupervised Learning using Nonequilibrium Thermodynamics

Processo di diffusione
Nel suo lavoro, Sohl-Dickstein spiega il processo di creazione del modello. L’algoritmo inizia con la selezione di un’immagine dal set di dati di addestramento e inizia ad aggiungervi rumore, passo dopo passo. Ogni pixel dell’immagine ha un valore ed è ora parte di uno spazio di un milione di dimensioni. Con l’aggiunta di rumore, ogni pixel inizia a dissociarsi dall’immagine originale. Segui questo per tutte le immagini nel set di dati e lo spazio diventa una semplice scatola di rumore. Questo processo di conversione delle immagini in una scatola di rumore è il processo in avanti.

Ora, per trasformarlo in un modello generativo arriva la parte della rete neurale. Prendi la scatola del rumore e dai da mangiare alla macchina addestrata per prevedere le immagini che sono arrivate un passo prima e avevano meno rumore. Lungo il percorso, il modello deve essere messo a punto modificando i parametri per trasformare infine il rumore in un’immagine che rappresenti qualcosa di simile ai complessi dati di input originali.

La rete addestrata finale non necessita di altri dati di input e può generare immagini direttamente dalla distribuzione dell’immagine campione (rumore) in immagini che assomigliano al set di dati di addestramento.

Storia dietro la diffusione
Questi modelli di diffusione generavano immagini ma erano ancora molto indietro rispetto ai GAN in termini di qualità e velocità. C’era ancora molto lavoro da fare per raggiungere artisti del calibro di DALL-E.

Yang Song
Nel 2019, Yang Song , uno studente di dottorato a Stanford, che non era a conoscenza del lavoro di Sohl-Dickstein, ha pubblicato il suo articolo in cui ha generato immagini utilizzando la stima del gradiente della distribuzione invece della distribuzione di probabilità. La tecnica ha funzionato aggiungendo rumore a ciascuna immagine nel set di dati e quindi prevedendo l’immagine originale attraverso i gradienti della distribuzione. La qualità dell’immagine che si è rivelata attraverso il suo metodo era molte volte migliore rispetto ai metodi precedenti, ma era dolorosamente lenta.

Nel 2020, Jonathan Ho , Ph.D laureato presso l’Università della California, stava lavorando su modelli di diffusione e si è imbattuto in entrambi i documenti di ricerca di Solh Dickstein e Song. A causa del suo interesse nel campo, anche dopo aver completato il suo dottorato, ha continuato a lavorare sui modelli di diffusione e ha pensato che la combinazione di entrambi i metodi con il progresso nella rete neurale nel corso degli anni avrebbe funzionato.

Jonathan Ho
Con sua grande gioia, ha funzionato! Lo stesso anno, Ho pubblicò un documento intitolato ” Denoising Diffusion Probabilistic Models “, comunemente noto anche come “DDPM”. Il metodo ha superato tutte le precedenti tecniche di generazione di immagini in termini di qualità e velocità, compresi i GAN. Ciò ha portato alla fondazione di modelli generativi come DALL-E, Stable Diffusion e Midjourney.

L’ingrediente mancante
Ora che disponiamo di modelli in grado di generare immagini, collegarli a comandi di testo è stato il prossimo passo importante, la parte importante dei moderni modelli generativi.

Anche i Large Language Models (LLM) erano in aumento nello stesso periodo con BERT, GPT-3 e molti altri che stanno facendo cose simili ai GAN e ai modelli di diffusione, ma con i testi.

Nel 2021, Ho con il suo collega Tim Salimans di Google Research, ha combinato (LLM) con modelli di diffusione che generano immagini. Ciò è stato possibile perché gli LLM sono simili ai modelli generativi che vengono addestrati sul testo, anziché sulle immagini, da Internet e prevedono l’apprendimento delle parole dalla distribuzione di probabilità. La combinazione è stata raggiunta dal processo di diffusione guidata , che significava guidare il processo di diffusione da testi generati da LLM.

Questi modelli generativi, se guidati con LLM, hanno portato a questi modelli da testo a immagine che generano immagini basate su input di testo.

DALL-E 2, Midjourney e Stable Diffusion la loro storia , da dove arrivano

Diihal

Di ihal

Articoli correlati

Meta presenta Muse Image con ricerca web e anticipa il modello Muse Video

Gemini rende gratuita la generazione di immagini basata sui dati personali

NC AI presenta VARCO 3D 2.0, modello generativo per creare asset 3D da testo e immagini

Ultimi Post

Meta presenta Muse Image con ricerca web e anticipa il modello Muse Video

OpenAI introduce GPT-Live per rendere la voce di ChatGPT più continua e naturale

Microsoft porta i modelli MAI dentro Excel e Outlook per ridurre la dipendenza dai fornitori esterni

Perplexity prepara l’assistente AI Teammate per lo sviluppo software in concorrenza con Claude Code e Cursor