Nel mondo di DALL-E 2 e Midjourney, entra nell’open source Disco Diffusion
L’ultima ricerca di Google mira a risolvere il problema della risoluzione dell’immagine dei modelli di diffusione attraverso il collegamento di SR3 e CDM.
Di recente, gli artisti e le opere d’arte dell’IA sono cresciuti rapidamente. Piattaforme come Ultraleap-backed , ‘Midjourney’, OpenAI’s , ‘DALL-E 2′, Meta’s , ‘Make-A-Scene’, Hugging Face’s , ‘DALL-E Mini’ (ora ‘ Craiyon🖍 ‘) e altre stanno ridefinendo il l’immaginazione del design e della visualizzazione come la conosciamo. Tuttavia, la maggior parte di queste piattaforme fornisce l’accesso agli utenti solo su invito.
Un software open source gratuito (FOSS) che ha recentemente guadagnato popolarità è “Disco Diffusion”, un modello di diffusione guidata da CLIP che può essere utilizzato per convertire il testo in immagine utilizzando una raccolta di parole chiamate “prompt” e facendola cercare nei database per interpretare lo sguardo. L’ultima versione (v5.6) include una funzione aggiuntiva di generatore di ritratti.
Creato da Somnai e ampliato da Gandamu , il nuovo codice GAN (Genetive Adversarial Network) è ospitato su Google Colab Notebook . Il modello è flessibile quanto i modelli VQGAN ImageNET e WikiArt nella creazione di pezzi vivaci.
Il modello di diffusione è un modello dei processi cognitivi coinvolti in semplici decisioni a due scelte. È il processo di rimozione del rumore da un’immagine per una migliore risoluzione.
Proposti per la prima volta nel 2015, di recente è stato osservato un rinnovato interesse per i modelli di diffusione, grazie alla loro stabilità di addestramento e ai promettenti risultati di qualità del campione sulla generazione audio e visiva . Offrono risultati potenzialmente favorevoli rispetto ad altri modelli generativi profondi.
I modelli di diffusione funzionano alterando i dati di addestramento con l’aggiunta del rumore gaussiano, rimuovendo gradualmente i dettagli nel set di dati fino a farlo diventare puro rumore e quindi addestrando una rete neurale per invertire questo processo di corruzione. L’esecuzione di questo processo di corruzione inversa sintetizza i dati dal rumore puro riducendo lentamente il rumore per produrre un campione pulito.
Il processo può essere interpretato come un “algoritmo di ottimizzazione” che segue il gradiente della densità dei dati per produrre campioni probabili.
Ultimo aggiornamento
L’ultima ricerca di Google mira a risolvere il problema della risoluzione dell’immagine dei modelli di diffusione attraverso il collegamento di SR3 e CDM. L’aggiunta di un set di dati univoco e l’ampliamento del modello ora aiutano a produrre risultati migliori rispetto ai modelli esistenti.
L’SR3 è un modello di diffusione a super risoluzione che utilizza la bassa risoluzione come input e costruisce un’immagine ad alta risoluzione corrispondente dal rumore completo. Utilizza il processo di distruzione dell’immagine per l’addestramento.
CDM è un modello di diffusione tipo-condizione addestrato utilizzando i dati di ImageNet per creare immagini ad alta risoluzione. Poiché ImageNet è un set di dati altamente complesso, i ricercatori concatenano più modelli di diffusione per costruire CDM.
I ricercatori hanno affermato che questo metodo potrebbe collegare più modelli generativi che abbracciano diverse risoluzioni spaziali insieme e quindi generare un modello di diffusione di dati a bassa risoluzione, seguito da una serie di modelli di diffusione SR3 ad alta risoluzione.
I campioni realistici generati da CDM vengono utilizzati per valutare il punteggio Fréchet Inception Distance (FID) e il punteggio di accuratezza della classificazione della qualità dell’immagine creata dal modello sviluppato.
Nel complesso, le immagini ad altissima risoluzione generate da SR3 superano GAN nella valutazione umana. Inoltre, entrambi superano di gran lunga gli attuali metodi top, BigGAN-deep e VQ-VAE-2.
Con SR3 e CDM, le prestazioni dei modelli di diffusione sono state spinte allo stato dell’arte sui benchmark di generazione di ImageNet a super risoluzione e condizionati dalla classe.
Il processo di creazione dei dipinti di “Disco Diffusion” può essere sostanzialmente suddiviso nei seguenti passaggi:
Apri il programma
Impostare parametri come la dimensione dell’immagine, il numero di mappe di processo e il numero di immagini generate
Scrivi suggerimenti nitidi in inglese, inizia a correre e quindi attendi che l’IA calcoli e produca il dipinto
I pezzi generati possono trovarsi nel “Google Drive” dell’utente.
Non solo immagini
Il creatore di YouTube “DoodleChaos” ha creato un video musicale completo utilizzando Disco Diffusion V5.2 Turbo.
Nella descrizione, spiega di aver aggiunto fotogrammi chiave per il movimento della telecamera in tutto il filmato generato e di averlo sincronizzato manualmente al ritmo.
Inoltre, ha specificato le modifiche allo stile artistico in diversi momenti della canzone. Dal momento che molti dei testi non sono specifici, anche un illustratore umano avrebbe difficoltà a rappresentarlo visivamente. Per rendere i testi più comprensibili per l’IA, li ha modificati per renderli più coerenti con il programma, come specificare un’impostazione.
Risorse utili per i modelli Diffusion
Disco Diffusion Cheatsheet v0.3 di Zippy presenta tutte le impostazioni per Disco Diffusion in parole povere.
Disco Diffusion Modifiers di Strangewonderfulai.art consiste in modificatori, come i nomi degli artisti, che sono parole chiave che guidano la generazione dell’immagine in una certa direzione.
Disco Diffusion 70+ Artist Studies anche di Strangewonderfulai.art ha centralizzato campioni di arte generata per oltre 600 artisti. Questi contributi sono stati forniti da molti altri sperimentando con la generazione di arte e presentando le loro scoperte.
Sviluppo nel dominio
Il recente concetto di intelligenza artificiale di Meta, “Make-a-scene”, genera immagini utilizzando il testo e semplici schizzi.
“Make-A-Scene consente alle persone di creare immagini utilizzando istruzioni di testo e schizzi a mano libera. I precedenti sistemi di IA per la generazione di immagini in genere utilizzavano descrizioni di testo come input, ma i risultati potrebbero essere difficili da prevedere”, secondo Meta .