Nvidia entra nella battaglia da testo a immagine con eDiff-I, affronta DALL-E, Imagen 

Il dominio dei generatori di intelligenza artificiale (AI) text-to-image è il nuovo campo di battaglia per i conglomerati tecnologici. Ogni organizzazione focalizzata sull’intelligenza artificiale ora mira a creare un modello generativo in grado di mostrare dettagli straordinari ed evocare immagini affascinanti da prompt di testo relativamente semplici. Dopo DALL-E 2 di OpenAI, Imagen di Google e Make-a-Scene di Meta hanno fatto notizia con le loro capacità di sintesi delle immagini, Nvidia è entrata in gara con il suo modello text-to-image chiamato eDiff-I . 

 A differenza di altri importanti modelli generativi da testo a immagine che eseguono la sintesi delle immagini tramite un processo di denoising iterativo, eDiff-I di Nvidia utilizza un insieme di denoiser esperti specializzati nel denoiser di diversi intervalli del processo generativo.

L’esclusivo algoritmo di sintesi delle immagini di Nvidia
Gli sviluppatori dietro eDiff-I descrivono il modello da testo a immagine come “una nuova generazione di strumenti di creazione di contenuti di intelligenza artificiale generativa che offre una sintesi da testo a immagine senza precedenti con trasferimento istantaneo dello stile e capacità intuitive di pittura con le parole”.

In un articolo pubblicato di recente , gli autori affermano che gli attuali algoritmi di sintesi delle immagini fanno molto affidamento sul prompt del testo per creare informazioni allineate al testo, mentre il condizionamento del testo è quasi del tutto ignorato, deviando il compito di sintesi alla produzione di output di alta fedeltà visiva. Ciò ha portato alla realizzazione che potrebbero esserci modi migliori per rappresentare queste modalità uniche del processo di generazione rispetto alla condivisione dei parametri del modello nell’intero processo di generazione.

“Pertanto, contrariamente ai lavori esistenti, proponiamo di addestrare un insieme di modelli di diffusione da testo a immagine specializzati per diverse fasi di sintesi”, ha affermato il team di ricerca di Nvidia nel loro documento. “Per mantenere l’efficienza dell’addestramento, inizialmente addestriamo un singolo modello, che viene poi progressivamente suddiviso in modelli specializzati che vengono ulteriormente addestrati per le fasi specifiche del processo di generazione iterativo”.

 
La pipeline di sintesi delle immagini di eDiff-I comprende una combinazione di tre modelli di diffusione: un modello base in grado di sintetizzare campioni con risoluzione 64 x 64 e due stack di super-risoluzione che possono eseguire l’upsampling progressivo delle immagini rispettivamente alla risoluzione 256 x 256 e 1024 x 1024 . 

Questi modelli elaborano una didascalia di input calcolando prima l’incorporamento T5 XXL e l’incorporamento del testo. L’architettura del modello per eDiff-I utilizza anche le codifiche delle immagini CLIP calcolate da un’immagine di riferimento. Questi incorporamenti di immagini fungono da vettore stilizzato, ulteriormente inserito in modelli di diffusione in cascata per generare progressivamente immagini con risoluzione 1024 x 1024.

Questi aspetti unici consentono a eDiff-I di avere un livello di controllo molto maggiore sul contenuto generato. Oltre a sintetizzare il testo in immagini, il modello eDiff-I ha due funzionalità aggiuntive: il trasferimento dello stile, che consente di controllare lo stile del modello generato utilizzando un’immagine di riferimento, e “dipingere con le parole”, un’applicazione in cui l’utente può creare immagini disegnando mappe di segmentazione su una tela virtuale, una funzionalità utile per scenari in cui l’utente mira a creare un’immagine specifica desiderata. 

 
Un nuovo processo di denoising
La sintesi nei modelli di diffusione avviene generalmente attraverso una serie di processi iterativi di denoising che generano gradualmente immagini da rumore casuale, con la stessa rete neurale di denoiser utilizzata durante l’intero processo di denoising. Il modello eDiff-I utilizza un metodo di denoising unico in cui il modello addestra un insieme di denoiser specializzati per il denoising a diversi intervalli del processo generativo. Nvidia si riferisce a questa nuova rete di denoising come “denoiser esperti” e afferma che questo processo migliora drasticamente la qualità di generazione delle immagini. 

L’architettura di denoising utilizzata da eDiff-I. Fonte immagine: Nvidia AI.
Scott Stephenson, CEO di Deepgram , afferma che i nuovi metodi presentati nella pipeline di formazione di eDiff-I potrebbero essere inculcati per nuove versioni di DALL-E o Stable Diffusion, dove possono consentire significativi progressi nella qualità e nel controllo delle immagini sintetizzate.

“Aumenta sicuramente la complessità dell’addestramento del modello, ma non aumenta significativamente la complessità computazionale nell’uso in produzione”, ha detto Stephenson a VentureBeat. “Essere in grado di segmentare e definire l’aspetto di ogni componente dell’immagine risultante potrebbe accelerare il processo di creazione in modo significativo. Inoltre, consente all’uomo e alla macchina di lavorare più a stretto contatto”. 

 
Meglio dei contemporanei? 
Mentre altri contemporanei all’avanguardia come DALL-E 2 e Imagen utilizzano solo un singolo codificatore come CLIP o T5, l’architettura di eDiff-I utilizza entrambi i codificatori nello stesso modello. Tale architettura consente a eDiff-I di generare immagini sostanzialmente diverse dallo stesso input di testo.

CLIP conferisce all’immagine creata un aspetto stilizzato; tuttavia, l’output spesso manca di informazioni di testo. D’altra parte, le immagini create utilizzando l’incorporamento di testo T5 possono generare oggetti singoli migliori. Combinandoli, eDiff-I produce immagini con entrambe le qualità di sintesi. 

 
Il team di sviluppo ha anche scoperto che quanto più descrittivo è il prompt di testo, tanto migliori sono le prestazioni di T5 rispetto a CLIP e che combinando i due risultati si ottengono risultati di sintesi migliori. Il modello è stato valutato anche su set di dati standard come MS-COCO, indicando che gli incorporamenti CLIP+T5 forniscono curve di compromesso significativamente migliori rispetto a entrambi.

Lo studio di Nvidia mostra che eDiff-I ha superato concorrenti come DALL-E 2, Make-a-Scene, GLIDE e Stable Diffusion basati sulla Frechet Inception Distance, o FID, una metrica per valutare la qualità delle immagini generate dall’IA. eDiff-I ha anche ottenuto un punteggio FID superiore a Imagen e Parti di Google. 

 
Quando si confrontano le immagini generate attraverso didascalie dettagliate semplici e lunghe, lo studio di Nvidia afferma che sia DALL-E 2 che Stable Diffusion non sono riusciti a sintetizzare accuratamente le immagini nelle didascalie di testo. Inoltre, lo studio ha rilevato che altri modelli generativi producono errori di ortografia o ignorano alcuni degli attributi. Nel frattempo, eDiff-I poteva modellare correttamente le caratteristiche del testo inglese su un’ampia gamma di campioni. 

 

Sfide attuali per l’IA generativa
I moderni modelli di diffusione da testo a immagine hanno il potenziale per democratizzare l’espressione artistica offrendo agli utenti la possibilità di produrre immagini dettagliate e di alta qualità senza la necessità di competenze specialistiche. Tuttavia, possono anche essere utilizzati per la manipolazione avanzata delle foto per scopi dannosi o per creare contenuti ingannevoli o dannosi. 

 
Il recente progresso dei modelli generativi e dell’editing delle immagini basato sull’intelligenza artificiale ha profonde implicazioni per l’autenticità delle immagini e oltre. Nvidia afferma che tali sfide possono essere affrontate convalidando automaticamente le immagini autentiche e rilevando contenuti manipolati o falsi. 

I set di dati di addestramento degli attuali modelli generativi da testo a immagine su larga scala sono per lo più non filtrati e possono includere distorsioni catturate dal modello e riflesse nei dati generati. Pertanto, è fondamentale essere consapevoli di tali distorsioni nei dati sottostanti e contrastarle raccogliendo attivamente dati più rappresentativi o utilizzando metodi di correzione delle distorsioni. 

“I modelli generativi di immagini AI affrontano le stesse sfide etiche di altri campi di intelligenza artificiale: la provenienza dei dati di addestramento e la comprensione di come vengono utilizzati nel modello”, ha affermato Stephenson. “I grandi set di dati di immagini etichettate possono contenere materiale protetto da copyright ed è spesso impossibile spiegare come (o se) il materiale protetto da copyright sia stato incorporato nel prodotto finale”.

Secondo Stephenson, la velocità di addestramento del modello è un’altra sfida che i modelli di intelligenza artificiale generativa devono ancora affrontare, soprattutto durante la loro fase di sviluppo. 

“Se un modello impiega tra i 3 e i 60 secondi per generare un’immagine su alcune delle GPU di fascia più alta sul mercato, le distribuzioni su scala di produzione richiederanno un aumento significativo della fornitura di GPU o capiranno come generare immagini in una frazione del tempo. Lo status quo non è scalabile se la domanda cresce di 10 o 100 volte”, ha dichiarato Stephenson . 

 
Il futuro dell’IA generativa
Kyran McDonnell, fondatore e CEO di reVolt , ha affermato che sebbene i modelli di testo-immagine di oggi facciano eccezionalmente bene l’arte astratta, mancano dell’architettura necessaria per costruire i precedenti necessari per comprendere correttamente la realtà.

“Saranno in grado di approssimare la realtà con dati di addestramento sufficienti e modelli migliori, ma non la capiranno veramente”, ha affermato. “Fino a quando il problema di fondo non verrà affrontato, continueremo a vedere questi modelli commettere errori di buon senso”.

McDonnell ritiene che le architetture text-to-image di nuova generazione, come eDiff-I, risolveranno molti degli attuali problemi di qualità. 

“Possiamo ancora aspettarci errori di composizione, ma la qualità sarà simile a quella dei GAN specializzati per quanto riguarda la generazione dei volti”, ha affermato McDonnell. 

 
Allo stesso modo, Stephenson ha affermato che vedremmo più applicazioni dell’IA generativa in diverse aree applicative. 

“I modelli generativi formati sullo stile e sull’atmosfera generale di un marchio potrebbero generare un’infinita varietà di risorse creative”, ha affermato. “C’è molto spazio per le applicazioni aziendali e l’IA generativa non ha ancora avuto il suo ‘momento mainstream’.”

Di ihal