eDiffi: il modello da testo a immagine di NVIDIA con denoiser esperti

eDiffi è una nuova generazione di strumenti per la creazione di contenuti con intelligenza artificiale generativa che offre una sintesi da testo a immagine senza precedenti con trasferimento istantaneo dello stile e funzionalità di pittura intuitiva con parole.
Proponiamo eDiffi, un modello di diffusione per sintetizzare immagini date testo. Motivati ​​dall’osservazione empirica che il comportamento dei modelli di diffusione differisce nelle diverse fasi del campionamento, proponiamo di addestrare un insieme di reti di denoising esperte, ciascuna specializzata per uno specifico intervallo di rumore. Il nostro modello è condizionato dagli incorporamenti di testo T5, incorporamenti di immagini CLIP e incorporamenti di testo CLIP. Il nostro approccio può generare immagini fotorealistiche corrispondenti a qualsiasi prompt di testo di input. Oltre alla sintesi da testo a immagine, presentiamo due funzionalità aggiuntive: (1) trasferimento di stile,
 
Lo strumento introduce due funzionalità: Paint-with-Words e generazione di immagini guidata dallo stile.

Abbiamo visto molti disegni generati dall’intelligenza artificiale da Stable Diffusion, Midjourney, DALL-E e altri strumenti, ora è il momento per NVIDIA di presentare il proprio modello da testo a immagine: eDiffi. 

I creatori descrivono il modello come “una nuova generazione di strumenti per la creazione di contenuti con intelligenza artificiale che offre una sintesi da testo a immagine senza precedenti con trasferimento istantaneo dello stile e capacità di pittura intuitiva con le parole”.

 



I ricercatori hanno utilizzato diversi denoiser esperti per diversi intervalli di rumore del processo generativo. eDiffi, a differenza di molti altri strumenti di conversione da testo a immagine, utilizza codificatori di testo CLIP, testo T5 e immagine CLIP, che presumibilmente portano a migliori capacità di sintesi.
eDiffi offre due caratteristiche interessanti: Paint-with-Words e generazione di immagini guidata dallo stile. Paint-with-Words consente di assegnare parole o frasi separate dal prompt a colori diversi in modo che il modello comprenda meglio dove mettere quale oggetto.

Un dipinto digitale di un lago semicongelato vicino alle montagne sotto la luna piena e l’aurora. Una barca è in mezzo al lago. Altamente dettagliato.
Il trasferimento di stile ti consente di fornire all’IA un’immagine a cui dovrebbe fare riferimento. L’immagine di output adotterà lo stesso stile.

Nel complesso, i risultati sembrano impressionanti, soprattutto quando si tratta di generare testo: molti strumenti di intelligenza artificiale hanno difficoltà con l’ortografia corretta, ma quelli di eDiffi sembrano a posto.

Di ihal