Adobe Research e l’Università di Oxford hanno sviluppato un nuovo metodo chiamato “Continuous 3D Words”, che permette agli utenti dei modelli di conversione da testo a immagine di controllare in modo dettagliato vari attributi di un’immagine. Questo metodo utilizza un insieme speciale di token di input che permettono di modificare in continuazione gli attributi, dando agli utenti la possibilità di manipolare i controlli, come dispositivi di scorrimento, insieme a istruzioni testuali. L’approccio permette di controllare in modo continuo attributi 3D come l’illuminazione, l’orientamento delle ali degli uccelli, l’effetto dollyzoom e le pose degli oggetti.
I metodi attuali per generare immagini nei modelli di diffusione non riescono a riconoscere attributi astratti e continui, come la direzione dell’illuminazione o cambiamenti di forma non rigidi. L’articolo evidenzia che, mentre la fotografia consente un controllo dettagliato sulla composizione e sull’estetica, i suggerimenti testuali nei modelli di diffusione testo-immagine sono limitati a descrizioni di alto livello. Invece, i motori di rendering 3D offrono un controllo preciso ma richiedono molto lavoro e competenze specifiche.
Il lavoro di Adobe Research e dell’Università di Oxford mira a unire i vantaggi di entrambi gli approcci. Lo fanno espandendo il vocabolario dei modelli da testo a immagine con campioni generati dai motori di rendering, creando così “parole 3D continue” che permettono un controllo dettagliato durante la generazione delle immagini.
Il fulcro del loro approccio è l’apprendimento di un vocabolario continuo, che facilita un’associazione più diretta tra i diversi valori degli attributi e permette l’interpolazione durante l’inferenza. Sono state proposte due strategie di formazione per evitare soluzioni degenerate e per permettere la generalizzazione a nuovi oggetti. La prima strategia si basa su un processo di formazione in due fasi che impedisce al modello di trattare ciascun valore di attributo come un nuovo oggetto. La seconda strategia impiega ControlNet con immagini condizionate per evitare un’eccessiva adattabilità a sfondi artificiali. L’intero processo di formazione è stato progettato per essere leggero e garantire l’efficienza.