Quando apriamo i social media in questi giorni, è inevitabile imbattersi in immagini generate dall’intelligenza artificiale di celebrità, città o nelle nuove funzionalità di Midjourney, che migliorano le capacità dell’IA in tutti gli aspetti verticali e orizzontali. Questi generatori di immagini basati su modelli di diffusione sono stati una delle prime dimostrazioni delle potenzialità dell’IA generativa sin dal loro rilascio l’anno scorso con DALL-E.
Ora, i modelli di diffusione hanno superato tutte le aspettative. Vi presento DragonDiffusion, un modello che consente di trascinare oggetti all’interno di un’immagine per modificarne forma e orientamento. Ciò permette una manipolazione fluida di immagini e oggetti senza la necessità di modificare i modelli esistenti: è il sogno di ogni utente di Photoshop che diventa realtà.
L’idea fondamentale alla base di DragonDiffusion è la costruzione di un sistema di guida del classificatore che utilizza la corrispondenza delle caratteristiche intermedie all’interno del modello di diffusione. Questo sistema di guida traduce i segnali di modifica in gradienti utilizzando una perdita di corrispondenza delle caratteristiche, consentendo modifiche alla rappresentazione intermedia del modello di diffusione.
Attraverso un approccio di guida multiscala che tiene conto dell’allineamento semantico e geometrico, DragonDiffusion agevola diverse modalità di modifica, sia per immagini generate che reali. Queste modalità includono lo spostamento, il ridimensionamento, la sostituzione dell’aspetto e il trascinamento del contenuto degli oggetti.
Per garantire la coerenza tra l’immagine originale e il risultato dell’editing, DragonDiffusion incorpora un meccanismo di auto-attenzione cross-branch. Questo meccanismo mantiene la coerenza complessiva dell’immagine durante l’intero processo di modifica, assicurando un’integrazione perfetta tra il contenuto modificato e l’originale.
Sono stati condotti numerosi esperimenti per valutare le prestazioni di DragonDiffusion e i risultati sono notevoli. Il modello dimostra la capacità di eseguire una vasta gamma di applicazioni di modifica delle immagini, tra cui lo spostamento degli oggetti, il loro ridimensionamento, la sostituzione dell’aspetto e il trascinamento del contenuto. DragonDiffusion offre un’interfaccia potente e intuitiva per interagire con i modelli di diffusione, sfruttando appieno il loro potenziale creativo.
Il successo di DragonDiffusion può essere attribuito alle proprietà intrinseche dei modelli di diffusione, che mostrano forti relazioni di corrispondenza all’interno delle loro caratteristiche intermedie. Mentre gli approcci precedenti, come i GAN, si concentravano principalmente sulla corrispondenza tra le caratteristiche testuali e quelle dell’immagine, DragonDiffusion sfrutta la corrispondenza stabile e dettagliata tra le caratteristiche dell’immagine stessa. Questa metodologia di modifica delle immagini a livello di pixel apre nuove possibilità per una manipolazione precisa e intuitiva all’interno dei modelli di diffusione.
Iniziano a sorgere dubbi sulla rilevanza dei GAN nell’era dei modelli di diffusione. Ma proprio quando questo pensiero sembrava prendere forma, i ricercatori hanno compiuto un enorme passo avanti con DragGAN, che consente agli editori di trascinare e modificare in tempo reale orientamenti e forme degli oggetti. Ironia della sorte, questo sviluppo ha fatto sorgere dubbi sulle capacità dei generatori di immagini basati su modelli di diffusione.
Analogamente a DragonDiffusion, questo metodo basato su GAN sfrutta un GAN preaddestrato per sintetizzare immagini che non solo rispecchiano fedelmente l’input dell’utente, ma si mantengono anche all’interno di una varietà di immagini realistiche.
I ricercatori hanno introdotto un nuovo approccio che si differenzia dai metodi precedenti, offrendo un quadro generale che non si basa su modelli specifici del dominio o reti ausiliarie. Questa innovativa tecnica prevede l’ottimizzazione dei codici latenti per spostare gradualmente più punti di manipolazione verso le posizioni desiderate. Inoltre, viene utilizzata una procedura di tracciamento dei punti per seguire con precisione la traiettoria di tali punti di presa.
Sfruttando le caratteristiche discriminanti delle mappe delle caratteristiche intermedie all’interno del GAN, entrambi i componenti di questo approccio consentono deformazioni precise delle immagini a livello di pixel, mantenendo al contempo elevate prestazioni interattive.
I ricercatori hanno affermato con sicurezza che il loro approccio supera lo stato dell’arte attuale nella manipolazione basata su GAN, rappresentando un significativo progresso nel campo dell’editing delle immagini con generatori generativi. Inoltre, hanno espresso l’intenzione di estendere questa tecnica di modifica basata sui punti ai modelli generativi 3D nel prossimo futuro.
Si credeva che sarebbe stato difficile incorporare tecniche di trascinamento all’interno del complesso processo di diffusione. Ora, con DragonDiffusion, la ricerca sui modelli di diffusione sta riprendendo slancio. D’altra parte, è importante riconoscere che anche i GAN stanno dimostrando la loro efficacia all’interno dell’ecosistema.
La crescente popolarità dei modelli di diffusione può essere attribuita alle loro caratteristiche e vantaggi unici in diversi scenari di sintesi delle immagini. Tuttavia, è fondamentale riconoscere l’importanza duratura e l’impatto dei modelli GAN, poiché hanno dimostrato di produrre risultati visivamente accattivanti.
L’attuale panorama testimonia un’interazione dinamica tra questi due approcci, con i modelli di diffusione che tornano a emergere e a rivendicare la loro posizione, dimostrando la loro capacità di migliorare e integrare il dominio della generazione delle immagini insieme ai GAN.