La tecnologia di generazione di immagini tramite intelligenza artificiale (IA) sta progredendo a velocità senza precedenti, specialmente grazie agli sviluppi di Stability AI, il creatore del modello Stable Diffusion. Ora, con la loro nuova modalità SDXL Turbo, il processo di creazione di immagini in tempo reale è diventato molto più veloce, eliminando la necessità di attendere anche solo pochi secondi o minuti.
Questa accelerazione è possibile grazie alla significativa riduzione dei passaggi di generazione: da 50 a soltanto uno. Questo implica anche un minor carico computazionale. Secondo Stability AI, SDXL Turbo può generare un’immagine 512×512 in soli 207 millisecondi su una GPU A100, segnando un miglioramento di velocità notevole rispetto ai modelli precedenti.
SDXL Turbo utilizza una tecnica innovativa chiamata Adversarial Diffusion Distillation (ADD), che non si basa su hardware avanzato ma su un nuovo approccio metodologico. Emad Mostaque, CEO di Stability AI, ha descritto ADD come un metodo che sacrifica un po’ di diversità per una maggiore velocità, con interessanti implicazioni soprattutto per i prodotti di lusso.
Il modello di base SDXL, introdotto in luglio, includeva già innovazioni come il ControlNet per un migliore controllo della composizione dell’immagine e beneficiava di 3,5 miliardi di parametri per una maggiore precisione. SDXL Turbo amplifica queste caratteristiche rendendo la generazione ancora più rapida.
Seguendo un percorso comune nello sviluppo di IA generativa, Stability AI ha prima creato il modello più accurato possibile, poi ha ottimizzato le prestazioni, simile a quanto fatto da OpenAI con i suoi modelli GPT 3.5 Turbo e GPT-4 Turbo.
Nonostante l’accelerazione, il compromesso tra qualità e accuratezza è quasi impercettibile in SDXL Turbo, che offre risultati dettagliati con qualità d’immagine solo leggermente inferiore rispetto alla versione non accelerata.
ADD combina la qualità superiore dei modelli di diffusione con la velocità dei Generative Adversarial Networks (GAN), utilizzando un mix di formazione contraddittoria e distillazione del punteggio per sfruttare al meglio un modello di diffusione delle immagini preaddestrato.
Gli esperimenti hanno mostrato che ADD supera notevolmente altri metodi come i GAN e i modelli di coerenza latente in termini di sintesi di immagini in un unico passaggio.
Attualmente, SDXL Turbo non è pronto per l’uso commerciale, ma è disponibile in anteprima sul servizio web Clipdrop di Stability AI. Il codice e i pesi del modello sono anche disponibili su Hugging Face con una licenza di ricerca non commerciale. In test limitati, VentureBeat ha rilevato una generazione di immagini veloce, anche se la beta di Clipdrop non offriva ancora tutte le opzioni avanzate per diversi stili di generazione di immagini.