Diffusione stabile, una pietra miliare?
Stable Diffusion ha recentemente deciso di diventare pubblico. Da allora, ci sono stati diversi sviluppi significativi intorno ad esso, il che fa meravigliare: Stable Diffusion cambierà l’intero settore della generazione da testo a immagine? E qual è lo scopo dietro questo?
Uno scienziato del CERN ha creato il world wide web (www) nel 1989 per soddisfare le crescenti richieste di condivisione automatizzata delle informazioni tra scienziati a livello globale. Sebbene fosse una cosa significativa, fu solo quando fu resa pubblica nel 1993 che cambiò il nostro modo di vivere. Il web non avrebbe potuto prosperare se il CERN non avesse deciso di renderlo disponibile con licenza aperta.
Proprio come il CERN, Stability AI ha anche scelto di modificare il modo in cui le persone vedono la sua tecnologia consentendo loro di interagire con essa liberamente.
Di recente, Emad Mostaque, il fondatore di Stable Diffusion, ha annunciato che i codici per Stable Diffusion sarebbero stati aperti. Alla luce di questo annuncio, le speculazioni sul lancio di questo generatore di intelligenza artificiale come un altro generatore di testo in immagini si sono rapidamente trasformate nella reputazione definitiva di Stable Diffusion come punto di svolta.
“Sto eseguendo Stable Diffusion in locale ed è strabiliante cosa può fare; Ho fatto una pittura che mi avrebbe richiesto più di 6 ore per essere realizzata in un’ora e mezza con il suo helIt’st è incredibile”, dice un utente sulla piattaforma social di Krita.
Cosa sta succedendo?
Poiché Stable Diffusion è open source, gli utenti possono esplorarlo online o scaricare il modello direttamente sui loro sistemi. Oltre alla sua accessibilità generale per l’utente, il modello è disponibile anche per scopi commerciali.
Durante il lancio, Emad Mostaque aveva affermato che “il codice è già disponibile così come il set di dati. Quindi tutti miglioreranno e ci rafforzeranno”. A quanto pare, le persone lo stanno già migliorando. In un post di Reddit ora virale , un utente ha affermato di aver spinto un’immagine con un testo per generare un’immagine iperrealistica di una metropoli lontana e futuristica con alti grattacieli racchiusi in un’enorme cupola di vetro trasparente.
Il modello è stato in grado di creare l’immagine come indicato nel prompt dell’immagine e ha anche preso in considerazione i minimi dettagli del prompt di testo. Considerando le reazioni all’immagine risultante, non sorprende che Mostaque abbia deciso di introdurre questa funzionalità in DreamStudio .
Numerosi plug-in Stable Diffusion vengono introdotti dagli utenti su Twitter e Reddit. Ciò stimolerebbe senza dubbio un’ulteriore innovazione nell’area. Ad esempio, un plug-in Figma può funzionare in modo simile a quello in cui un utente è in grado di generare praticamente qualsiasi cosa fornendo informazioni sulla forma e posizione fondamentale di un soggetto.
Sono stati creati anche molti altri plug-in. Ad esempio, un utente di Reddit ha affermato di aver creato con successo un plug-in di Photoshop . Puoi creare un’immagine completa unendo gli spazi tra due immagini con il plug-in.
Un altro utente ha creato un plug-in Stable Diffusion per Krita , mentre è stato realizzato un video animato utilizzando Stable Diffusion. Anche se il video deve ancora raggiungere una qualità migliore, viene comunque da chiedersi cosa riserva il futuro per l’arte dell’IA.
Oltre ai plug-in, utilizzando la libreria dei diffusori, un notebook in collaborazione con una GUI Gradio può eseguire l’inpainting con Stable Diffusion. Ad esempio, questo utente di Twitter è stato in grado di sostituire un cane con un panda in un’immagine con l’aiuto di Stable Diffusion.
Cosa riserva il futuro?
L’aggiunta di un plug-in di diffusione stabile a Photoshop può sembrare rivoluzionaria per alcuni. Tuttavia, l’aggiunta dello stesso plug-in a Blender si è effettivamente rivelata rivoluzionaria per un determinato utente su GitHub che ha persino reso open source il proprio codice.
È opinione diffusa che l’inclusione di Stable Diffusion in Blender possa accelerare la creazione di animazioni ed effetti visivi nei film. Nel caso in cui questa combinazione abbia successo, ci si aspetta anche che acceleri l’evoluzione e l’efficacia di Metaverse.
Queste speculazioni hanno acquisito ulteriore slancio alla luce della decisione di Eros Investment di collaborare con Stable Diffusion .
La collaborazione prevede una partnership tra Eros Investment e Stable Diffusion su progetti nei settori dell’istruzione, della sanità e dei meta-umani generativi.
Eros sta scommettendo sulla capacità di Stable Diffusion di produrre avatar 3D unici, che possono quindi essere utilizzati nei giochi metaverse o AR/VR. Gli sforzi di entrambe le estremità dovrebbero anche rendere più semplice la creazione di contenuti di fantasia.
Secondo Kishore Lulla , Presidente di Eros Investments, “Gli utenti ora hanno un’opportunità di espressione creativa a un ritmo che prima non esisteva. La tecnologia Deep AI sarà il futuro della differenziazione dei prodotti e siamo entusiasti di guidare questa rivoluzione”.
Di recente, Emad Mostaque aveva anche affermato che “si aspettano che la qualità continui a migliorare man mano che l’IA di stabilità introduce modelli più rapidi, migliori e più specializzati”. Ha inoltre aggiunto che intendono aggiungere presto l’audio, seguito da aggiunte di funzionalità 3D e video.
Tuttavia, le opportunità per tali combinazioni non sono limitate. Si ritiene che possano essere introdotti in Canva insieme a piattaforme come WordPress, che potrebbero introdurre plug-in ufficiali. È anche esaltante immaginare cosa comporterebbe se Google decidesse di costruire un motore di ricerca generativo in futuro!
Il futuro di questa tecnologia potrebbe essere difficile da prevedere al momento, ma come afferma Mostaque, “Stable Diffusion è un’IA all’avanguardia che è aperta e inclusiva”, sembra che possiamo aspettarci con impazienza.