Stable Diffusion 2.0 è una versione completamente migliorata
 
Il giornalista online Matthias è il co-fondatore ed editore di THE DECODER. Crede che l’intelligenza artificiale cambierà radicalmente il rapporto tra umani e computer.
 
La versione 2.0 di Stable Diffusion apporta numerosi miglioramenti. La novità più importante è il modello migliorato di testo in immagine OpenCLIP.

Nell’agosto 2022, la startup AI Stability AI, insieme a RunwayML, LMU Munich, EleutherAI e LAION, ha rilasciato Stable Diffusion , un’IA di immagini open source che è stata immediatamente ben accolta dalla comunità.

Stable Diffusion può essere utilizzato online a pagamento e con filtri di contenuto, oppure scaricato gratuitamente e utilizzato in locale senza limitazioni di contenuto. La versione 2.0 continua questo approccio open source. Ad aprire la strada è l’IA di stabilità.

Codificatore di testo migliorato e nuove modalità immagine
Per la versione 2.0, il team ha utilizzato OpenCLIP (Contrastive Language-Image Pre-training), una versione migliorata del sistema di intelligenza artificiale multimodale che apprende i concetti visivi dal linguaggio naturale con l’auto-supervisione. OpenCLIP è stato rilasciato da LAION in tre versioni a metà settembre ed è ora implementato in Stable Diffusion. Stability AI ha supportato l’addestramento di OpenCLIP. I modelli CLIP possono calcolare rappresentazioni di immagini e testo come incorporamenti e confrontare la loro somiglianza. In questo modo, un sistema di intelligenza artificiale può generare un’immagine che corrisponde a un testo.

 
Grazie a questo nuovo codificatore di testo , Stable Diffusion 2.0 può generare immagini significativamente migliori rispetto alla versione 1.0, secondo Stability AI. Il modello può generare immagini con risoluzioni di 512×512 e 769×768 pixel, che vengono poi ingrandite a 2048×2048 pixel da un modello di diffusione upscaler anch’esso nuovo.

 
Il nuovo modello Open CLIP è stato addestrato con un “set di dati estetici” compilato da Stability AI sulla base del set di dati LAION-5B . I contenuti sessuali e pornografici sono stati preventivamente filtrati.

Un’altra novità è un modello depth-to-image che analizza la profondità di un’immagine di input e quindi utilizza l’input di testo per trasformarlo in nuovi motivi con i contorni dell’immagine originale.

L’analisi della profondità consente a Stable Diffusion 2.0 di trasformare con precisione i soggetti esistenti in nuovi soggetti che assomigliano all’immagine originale. | Immagine: Diffusione stabile
Stable Diffusion versione 2.0 ottiene anche un modello di inpainting che può essere utilizzato per sostituire i singoli elementi dell’immagine all’interno di un’immagine esistente, come dipingere un berretto o un visore VR sulla testa.

I contenuti multimediali esterni (Twitter) sono stati bloccati qui. Durante il caricamento o la riproduzione, vengono stabilite connessioni ai server dei rispettivi provider. I dati personali possono essere comunicati ai fornitori nel processo. Puoi trovare maggiori informazioni nella nostra politica sulla privacy .L’open source come modello di successo
Nonostante i numerosi miglioramenti, Stable Diffusion versione 2.0 dovrebbe comunque essere eseguito localmente su una singola potente scheda grafica con memoria sufficiente.

Abbiamo già visto che, quando milioni di persone mettono le mani su questi modelli, creano collettivamente cose davvero sorprendenti. Questo è il potere dell’open source: sfruttare il vasto potenziale di milioni di persone di talento che potrebbero non avere le risorse per addestrare un modello all’avanguardia, ma che hanno la capacità di fare qualcosa di incredibile con uno.

Stability AI

 

Di ihal