Stability AI ha lanciato oggi un importante aggiornamento della sua tecnologia di intelligenza artificiale generativa per la creazione di immagini, introducendo Stable Diffusion 3.5. Questo nuovo aggiornamento ha l’obiettivo di superare le carenze della precedente versione, Stable Diffusion 3, che non ha soddisfatto gli standard dell’azienda.
Stable Diffusion 3 è stato presentato a febbraio, con la versione pubblica disponibile a giugno, ma l’azienda ha dovuto affrontare una crescente concorrenza da parte di rivali come Flux Pro di Black Forest Labs, Dall-E di OpenAI, Ideogram e Midjourney. Con Stable Diffusion 3.5, Stability AI mira a riconquistare la propria posizione di leader nel settore.
I nuovi modelli di Stable Diffusion 3.5 sono altamente personalizzabili e possono generare una vasta gamma di stili. L’aggiornamento introduce diverse varianti, tra cui:
- Stable Diffusion 3.5 Large: Un modello con 8 miliardi di parametri che offre la massima qualità.
- Stable Diffusion 3.5 Large Turbo: Una versione ottimizzata per una generazione di immagini più veloce.
- Stable Diffusion 3.5 Medium: Un modello da 2,6 miliardi di parametri, progettato per il calcolo edge.
Tutti e tre i modelli sono disponibili con la Stability AI Community License, che consente un uso non commerciale gratuito e un uso commerciale gratuito per entità con fatturato annuo inferiore a 1 milione di dollari. Le aziende possono anche ottenere una licenza per distribuzioni più ampie. I modelli sono accessibili tramite l’API di Stability AI e Hugging Face.
La versione originale di Stable Diffusion 3 Medium ha presentato alcune problematiche, e le esperienze accumulate hanno guidato le migliorie apportate in Stable Diffusion 3.5. Hanno Basse, CTO di Stability AI, ha spiegato che l’analisi dei colli di bottiglia ha portato a un miglioramento dell’architettura e dei protocolli di formazione.
Tra le novità di Stable Diffusion 3.5, spicca l’integrazione della Query-Key Normalization, che facilita la messa a punto dei modelli e li rende più stabili durante l’addestramento. Basse ha sottolineato che questa è la prima volta che implementano questa tecnica, data la priorità data alla personalizzazione.
Inoltre, Stability AI ha migliorato la sua architettura Multimodal Diffusion Transformer (MMDiT-X) per il modello medio, combinando tecniche di modelli di diffusione con tecniche di modelli di trasformatori, migliorando la qualità delle immagini e le capacità di generazione multi-risoluzione.
Stability AI afferma che Stable Diffusion 3.5 Large offre un’aderenza rapida superiore rispetto ad altri modelli, il che significa che riesce a interpretare e riprodurre con precisione le richieste degli utenti. Questo è stato ottenuto attraverso una migliore cura dei set di dati e innovazioni nei protocolli di formazione.
Per il futuro, Stability AI prevede di rilasciare una funzionalità chiamata ControlNets per Stable Diffusion 3.5. Questa tecnologia fornirà maggiore controllo per vari casi d’uso professionali, consentendo agli utenti di, ad esempio, ingrandire un’immagine mantenendo i colori o di creare immagini che seguono schemi specifici di profondità.