Stability AI ha costantemente iterato e rilasciato vari modelli di immagini nell’ultimo anno, ognuno mostrando progressivamente maggior sofisticazione e qualità. Dopo il rilascio di SDXL a luglio, che ha migliorato notevolmente il modello base Stable Diffusion, l’azienda sta ora puntando a un ulteriore avanzamento.
Il nuovo modello Stable Diffusion 3.0 mira a migliorare la qualità delle immagini e le prestazioni nella generazione di immagini da prompt multi-soggetto. Inoltre, promette una tipografia significativamente migliorata rispetto ai modelli precedenti, consentendo una maggiore precisione e coerenza nelle immagini generate. La tipografia è stata un punto debole per Stable Diffusion in passato, ma ora l’azienda sta lavorando su di essa, anche considerando i progressi fatti dai rivali come DALL-E 3, Ideogram e Midjourney. Stability AI sta sviluppando Stable Diffusion 3.0 in diverse dimensioni di modello, che variano dai parametri 800M a 8B.
Stable Diffusion 3.0 non è solo un’evoluzione dei modelli precedenti di Stability AI, ma si basa su una nuova architettura. Emad Mostaque, CEO di Stability AI, ha dichiarato a VentureBeat che Stable Diffusion 3 è un trasformatore di diffusione, un nuovo tipo di architettura simile a quella utilizzata nel recente modello OpenAI Sora, e rappresenta il vero successore dell’originale Stable Diffusion.
Stability AI ha esplorato diversi approcci per la generazione di immagini, incluso l’utilizzo dell’architettura Würstchen per migliorare prestazioni e precisione con Stable Cascade, rilasciato all’inizio di questo mese. Tuttavia, Stable Diffusion 3.0 adotta un approccio diverso, utilizzando trasformatori di diffusione, un’innovazione che mancava nei modelli precedenti.
I trasformatori sono alla base di molti modelli di intelligenza artificiale e sono ampiamente utilizzati per la generazione del testo. L’uso dei trasformatori di diffusione rappresenta una nuova architettura che può essere più efficiente e superiore ad altri metodi di generazione di immagini.