Stable Diffusion 3.0

DiFantasy

Feb 22, 2024

Stability AI ha costantemente iterato e rilasciato vari modelli di immagini nell’ultimo anno, ognuno mostrando progressivamente maggior sofisticazione e qualità. Dopo il rilascio di SDXL a luglio, che ha migliorato notevolmente il modello base Stable Diffusion, l’azienda sta ora puntando a un ulteriore avanzamento.

Il nuovo modello Stable Diffusion 3.0 mira a migliorare la qualità delle immagini e le prestazioni nella generazione di immagini da prompt multi-soggetto. Inoltre, promette una tipografia significativamente migliorata rispetto ai modelli precedenti, consentendo una maggiore precisione e coerenza nelle immagini generate. La tipografia è stata un punto debole per Stable Diffusion in passato, ma ora l’azienda sta lavorando su di essa, anche considerando i progressi fatti dai rivali come DALL-E 3, Ideogram e Midjourney. Stability AI sta sviluppando Stable Diffusion 3.0 in diverse dimensioni di modello, che variano dai parametri 800M a 8B.

Stable Diffusion 3.0 non è solo un’evoluzione dei modelli precedenti di Stability AI, ma si basa su una nuova architettura. Emad Mostaque, CEO di Stability AI, ha dichiarato a VentureBeat che Stable Diffusion 3 è un trasformatore di diffusione, un nuovo tipo di architettura simile a quella utilizzata nel recente modello OpenAI Sora, e rappresenta il vero successore dell’originale Stable Diffusion.

Stability AI ha esplorato diversi approcci per la generazione di immagini, incluso l’utilizzo dell’architettura Würstchen per migliorare prestazioni e precisione con Stable Cascade, rilasciato all’inizio di questo mese. Tuttavia, Stable Diffusion 3.0 adotta un approccio diverso, utilizzando trasformatori di diffusione, un’innovazione che mancava nei modelli precedenti.

I trasformatori sono alla base di molti modelli di intelligenza artificiale e sono ampiamente utilizzati per la generazione del testo. L’uso dei trasformatori di diffusione rappresenta una nuova architettura che può essere più efficiente e superiore ad altri metodi di generazione di immagini.

Stable Diffusion 3.0

DiFantasy

Di Fantasy

Articoli correlati

Elon Musk lancia Grokipedia, l’Enciclopedia AI che sfida la neutralità di Wikipedia

Albamumulbot, l’Agente AI per la ricerca di offerte di lavoro

Google Cloud lancia Vertex AI Training, per l’addestramento di modelli AI aziendali su larga scala

Ultimi Post

Elon Musk lancia Grokipedia, l’Enciclopedia AI che sfida la neutralità di Wikipedia

Albamumulbot, l’Agente AI per la ricerca di offerte di lavoro

Google Cloud lancia Vertex AI Training, per l’addestramento di modelli AI aziendali su larga scala

CREAGEN di Pion semplifica la produzione di immagini e video con un hub AI unico