ERNIE — Il generatore di immagini AI cinese è completamente GRATUITO

Lo troviamo a questo indirizzo https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG

Immagini di esempio da ERNIE di Baidu. Immagine di copertina creata daJim Clyde Monge
I generatori di immagini AI sono di gran moda in questo momento. Mentre Dall-E2 , MidJourney e Stable Diffusion sono attualmente al centro dell’attenzione, c’è un altro modello di intelligenza artificiale che sta facendo il giro di Internet.

ERNIE-ViLG è un generatore di immagini AI open source sviluppato dal gigante tecnologico cinese Baidu.

Cos’è ERNIE-ViLG?
ERNIE è l’acronimo di Enhanced Representation through Knowledge Integration — Vision Language Generation. Si tratta di un framework di pre-addestramento generativo unificato per una generazione bidirezionale di immagini-testo con modello di trasformatore.
Per essere chiari, ERNIE non è una variazione a diffusione stabile. Sebbene entrambi i modelli siano open source.

Secondo questo documento , ERNIE-ViLG 2.0 è un modello di diffusione da testo a immagine migliorato con una miscela potenziata dalla conoscenza di esperti di denoising, per incorporare ulteriori conoscenze sulla scena visiva e disaccoppiare le capacità di denoising in diverse fasi.

 
Il modello è ora accessibile gratuitamente tramite l’app Hugging Face. Puoi dare un’occhiata allo strumento qui: ERNIE-ViLG Demo

 
L’interfaccia è piuttosto semplice; ottieni la classica finestra di dialogo, una selezione di vari stili artistici e la risoluzione dell’immagine.

Esaminando gli stili artistici, ERNIE offre alcune scelte interessanti. Mi ricorda una caratteristica simile di Dream di Wombo.

  
Facciamo una generazione di esempio con il prompt “Un astronauta a cavallo nello spazio”.

 
L’app genera sei immagini con risoluzione 1024×1024.

I ricercatori di ERNIE affermano che il loro approccio produce dettagli più nitidi e naturali rispetto a Dall-E2 e Stable Diffusion.

 

La qualità è in una certa misura paragonabile a Dall-E2 e Stable Diffusion. Tuttavia, la coerenza è un po’ scarsa. Come puoi vedere nell’esempio sopra, il cavallo in due dei risultati non si trova da nessuna parte. Forse uno dei motivi è la dimensione del set di dati su cui è stato addestrato ERNIE.

Se osservi attentamente le dimensioni del set di dati, ERNIE, che è stato addestrato su 145 milioni di immagini, non si avvicina ai suoi grandi concorrenti come MidJourney, Google Parti, ecc.

  

La guida contiene anche un elenco di suggerimenti per aiutarti a trovare il modo migliore per utilizzare insieme stili e modificatori.

 
 

A proposito, una cosa da notare è che questo nuovo strumento censura le parole che ritraggono l’attivismo politico e la rivoluzione. Quindi, a differenza della diffusione stabile, ERNIE è più limitato.

Jim Clyde Monge da medium.com

Di ihal