I generatori da testo a immagine stanno guadagnando popolarità quest’anno. È iniziato con DALL.E 2, ma ora abbiamo strumenti straordinari come Midjourney e Stable Diffusion e molti altri. 
 
Midjourney, DALL.E-2 o Stable Diffusion, qual è il miglior generatore di text-to-image? DALL.E 2, che è il modello di seconda generazione di DALL.E , è una versione più piccola del suo predecessore, ma è probabilmente la migliore. Sebbene DALL.E 2 possa creare praticamente qualsiasi cosa, utilizza un metodo chiamato unCLIP , che è abbastanza sofisticato da creare immagini che una volta erano difficili da esprimere anche per noi umani. Ha ancora i suoi limiti.  

Il modello non è aperto al pubblico e, sebbene OpenAI possa avere le sue ragioni per non farlo, il mercato sta ora assistendo a un aumento dei modelli open source di generatori di testo a immagini (come Stable Diffusion) proprio come nel caso di GPT-3 quando GPT-Neo è stato lanciato da sostenitori delle risorse aperte. 

Tuttavia, ciò è possibile anche grazie a CLIP open-source OpenAI , che è indirettamente correlato a DALL E . Si può anche affermare che CLIP è alla base di DALL.E 2, ed è uno dei motivi fondamentali per cui oggi esistono piattaforme come Midjourney e Stable Diffusion.

Poiché DALL.E 2 è addestrato su milioni di immagini stock , l’output che crea è molto più sofisticato ed è più adatto per l’uso aziendale. Secondo Emad Mostaque (creatore di Stable Diffusion), l’inpainting è la caratteristica migliore di DALL.E 2, che lo distingue dagli altri generatori di immagini. Inoltre, DALL.E 2 produce immagini molto migliori quando ha più di 2 caratteri , rispetto a Midjourney o Stable Diffusion.

 

Midjourney, invece, è uno strumento noto soprattutto per il suo stile artistico . L’immagine che genera non sembra quasi mai una foto, ma un dipinto. Alcuni artisti lo considerano uno studente d’arte. “Sento che Midjourney è uno studente d’arte che ha il suo stile. E quando invochi il mio nome per creare un’immagine, è come chiedere a uno studente d’arte di creare qualcosa ispirato alla mia arte”, ha detto un artista. 

Midjourney utilizza un bot discord per inviare e ricevere chiamate ai server di intelligenza artificiale e praticamente tutto accade su discord. Midjourney ha anche una comunità attiva di circa 1 milione di persone, dove puoi vedere tutti creare magie con l’arte. 

Il fondatore di Midjourney David Holz dice che non vuole che le immagini assomiglino a foto. Crede che a un certo punto potrebbe realizzare versioni realistiche, ma la società non vuole che sia un’impostazione predefinita. “Le foto perfette mi mettono un po’ a disagio in questo momento, anche se vedo ragioni legittime per cui potresti volere qualcosa di più realistico.”

 

Mentre DALL.E 2 e Midjourney si stanno entrambi astenendo dal diventare completamente open source, Stable Diffusion afferma di essere un modello open source a cui tutti avranno accesso. Mostaque afferma : “Il codice è già disponibile così come il set di dati. Quindi tutti miglioreranno e ci rafforzeranno”.

Stable Diffusion ha anche una buona comprensione dell’illustrazione artistica moderna e può produrre opere d’arte molto dettagliate. Tuttavia, manca l’interpretazione di complessi suggerimenti originali. Stable Diffusion non è in grado di produrre quei prompt che anche un piccolo generatore di immagini come Cryon (precedentemente DALL.E mini) può produrre. Stable Diffusion è ottimo per illustrazioni artistiche complesse, ma fallisce quando si tratta di generare immagini generali come i loghi.

 

Un’altra cosa che alcuni sottolineano è che poiché Stable Diffusion è di natura illimitata, a differenza di Midjourney o DALL.E2, è stato utilizzato per generare immagini di nudo di modelli, conflitti militari e immagini di figure politiche o religiose in situazioni incongruenti. 

 

 

Stable Diffusion, tuttavia, sarebbe una pietra miliare nel mercato della generazione da testo a immagine. Poiché è open source , gli sviluppatori in futuro potranno generare strumenti più sofisticati grazie ai codici disponibili su GitHub. Quanto a quale tra loro sia il migliore, l’abilità artistica di Midjourney, le immagini realistiche di DALL E2 e l’uso illimitato di Stable Diffusion rendono tutti i modelli AI migliori in un modo o nell’altro. Alla fine, dipende dalle esigenze degli utenti. 

 

Di ihal