Scegli il tuo giocatore: DALL.E 2 o Midjourney
Se hai bisogno di un’immagine più dettagliata, con una risoluzione più elevata e sei disposto a spendere qualche dollaro, MidJourney è sicuramente la strada da percorrere.
 
Una tendenza nel mondo dell’IA che ha segnato almeno la prima metà dell’anno deve essere quella degli strumenti di generazione da testo a immagine. Non solo il mondo tecnologico, ma tutti quelli con un osso curioso nel corpo si sono precipitati a dare un’occhiata a questi strumenti. Mentre DALL.E di OpenAI lo ha avviato, presto il mercato si è riempito di strumenti simili: anche giganti come Google e Meta sono intervenuti per introdurre le proprie versioni.

Oggi confrontiamo due dei più potenti generatori di testo a immagine sul mercato – DALL.E 2 e Midjourney – con prompt identici e ci immergiamo in ciò che li rende unici.

 
Le curiosità tecniche

Quando OpenAI ha lanciato DALL·E 2 nell’aprile 2022, hanno cambiato il modo in cui il mondo percepisce l’arte dell’IA. È un modello linguistico generativo in grado di creare immagini straordinarie da istruzioni in linguaggio naturale o indizi contestuali.

DALL·E 2 è un modello grande con parametri 3.5B, ma non grande quanto GPT-3 e, cosa interessante, più piccolo del suo predecessore, DALL·E (12B). Nonostante le sue dimensioni, DALL·E 2 genera immagini con una risoluzione 4 volte superiore rispetto a DALL·E ed è preferito dai giudici umani per la corrispondenza dei sottotitoli e il fotorealismo oltre il 70 percento delle volte. CLIP (per Contrastive Language-Image Pre-training) è uno degli elementi costitutivi più importanti dell’architettura DALL·E 2, in quanto rappresenta il collegamento principale tra testo e immagini.

Il fondatore di OpenAI Sam Altman ha recentemente twittato di rendere DALL·E 2 disponibile a 1 milione di utenti. Nell’ambito di questa iniziativa , ogni utente riceverà 50 crediti gratuiti durante il primo mese di utilizzo e 15 crediti gratuiti ogni mese successivo. Gli utenti possono anche acquistare crediti in aggiunta ai crediti mensili gratuiti per 15 USD per ottenere 115 incrementi di credito nella prima fase beta. Ciascun credito può essere utilizzato per generare un prompt DALL·E 2 originale o un prompt modificato o di variazione. DALL·E 2 produce quattro immagini per ogni prompt in linguaggio naturale e tre immagini per ogni prompt di modifica e variazione.


D’altra parte, Midjourney proviene da un laboratorio di ricerca indipendente con lo stesso nome la cui missione principale è “esplorare nuovi mezzi di pensiero”. Nel 2022 hanno lanciato un servizio di conversione da testo a immagine che, a seguito di un messaggio in linguaggio naturale, genera rappresentazioni visive accurate rispetto alla descrizione. 

Prompt: Titanic colpisce l’iceberg in una notte di neve
 

Midjourney è un sistema di onboarding solo su invito che invia e riceve chiamate ai server di intelligenza artificiale tramite Discord . Quando viene emessa una query in linguaggio naturale, il bot restituisce quattro immagini a bassa risoluzione in circa 30 secondi. A questo punto, puoi generare varianti e nuove generazioni per avvicinarti all’ideazione desiderata. È possibile modificare le proporzioni del messaggio di testo con una risoluzione massima di 2048 × 1280, mentre DALL·E 2 è bloccato a una risoluzione di 1024 × 1024.

Una volta che hai scavato e trovato la tua variante preferita, puoi aumentarla e trascinarla sul tuo computer locale. Midjourney, a differenza di DALL·E 2, combina CLIP con una serie di metodi di generazione delle immagini in continua evoluzione.

Suggerimento: una ciotola di zuppa che sembra un mostro fatto di lana
Prompt: un astronauta a cavallo in uno stile fotorealistico
 

Suggerimento: orsacchiotti che mescolano sostanze chimiche scintillanti come scienziati pazzi come in un cartone animato del sabato mattina degli anni ’90
 

Pensieri finali
Dato che entrambi questi strumenti sono “in lavorazione”, scegliere un vincitore potrebbe essere difficile. DALL·E 2 è bravo con fotografie ravvicinate e oggetti discreti. Riconosce un’ampia gamma di riferimenti alla cultura pop, in particolare quelli nei media visivi o nelle opere letterarie con adattamenti cinematografici. DALL·E 2 può creare schizzi a carboncino o a matita di altissima qualità, dipinti negli stili di vari artisti famosi e cose strane come “manoscritti miniati medievali”. 


Funziona particolarmente bene con stili artistici come “pittura ad acquerello impressionista” o “schizzo a matita”, che perdonano maggiormente i difetti nei dettagli. DALL·E 2 può creare opere d’arte assolutamente sbalorditive con i giusti suggerimenti e la scelta giusta.


Midjourney può fare tutto quanto sopra e altro ancora. È eccezionale per creare scene più grandi. Tuttavia, decifrare il prompt giusto è forse la parte più difficile. 

Richiesta: fotografia aerea grandangolare; città galleggiante di Shevat
 

Alla fine, dipende da cosa vuole fare l’utente. Se hai bisogno di un’immagine più dettagliata, con una risoluzione più elevata e sei disposto a spendere qualche dollaro, Midjourney è sicuramente la strada da percorrere.

Di ihal