I modelli di generazione dell’IA da testo a immagine sono molto popolari in questi giorni.

Quando OpenAI ha annunciato Dall-E2 , Internet era in delirio.

Poco dopo, Google ha annunciato che sta costruendo il proprio strumento di intelligenza artificiale da testo a immagine chiamato Imagen .

Ma anche prima che Imagen raggiunga una fase beta privata, Google ha annunciato un altro strumento di intelligenza artificiale che sostanzialmente fa la stessa cosa: esegue il rendering di immagini iperrealistiche da brevi input testuali.

Il nuovo strumento si chiama Parti che sta per Pathways Autoregressive Text-to-Image.


Google Parti Tweet di Google AI
Parliamo di alcune cose.

Che cos’è Google Parti e come funziona?
In cosa è diverso da Google Imagen?
Come si confronta con Dall-E2 e MidJourney di OpenAI?
 
Che cos’è Google Parti?
Parti è un modello di generazione di intelligenza artificiale da testo a immagine che accetta un semplice messaggio di testo da un utente e genera immagini iperrealistiche con il suo codificatore-decodificatore in grado di scalare fino a 20 miliardi di parametri.

Dai un’occhiata a come è in grado di generare il seguente insieme di immagini con lo stesso prompt di testo ma parametri variabili.

Prompt: una foto di un astronauta a cavallo nella foresta. C’è un fiume di fronte a loro con le ninfee.

Screenshot da Google Parti
Guardando queste immagini, è chiaro che man mano che i modelli vengono ingranditi, anche l’immagine risultante migliora.
 
In cosa differisce da Google Imagen e Dall-E2?
Imagen di Google e DALL·E 2 di OpenAI sono modelli di diffusione. Google Parti, invece, segue un modello autoregressivo.

Secondo gli ingegneri di Google, autoregressivo e diffusione sono modelli generativi complementari e stanno esplorando nuove idee che combinano il meglio di entrambi i modelli.

Il nostro obiettivo è portare nel mondo le esperienze degli utenti basate su questi modelli in un modo sicuro e responsabile che ispiri la creatività.
Ma indipendentemente dall’architettura e dal metodo di formazione, il risultato finale è lo stesso: questi modelli genereranno immagini surreali e dettagliate basate sull’input di testo descrittivo dell’utente.
 
Come si confronta con Dall-E2 e MidJourney di OpenAI?
Poiché Parti non è ancora disponibile per l’accesso pubblico, ho preso un messaggio di testo da una foto generata campione nel sito Web di Parti e ho utilizzato lo stesso prompt per generare immagini in Dall-E2 e MidJourney.

Ecco il prompt.

Un castoro dignitoso con gli occhiali, un gilet e una cravatta colorata. Si trova accanto a un’alta pila di libri in una biblioteca. foto dslr.

Chi pensi che abbia interpretato meglio?

Per me, Google Parti ha fatto meglio. È follemente realistico e sembra molto meglio della sua concorrenza.

Un’area minore in cui penso che sia leggermente incasinato è il braccio destro sulla pila di libri. Ma a parte questo, ha funzionato abbastanza bene, specialmente con la sfocatura della profondità aggiunta.

Dall-E2 è riuscito a creare anche un castoro realistico ma la cravatta non è troppo colorata e il riflesso negli occhiali è un po’ incasinato.

Il risultato di MidJourney sembra più un peluche che uno reale. Inoltre non è in piedi accanto a un’alta pila di libri e la cravatta non è colorata.
 
Pensieri finali
Nel complesso, Parti di Google sembra molto promettente.

Sono passati solo un paio d’anni da quando il generatore di immagini AI è diventato una cosa e finora ha fatto notevoli miglioramenti in termini di qualità dei risultati.

Immagino che un giorno gli strumenti di intelligenza artificiale da testo a immagine diventeranno così avanzati da essere in grado di creare immagini indistinguibili dalla vita reale.

Le possibilità di questo strumento sono infinite e possiamo solo immaginare cosa riserverà il futuro per questa straordinaria tecnologia.

di Jim Clyde Monge da medium.com


 

Di ihal

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi