DALL-E è più importante di GPT-3

AI e creatività: perché è importante l’ultimo modello di OpenAI

OpenAI l’ha fatto di nuovo.

All’inizio di questo mese, OpenAI, l’organizzazione di ricerca dietro il tanto pubblicizzato modello linguistico GPT-3 della scorsa estate, ha rilasciato un nuovo modello di intelligenza artificiale chiamato DALL-E . Sebbene abbia generato meno entusiasmo rispetto a GPT-3, DALL-E ha implicazioni ancora più profonde per il futuro dell’IA.

In poche parole, DALL-E accetta i sottotitoli di testo come input e produce immagini originali come output. (Il nome è un omaggio all’artista surrealista Salvador Dalí e all’adorabile robot Pixar WALL-E.)

Ad esempio, quando vengono fornite frasi diverse come “un orologio verde pentagonale”, “una sfera di fuoco” o “un murale di una zucca blu sul lato di un edificio”, DALL-E è in grado di generare rendering visivi incredibilmente accurati . (Vale la pena dedicare qualche minuto a provare tu stesso alcuni esempi .)

Perché DALL-E è importante?

Per cominciare, fa presagire l’alba di un nuovo paradigma di AI noto come “AI multimodale” che sembra destinato a definire il futuro dell’intelligenza artificiale. I sistemi di intelligenza artificiale multimodale sono in grado di interpretare, sintetizzare e tradurre tra più modalità informative, nel caso di DALL-E, linguaggio e immagini. DALL-E non è il primo esempio di AI multimodale ma è di gran lunga il più impressionante fino ad oggi.

Il cofondatore di OpenAI Ilya Sutskever lo ha riassunto bene: “Il mondo non è solo testo. Gli esseri umani non si limitano a parlare: vediamo anche. Molti contesti importanti derivano dal guardare “.

La maggior parte dei sistemi di IA oggi esistenti tratta solo un tipo di dati. I modelli NLP (es. GPT-3) gestiscono solo testo; i modelli di visione artificiale (ad esempio, sistemi di riconoscimento facciale) gestiscono solo immagini. Questa è una forma di intelligenza molto meno ricca di quella che il cervello umano ottiene senza sforzo.

Gli esseri umani ricevono e integrano continuamente le informazioni non da uno ma da cinque sensi: comprendiamo il mondo che ci circonda attraverso una combinazione di vista, udito, tatto, olfatto e gusto. E comunichiamo le informazioni al mondo in una varietà di modi: parola, testo, linguaggio del corpo, espressione facciale, musica.

Associando una comprensione del linguaggio naturale alla capacità di generare rappresentazioni visive corrispondenti, in altre parole, essendo in grado sia di “leggere” che di “vedere”, DALL-E è una potente dimostrazione del potenziale dell’IA multimodale.

È solo l’inizio. Nei mesi e negli anni a venire, verranno costruiti sistemi di intelligenza artificiale in grado di interagire perfettamente con audio, video, parlato, immagini, testo scritto, aptica e oltre. Man mano che l’IA impara a incorporare più modalità informative in modi sempre più sofisticati, la sua capacità di comprendere il mondo e di generare nuove intuizioni esploderà in modo combinatorio.

DALL-E è importante per un motivo ancora più fondamentale: sta diventando sempre più difficile negare che l’intelligenza artificiale sia capace di creatività.

DALL-E produce immagini che non sono mai esistite al mondo né nell’immaginazione di nessuno. Non si tratta di semplici manipolazioni di immagini esistenti su Internet: sono rendering inediti, a volte mozzafiato per la loro intelligenza e originalità. Sono immagini che i creatori umani di DALL-E in molti casi non si aspettavano e non avrebbero potuto prevedere.

Considera i deliziosi e originali scarabocchi di DALL-E di “un’emoji di una ciotola di ramen innamorata” o “un pinguino di avocado”. Se queste immagini fossero create da un essere umano, non esiteremmo a considerarle l’output di un processo creativo. Siamo sicuri di poter negare questo a DALL-E?

L’output di DALL-E quando viene richiesto di creare “un pinguino di avocado”. OPENAI
Questa capacità di inventiva conferisce a DALL-E una rilevanza immediata nel mondo reale in campi come il design del prodotto, la moda e l’architettura. In poco tempo, sarà comune per i progettisti umani utilizzare l’intelligenza artificiale come DALL-E come partner di ideazione e fonte di ispirazione.

Per fare un esempio, quando viene richiesto di progettare “una poltrona nello stile di una ciambella”, DALL-E genera una varietà di opzioni fantasiose, alcune meglio progettate e più belle di altre, ovviamente. È facile immaginare un designer di mobili che si muove avanti e indietro con DALL-E, esplora i risultati del modello, itera sul prompt di testo e quindi utilizza i progetti dell’IA come punto di partenza per le sue creazioni di poltrona. Un processo creativo simile potrebbe funzionare per un numero qualsiasi di prodotti: dalle automobili alle lampade, dai gioielli alle case.

Alcune importanti avvertenze sulla tecnologia sono necessarie. DALL-E è tutt’altro che perfetto. Le immagini che genera non sono sempre rappresentazioni accurate del testo che viene alimentato: ad esempio, spesso sbaglia i colori, le quantità o le relazioni spaziali.

E gli esempi del lavoro di DALL-E che OpenAI ha reso pubblicamente disponibili, sebbene non selezionati manualmente, sono stati prima classificati e selezionati da un’altra rete neurale chiamata CLIP . Per ogni input di testo, vengono presentati solo i primi 32 campioni su 512. In altre parole, DALL-E ha generato molte altre immagini di pinguini avocado e sedie a ciambella che erano meno impressionanti.

Detto questo, le capacità generative di DALL-E sono sorprendenti e la tecnologia continuerà a migliorare rapidamente.

Come per ogni importante sviluppo dell’IA, DALL-E evoca inevitabilmente la vecchia domanda: le macchine si stanno avvicinando alla “vera” intelligenza a livello umano?

Da un lato, l’annuncio di DALL-E ha ispirato molte iperboli sull’arrivo della superintelligenza. Dall’altro, gli scettici come Gary Marcus, eminente critico del deep learning, sostengono che DALL-E non fa avanzare veramente lo stato dell’arte nell’IA.

Vale la pena prendere sul serio la prospettiva di Marcus. Il deep learning, inclusa l’architettura del trasformatore all’avanguardia dietro DALL-E e GPT-3, ha seri limiti come modello concettuale di intelligenza.

Tuttavia, in un certo senso, questo dibattito non coglie il punto. Indipendentemente dal fatto che il nuovo modello di OpenAI rappresenti o meno un vero passo verso l ‘”intelligenza artificiale generale”, sia che l’apprendimento profondo sia o meno un percorso praticabile verso un’intelligenza artificiale robusta come la cognizione umana, resta il fatto che DALL-E è un nuovo strumento con nuove straordinarie capacità.

DALL-E ei suoi successori sbloccheranno nuove possibilità nella relazione creativa tra uomo e macchina. Creerà un enorme valore economico nel processo, fungendo da base per una nuova ondata di startup e prodotti innovativi.

DALL-E è più importante di GPT-3

Diihal

Di ihal

Articoli correlati

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

ElevenLabs lancia l’app mobile per la sintesi vocale avanzata su iOS e Android

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3