Dove c’è più “Io” in “AI”? 
GPT-3 ha scritto articoli di notizie e poesie, prodotto libri in 24 ore, creato nuovi contenuti da autori deceduti e persino scritto come Chetan Bhagat, un famoso autore indiano.
 
Il mese scorso, un gruppo di redattori di Cosmopolitan, insieme all’artista digitale Karen X. Cheng e ai membri del laboratorio di ricerca sull’intelligenza artificiale OpenAI, hanno creato la prima copertina di una rivista in assoluto progettata dall’intelligenza artificiale. Questa è la prima copertina di una rivista generata utilizzando DALLE-2. 


Recentemente, il GPT-3 di OpenAI ha anche pubblicato una tesi di ricerca su se stesso. È elencato come uno dei principali autori del documento: “Gpt Generative Pretrained Transformer”, oltre ad Almira Osmanovic Thunström e Steinn Steingrimsson. 

 
In passato, ci sono stati diversi casi in cui GPT è stato in grado di creare testo simile a quello umano. Ha scritto articoli di notizie e poesie, prodotto libri in 24 ore , creato nuovi contenuti da autori deceduti e persino scritto come Chetan Bhagat , un famoso autore indiano. 

All’inizio, queste cose sembrano piuttosto intriganti. Tuttavia, richiede chiarezza sulla sua credibilità e sul possibile aggiramento delle restrizioni sull’uso commerciale del lavoro su cui potrebbero essere addestrati DALLE-2 e GPT-3 di OpenAI. 

Ci porta anche a porre una domanda più grande su dove si trova più “io” nell’IA? Dovrebbe essere dato a GPT-3 o DALLE-2 così tanto credito se sono stati gli esseri umani a pensare (dare suggerimenti), insieme alle questioni relative alla composizionalità, ai pregiudizi e ad altri? Dove tracciamo la linea? 

Teoria del Cosmo 
Cheng ha detto che c’era un sacco di coinvolgimento umano e processo decisionale. “Mentre ogni tentativo richiede solo 20 secondi per essere generato, ci sono voluti centinaia di tentativi. Ore e ore di richieste generate e perfezionate prima di ottenere l’immagine perfetta”, ha aggiunto. 

Ha detto che la reazione naturale è temere che l’IA sostituirà gli artisti umani, un pensiero che le è passato anche per la mente. Tuttavia, lavorare con DALL.E ha rimosso tutti questi dubbi. Ha detto che invece di un sostituto, DALL.E si presenta come uno “strumento da suonare” per gli umani.

Lo ha paragonato all’apprendimento di uno strumento musicale: migliorerai con la pratica. Cheng afferma di aver trascorso oltre 100 ore a “giocare” con lo strumento; ora è abile nel riconoscere le parole chiave corrette per generare un’immagine specifica. Ha anche detto di aver conversato con artisti DALL-E su Twitter/Discord. “Ho imparato da altri artisti che potevi chiedere angoli di ripresa specifici. Stiamo tutti cercando di capire insieme come suonare questo bellissimo nuovo strumento”, ha aggiunto.

Non così intelligente come pensi

I leader dell’IA sembrano essere d’accordo, quando hanno affermato che DALL-E non è così intelligente come sembri pensare. Citando il lavoro di Meta su Aversarial NLI (2019), Gary Marcus ed Elliot Murphy , nel loro ultimo post sul blog, hanno affermato che un’attenzione inadeguata a tre fattori, vale a dire riferimento, modello cognitivo e composizionalità, ha gravi conseguenze. 

I modelli linguistici di grandi dimensioni tendono a perdere coerenza nel tempo, alla deriva in un linguaggio “vuoto” senza una chiara connessione con la realtà
La difficoltà di LLM nel distinguere la verità dalle falsità
La lotta per evitare di perpetuare pregiudizi e discorsi tossici
 

Il duo ritiene che nessuno di questi tre problemi sia stato risolto, riferendosi al lavoro di Gottlob Frege (del XIX secolo). Ad esempio, c’è ancora un dibattito su quanto il nostro linguaggio quotidiano usa si basi sulla composizionalità e su quali dovrebbero essere i giusti modelli cognitivi del linguaggio. Hanno aggiunto che la linguistica ha molto da offrire in termini di formulazione e riflessione su queste domande. 

Marcus e Murphy hanno affermato che la composizione è stata a lungo un concetto centrale nella linguistica e nella filosofia, eppure i cosiddetti modelli di base – tra cui GPT-3, BERT, ecc. – lo aggirano. Inoltre, hanno affermato che la composizionalità non è la stessa di ciò che un editor di foto potrebbe chiamare compostaggio. 

Hanno detto che quando a DALL-E viene richiesto di generare un’immagine con un cubo blu sopra un cubo rosso, lo strumento mette insieme quelle parole ma mostra un certo grado di cecità alle parti. Ad esempio, può produrre un’immagine sia con un cubo blu che con un cubo rosso, ma può posizionare quello rosso sopra l’altro cubo.

 Ciò significa che mentre il sistema combina gli elementi, aggiungendoli all’immagine di output, perde la composizionalità che cattura la relazione tra quegli elementi.


È affascinante vedere modelli di apprendimento automatico come GPT-3 e DALLE-2 guadagnare un’immensa popolarità con casi d’uso e applicazioni emergenti. Tuttavia, c’è ancora molta strada da fare su come si svolgono queste cose, in cui non solo affronta tutti i fattori relativi alla composizione, all’eliminazione dei pregiudizi e altri, ma anche alla chiarezza sul suo utilizzo commerciale. 

Di ihal