GPT-3 è fantastico. Ma non senza difetti

In che modo ML aiuta lo sviluppo dei vaccini Covid-19
La terza generazione del trasformatore di pre-allenamento generativo di OpenAI – GPT-3 – è stata molto di recente negli ultimi tempi e molti esperti l’hanno elogiata per la sua capacità intuitiva di scrivere testo e persino codice. D’altra parte, altri hanno sottolineato i limiti del modello GPT-3, tra cui Sam Altman, il fondatore di Open AI.

GPT-3 è addestrato su enormi set di dati che coprivano l’intero web e conteneva token da 500B, enormi parametri di 175 miliardi, un aumento di oltre 100 volte rispetto a GPT-2, che era considerata una tecnologia all’avanguardia con 1,5 miliardi di parametri.

Nonostante tutti gli sviluppi, il GPT-3 di OpenAI è ancora in fase sperimentale. Sebbene abbia un’eccellente capacità di generare linguaggio in tutti i tipi di stili, ci sono problemi che gli esperti hanno sottolineato. Se guardi al modello linguistico, c’è sicuramente molto clamore, che sta minando anche i suoi limiti. Anche il CEO di OpenAI, Sam Altman, ha twittato dicendo che “l’hype GPT-3 è decisamente troppo … L’AI cambierà il mondo, ma GPT-3 è solo uno sguardo molto presto.”

Qui discutiamo alcune delle limitazioni di GPT-3 che devono ancora essere affrontate:

Mancanza di comprensione semantica


Secondo molte persone, GPT-3 non ha alcuna comprensione delle parole che sfornano, mancando di una rappresentazione semantica del mondo reale. Suggerisce che GPT-3 è privo di puro buon senso e, quindi, può essere ingannato nel generare testo che è errato o addirittura razzista, sessista e incredibilmente di parte. Lo stesso GPT-3, come la maggior parte dei modelli di rete neurale, è una scatola nera in cui è impossibile capire perché prende le sue decisioni.

Gli esperti affermano che GPT-3 ha la stessa architettura di GPT-2 e l’unica differenza è l’ampia scala. GPT-3 soffre di simili svantaggi di non comprendere la sensibilità e la coerenza del mondo reale, come il suo predecessore GPT-2.

Lontano da AGI

Molti professionisti dell’IA hanno argomentato che il modello non è altro che un grande trasformatore. L’impressionante generazione di testo è dovuta solo alla scala e al numero di risorse coinvolte nella massiccia pre-formazione.

Secondo Ayush Sharma, un professionista dell’IA, GPT-3 può essere impressionante; non sono nemmeno vicini all’intelligenza generale artificiale (AGI). Ciò è dovuto al fatto che non ha una comprensione semantica, nessun ragionamento causale e una scarsa generalizzazione al di là del set di addestramento, e quindi non ha “agenti umani” come proprietà come una teoria della mente o agenzia.

Ha scritto : “GPT-3 ha una scarsa comprensione semantica, non è affatto vicino all’AGI ed è un glorificato software da $ 10 milioni + auto-complete. Come nel caso di tutti i modelli di linguaggio generativo, GPT-3 assegna le probabilità a stringhe di token e predice il prossimo probabile insieme di parole dato un prompt. Resta un auto-completamento glorificato che ha il supporto del repository di conoscenza a livello di Internet insieme alla magia della PNL di base. “

Secondo un documento di ricerca , esiste una ricerca sostanziale che modelli linguistici come GPT-3 e hype intorno a tali modelli non dovrebbero indurre in errore le persone a pensare che i modelli linguistici siano in grado di comprendere o significato.

Distorsione nel testo generato

La generazione di testo GPT-3 è distorta dal punto di vista razziale e ci sono stati molti casi in cui le persone hanno pubblicato come può essere altamente irresponsabile in termini di generazione di testo. Secondo Jerome Pesenti, capo dell’intelligenza artificiale di Facebook, GPT-3 è sorprendente e creativo, ma è anche pericoloso a causa di pregiudizi dannosi. Viene richiesto di scrivere tweet da una sola parola – ebrei, neri, donne, olocausto – e GPT-3 ne sono usciti (di seguito). Dobbiamo lavorare di più sull’IA responsabile prima di mettere in produzione modelli NLG, ha twittato .

Perfino OpenAI ammette che i suoi modelli API mostrano distorsioni nel documento GPT-3 e saranno visti spesso nel testo generato. Poiché il modello viene addestrato sul World Wide Web, è una rappresentazione in tempo reale delle opinioni delle persone su Internet, e queste opinioni possono essere a volte grossolane e persino razziste.


“Non credo che GPT-3 sia un nuovo paradigma o una tecnologia avanzata indistinguibile dalla magia. GPT-3 e le API OpenAI sui social media non mostrano potenziali insidie ​​con il modello e l’API ”, ha scritto Max Woolf, Data Scientist di BuzzFeed sul suo blog Medium.

Max ha anche indicato i video dimostrativi e ha affermato che il modello è basso e può richiedere del tempo prima che l’output torni. Il problema con la latenza del modello può creare un’esperienza insoddisfacente per gli utenti. Dato che ci sono 175 miliardi di parametri, il modello GPT-3 dovrebbe essere un po ‘lento e ci sono sfide hardware anche con la formazione di un modello così grande.

“Non biasimo OpenAI per la lentezza. Il modello è troppo grande per adattarsi a una GPU per la distribuzione. Nessuno sa come GPT-3 sia effettivamente distribuito sui server OpenAI e quanto possa ridimensionare ”, ha scritto Max.

Problema con l’approccio ML Approach per il linguaggio naturale

Mentre lo stato attuale delle funzioni nella PNL è che enormi modelli di linguaggio neurale, come BERT o GPT-3, stanno facendo progressi significativi in ​​una vasta gamma di compiti, altri esperti potrebbero non essere d’accordo. Secondo loro, potrebbero esserci anche esagerazioni causate da un fraintendimento del rapporto tra forma linguistica e significato delle parole.

Walid Saba, scienziato della NLU e co-fondatore di Ontologoik.AI ha scritto : “Gli approcci basati sui dati / MLL alla PNL / NLU non porteranno (non lo faranno mai) a sistemi che comprendono veramente il linguaggio naturale e la prova teorica / tecnica di questa affermazione esiste per coloro che ascoltano la scienza “. Walid lo ha elaborato parlando dei trasformatori Automodel su Huggingface e ha affermato che la demo del modello dovrebbe essere eliminata perché può essere fatta apparire oltre lo sciocco in pochi secondi.

La ricerca ha sottolineato il fatto che i compiti di modellizzazione del linguaggio non possono portare all’apprendimento del vero significato delle parole (da parte della PNL) perché usano solo la forma delle parole come dati di formazione. D’altro canto, il significato linguistico riguarda la relazione tra una forma linguistica e l’intento comunicativo. Pertanto, gli approcci di apprendimento automatico basati sui dati non porteranno a sistemi che comprendono veramente il linguaggio naturale.

Di ihal