GPT-3 Vs BERT per attività NLP

Le 8 migliori tecniche di data mining nel machine learning
Gli immensi progressi nell’elaborazione del linguaggio naturale hanno dato origine a modelli di architettura innovativi come GPT-3 e BERT . Tali modelli pre-addestrati hanno democratizzato l’apprendimento automatico, che consente anche alle persone con un background meno tecnologico di creare applicazioni di ML in modo pratico , senza addestrare un modello da zero. Grazie alle capacità di risolvere problemi versatili come fare previsioni accurate, trasferire l’apprendimento e l’estrazione di caratteristiche, la maggior parte dei nuovi modelli di PNL sono tipicamente addestrati su una vasta gamma di dati, in miliardi.

Questi modelli pre-addestrati annullano lo scopo di addestrare un modello da zero a meno che non si sia interessati a investire molto tempo e sforzi per costruirne uno. Invece, i modelli di linguaggio come BERT possono essere facilmente ottimizzati e possono essere utilizzati per le attività richieste. Tuttavia, l’avvento di versioni più avanzate come GPT-3 ha reso il lavoro ancora più semplice per gli utenti, dove è sufficiente spiegare l’attività e con un clic è possibile creare l’applicazione desiderata. Tali progressi evidenziano le competenze all’avanguardia che portano.

Detto questo, può essere difficile per molti ottenere una comprensione completa del confronto tra questi modelli di PNL pre-addestrati – esempio calzante : GPT-3 e BERT . Non solo condividono molte somiglianze, ma anche i modelli più recenti sono sempre definiti per superare i modelli precedenti su alcuni o altri parametri. Pertanto, questo articolo comprenderà la panoramica di ciascun modello, insieme al loro confronto.

Prima di entrare nei confronti, parliamo un po ‘dei due modelli insieme ad alcuni dei loro vantaggi.

BERT
BERT, aka Bidirectional Encoder Representations from Transformers, è un modello NLP pre-addestrato sviluppato da Google nel 2018. Infatti, prima che GPT-3 rubasse il suo successo, BERT era considerato il modello più interessante per lavorare nella PNL di apprendimento profondo. Il modello, pre-addestrato su 2.500 milioni di parole Internet e 800 milioni di parole di Book Corpus, sfrutta un’architettura basata su trasformatore che gli consente di addestrare un modello in grado di eseguire a livello SOTA su varie attività. Con il rilascio, Google ha mostrato le capacità di BERT su 11 attività NLP, incluso il set di dati QA competitivo di Stanford.

Caratteristiche e obiettivi chiave:
Di natura bidirezionale.
Con BERT , gli utenti possono addestrare i propri modelli di risposta alle domande in circa 30 minuti su un singolo Cloud TPU e in poche ore utilizzando una singola GPU.
Viene fornito con applicazioni significative come Google Docs, Gmail Smart Compose ecc.
Ottenuto un punteggio GLUE (General Language Understanding Evaluation) dell’80,4% e una precisione del 93,3% sul set di dati SQuAD.
Applicazioni:
Assistenza vocale con una migliore esperienza del cliente
Analisi delle recensioni dei clienti
Ricerca avanzata delle informazioni richieste
GPT-3
Superando le capacità e l’accuratezza dei modelli precedenti, OpenAI ha creato uno dei modelli PNL pre-addestrati più controversi: GPT-3 , dopo la sua grave battuta d’arresto con GPT-2. Simile a BERT , GPT-3 è anche un modello di linguaggio basato su trasformatore su larga scala, addestrato su 175 miliardi di parametri ed è 10 volte superiore rispetto ai modelli precedenti. L’azienda ha messo in mostra le sue straordinarie prestazioni per attività come traduzione, domande e risposte e riordino di parole. Questo modello di previsione del linguaggio di terza generazione è di natura autoregressiva e funziona come i modelli tradizionali in cui prende le parole del vettore di input e prevede gli output in base alla sua formazione. Con l’apprendimento automatico non supervisionato e l’apprendimento pochi colpi, questo modello funziona nel contesto.

Caratteristiche e obiettivi chiave:
Di natura autoregressiva.
GPT-3 mostra come un modello di linguaggio addestrato su una vasta gamma di dati può risolvere varie attività di PNL senza messa a punto.
Può essere applicato per scrivere notizie, generare articoli e codici.
Ottenuto un punteggio di 81,5 F1 su benchmark di risposta a domande conversazionali in apprendimento zero-shot; 84.0 F1 in apprendimento one-shot; e 85.0 F1 nell’apprendimento con pochi colpi.
Accuratezza del 64,3% sul benchmark TriviaAQ e precisione del 76,2% su LAMBADA, con apprendimento zero-shot.
Applicazioni:
Per la creazione di applicazioni e siti Web
Per generare codice ML
Scrittura di articoli e podcast
Per documenti legali e generazione di curriculum
BERT vs GPT-3: il giusto confronto
Entrambi i modelli – GPT-3 e BERT sono stati relativamente nuovi per il settore, ma le loro prestazioni all’avanguardia li hanno resi vincitori tra gli altri modelli nel campo dell’elaborazione del linguaggio naturale. Tuttavia, essendo addestrato su 175 miliardi di parametri, GPT-3 diventa 470 volte più grande di BERT-Large.

In secondo luogo, mentre BERT richiede un elaborato processo di messa a punto in cui gli utenti devono raccogliere dati di esempi per addestrare il modello per attività a valle specifiche, l’API di testo in entrata e in uscita di GPT-3 consente agli utenti di riprogrammarlo utilizzando le istruzioni e accedervi . Caso in questione: per le attività di analisi del sentiment o di risposta alle domande, per utilizzare BERT, gli utenti devono addestrare il modello su un livello separato sulle codifiche delle frasi. Tuttavia, GPT-3 utilizza un processo di apprendimento a pochi colpi sul token di input per prevedere il risultato di output.

Nelle attività generali di PNL come la traduzione automatica, la risposta a domande, i calcoli aritmetici complicati o l’apprendimento di nuove parole, GPT-3 funziona perfettamente condizionandolo con alcuni esempi: apprendimento in pochi passaggi. Allo stesso modo, anche per la generazione di testo, GPT-3 funziona su pochi prompt per sfornare rapidamente output rilevanti, con una precisione di circa il 52%. OpenAI, semplicemente, aumentando le dimensioni del modello e dei suoi parametri di allenamento ha creato un potente mostro di un modello.


Considerando che, per comprendere il contesto della parola, BERT è addestrato a mascherare i compiti del modello linguistico, dove maschera casualmente il 15% delle parole in ciascuna sequenza per prevedere il risultato. Allo stesso modo, per la previsione della frase, BERT viene alimentato con una coppia di frasi come input e quindi viene addestrato su un compito ausiliario aggiuntivo per la previsione. Qui elabora entrambe le frasi coinvolte per prevedere un’etichetta binaria della previsione della frase.

Sulla dimensione dell’architettura, mentre BERT è addestrato su sfide di relazione latente tra il testo di diversi contesti, l’approccio formativo GPT-3 è relativamente semplice rispetto a BERT. Pertanto, GPT-3 può essere una scelta preferita per attività in cui non sono disponibili dati sufficienti, con una gamma più ampia di applicazioni. Sebbene il trasformatore includa due meccanismi separati: codificatore e decodificatore, il modello BERT funziona solo sui meccanismi di codifica per generare un modello di linguaggio; tuttavia, il GPT-3 combina la codifica e il processo di decodifica per ottenere un decodificatore del trasformatore per la produzione di testo.

Sebbene GPT-3 sia disponibile in commercio tramite un’API, ma non open source, BERT è stato un modello open source sin dal suo inizio che consente agli utenti di ottimizzarlo in base alle loro esigenze. Mentre GPT3 genera output un token alla volta, BERT, d’altra parte, non è autoregressivo, quindi utilizza un contesto bidirezionale profondo per prevedere il risultato sull’analisi del sentiment e sulla risposta alle domande.


BERT ha avuto un clamore sensazionale quando Google l’ha rilasciato; tuttavia, l’hype intorno al modello GPT-3 ha completamente oscurato le capacità di BERT. Molto di questo potrebbe essere attribuito al fatto che, a differenza di BERT, GPT-3 di OpenAI non richiede un’enorme quantità di dati per l’addestramento. Un progresso così considerevole per un modello di linguaggio ha travolto i data scientist come nessun altro strumento, almeno per ora.

Di ihal