Turing NLG, GPT-3 e Wu Dao 2.0: incontra chi è chi dei modelli linguistici

In questo articolo, confrontiamo tre enormi modelli linguistici per scoprire se la teoria “più grande è, meglio è”.

La modellazione del linguaggio implica l’uso di tecniche statistiche e probabilistiche per determinare la probabilità di una data sequenza di parole in una frase. Per fare previsioni sulle parole, i modelli linguistici analizzano i dati di testo precedenti. La modellazione linguistica viene solitamente utilizzata in applicazioni come traduzioni automatiche e attività di domande e risposte. Molti ricercatori e sviluppatori che lavorano alla creazione di modelli linguistici robusti ed efficienti ipotizzano che modelli più grandi, formati su un numero maggiore di parametri, producano risultati migliori. In questo articolo, confrontiamo tre enormi modelli linguistici per scoprire se la teoria è valida.

Turing NLG
Microsoft ha introdotto Turing NLG all’inizio del 2020. A quel tempo, deteneva il primato di essere il modello più grande mai pubblicato, con 17 miliardi di parametri. Un modello di linguaggio generativo basato su Transformer, Turing NLG o T-NLG fa parte del progetto Turing di Microsoft, annunciato nel 2020.

Registrati al nostro prossimo webinar sulle piattaforme dati

T-NLG può generare parole per completare attività testuali aperte e frasi non finite. Microsoft ha affermato che il modello può generare risposte dirette alle domande e riassumere i documenti. Il team dietro T-NLG ritiene che più grande è il modello, migliori sono le prestazioni con meno esempi di addestramento. È anche più efficiente addestrare un grande modello multi-task centralizzato piuttosto che un nuovo modello per ogni attività individualmente.

T-NLG è addestrato sullo stesso tipo di dati del Megatron-LM di NVIDIA e ha un tasso di apprendimento massimo di 1,5 × 10 ^ -4. Microsoft ha utilizzato DeepSpeed, addestrato su 256 GPU NVIDIA per un addestramento più efficiente di modelli di grandi dimensioni con meno GPU.

GPT-3
Nel luglio dello scorso anno, OpenAI ha rilasciato GPT-3, un modello linguistico autoregressivo addestrato su set di dati pubblici con 500 miliardi di token e 175 miliardi di parametri, almeno dieci volte più grande dei precedenti modelli linguistici non rari. -2 è stato addestrato su appena 1,5 miliardi di parametri.

GPT-3 viene applicato senza alcun aggiornamento del gradiente o messa a punto. Raggiunge ottime prestazioni su molti set di dati NLP e può eseguire attività come traduzione, domanda-risposta, ragionamento e operazioni aritmetiche a 3 cifre.

Il modello linguistico di OpenAI ha ottenuto risultati promettenti nelle impostazioni zero-shot e one-shot e occasionalmente ha superato i modelli all’avanguardia nell’impostazione pochi-shot.

GPT-3 ha molte applicazioni diverse, tra cui:

Il Guardian ha pubblicato un intero articolo scritto utilizzando GPT-3 intitolato “Un robot ha scritto l’intero articolo. Hai ancora paura, umano?” La nota a piè di pagina diceva che al modello sono state date istruzioni specifiche sul conteggio delle parole, sulla scelta della lingua e su un breve prompt.
Un cortometraggio di circa 4 minuti – Solicitors è stato scritto da GPT-3.
È stato scoperto che un bot alimentato da GPT-3 interagisce con le persone in un thread Reddit .
La reazione dell’industria nei confronti del GPT-3 è stata mista. Il modello linguistico ha suscitato controversie sui pregiudizi intrinseci, la tendenza a diventare canaglia quando lasciato a se stesso e le sue capacità esagerate. 

Wu Dao 2.0
Wu Dao 2.0 è l’ultima offerta della Beijing Academy of Artificial Intelligence (BAAI), sostenuta dal governo cinese. È l’ultimo e il più grande modello linguistico fino ad oggi con 1,75 trilioni di parametri. Ha superato i modelli precedenti come GPT-3, Switch Transformer di Google in termini di dimensioni. A differenza di GPT-3 , Wu Dao 2.0 copre sia il cinese che l’inglese con competenze acquisite studiando 4,9 terabyte di testi e immagini, inclusi 1,2 terabyte di testi cinesi e inglesi.

Può eseguire attività come simulare discorsi, scrivere poesie, comprendere immagini e persino generare ricette. Può anche prevedere le strutture 3D di proteine ​​come AlphaFold di DeepMind. Il primo studente virtuale cinese Hua Zhibing è stato costruito su Wu Dao 2.0.

 Wu Dao 2.0 è stato addestrato con FastMoE, un Fast Mixture-of-Expert (sistema di addestramento). FastMoE è un sistema open source basato su PyTorch simile a Mixture of Experts di Google. Offre un’interfaccia gerarchica per la progettazione flessibile del modello e una facile adozione per applicazioni come Transformer-XL e Megatron-LM .

I modelli più grandi sono migliori?
Le dimensioni dei modelli linguistici sono in aumento. Si presume che i modelli più grandi siano migliori nel generalizzare e nell’avvicinarci all’intelligenza generale artificiale.

L’ex ricercatrice di Google AI Timnit Gebru ha dettagliato i rischi associati ai modelli linguistici di grandi dimensioni nel suo controverso articolo “Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi?”. Il documento sosteneva che sebbene questi modelli fossero straordinariamente buoni e potessero produrre risultati significativi, comportano rischi come enormi impronte di carbonio.

Facendo eco a sentimenti simili, ha detto Yann LeCun di Facebook : “È divertente e forse leggermente utile come aiuto creativo. Ma cercare di costruire macchine intelligenti ampliando i modelli linguistici è come costruire aeroplani ad alta quota per andare sulla luna. Potresti battere i record di altitudine, ma andare sulla luna richiederà un approccio completamente diverso”.

Tutti e tre i modelli linguistici discussi sono stati introdotti nell’arco di appena un anno e mezzo. Le comunità di ricercatori di tutto il mondo si stanno preparando per sviluppare il prossimo modello linguistico “più grande” per raggiungere un’efficienza senza precedenti nell’esecuzione dei compiti e avvicinarsi al Santo Graal dell’AGI. Tuttavia, la domanda persistente qui è se questo sia il modo giusto per raggiungere l’AGI, soprattutto di fronte a rischi che includono pregiudizi, discriminazione e costi ambientali.

Di ihal