Lo sviluppo di modelli di generazione del linguaggio di grandi dimensioni è uno dei campi più entusiasmanti in cui operare in questo momento poiché trova il suo utilizzo in una vasta gamma di settori: miglior servizio clienti, chatbot e assistenza virtuale, esperienza di gioco migliorata, motori di ricerca migliorati, ecc. Grandi nomi come Meta, Google, Microsoft e NVIDIA stanno investendo tempo, energia e denaro nella creazione di modelli di generazione del linguaggio di grandi dimensioni. Anche il leader dell’innovazione DeepMind, che in passato ha avuto innovazioni rivoluzionarie come Alpha Fold , Alpha Fold 2.0 ed Enformer , è uscito con qualcosa di straordinario nello spazio del modello linguistico. Ha introdotto un modello di linguaggio del trasformatore di parametri da 280 miliardi chiamato Gopher .

Supera GPT-3?
La ricerca di DeepMind ha proseguito affermando che Gopher dimezza quasi il divario di precisione dal GPT-3 alle prestazioni degli esperti umani e supera le aspettative dei previsori. Ha affermato che Gopher migliora le prestazioni rispetto agli attuali modelli linguistici all’avanguardia in circa l’81% delle attività contenenti risultati comparabili. Ciò funziona in particolare in domini ad alta intensità di conoscenza come il controllo dei fatti e la conoscenza generale. 

DeepMind ha affermato che i modelli più grandi hanno maggiori probabilità di generare risposte tossiche quando vengono forniti suggerimenti tossici. Possono anche classificare più accuratamente la tossicità. La scala del modello non migliora significativamente i risultati per aree come il ragionamento logico e le attività di buon senso. Il team di ricerca ha scoperto che le capacità di Gopher superano i modelli linguistici esistenti per una serie di compiti chiave. Ciò include il benchmark Massive Multitask Language Understanding (MMLU), in cui Gopher dimostra un progresso significativo verso le prestazioni degli esperti umani rispetto al lavoro precedente.

 Insieme a Gopher, DeepMind ha anche pubblicato altri due documenti. Uno si occupa dello studio dei rischi etici e sociali associati ai grandi modelli linguistici , e il secondo indaga una nuova architettura con una migliore efficienza formativa . 


Gopher spiegato
In un lungo articolo di 118 pagine , DeepMind si tuffa in profondità in ciò che è effettivamente Gopher. Il documento di ricerca ha aggiunto che DeepMind ha addestrato la famiglia di modelli Gopher su MassiveText, che è una raccolta di grandi set di dati di testo in lingua inglese provenienti da diverse fonti come pagine Web, libri, articoli di notizie e codice. La pipeline dei dati include il filtraggio della qualità del testo, la rimozione del testo ripetitivo, la deduplicazione di documenti simili e la rimozione di documenti con una significativa sovrapposizione di set di test. Hanno scoperto che le fasi successive di questa pipeline migliorano le prestazioni a valle del modello linguistico, sottolineando l’importanza della qualità del set di dati.

MassiveText contiene 2,35 miliardi di documenti o circa 10,5 TB di testo. Il team di ricerca ha aggiunto: “Dal momento che addestriamo Gopher su token 300B (12,8% dei token nel set di dati), sottocampioniamo da MassiveText con proporzioni di campionamento specificate per sottoinsieme (libri, notizie, ecc.) Sintonizziamo queste proporzioni di campionamento per massimizzare a valle prestazione.

La guerra dei grandi modelli linguistici
Il 2021 è stato un anno rivoluzionario per lo sviluppo di grandi modelli linguistici. 

Sappiamo tutti come percorso innovativo sede a San Francisco l’intelligenza artificiale laboratorio di ricerca GPT-3 modello di linguaggio autoregressivo Open AI è nel campo dei modelli di generazione di linguaggio. Lanciata lo scorso anno, la versione completa di GPT -3 ha una capacità di ben 175 miliardi di parametri di apprendimento automatico . Anche altri giganti della tecnologia hanno prestato attenzione a questo campo e hanno intensificato il loro gioco. AI21 Labs ha rilasciato Jurassic-1 , che ha 178 miliardi di parametri. Gopher è più grande di entrambi e si attesta su ben 280 miliardi di parametri. 

Ma non è sicuramente il più grande. Microsoft e NVIDIA hanno collaborato all’inizio di quest’anno per lanciare il modello Megatron-Turing Natural Language Generation (MT-NLG) con un sorprendente 530 miliardi di parametri. Google ha sviluppato e confrontato Switch Transformers , una tecnica per addestrare modelli linguistici, con oltre un trilione di parametri. L’Accademia di intelligenza artificiale di Pechino ( BAAI ), sostenuta dal governo cinese, ha introdotto Wu Dao 2.0 con 1,75 trilioni di parametri.

Chi vince la gara?
Nel documento di ricerca , DeepMind cerca di fare un confronto tra Gopher e i modelli esistenti. Si dice che Gopher superi l’attuale stato dell’arte per 100 attività (81% di tutte le attività). Il modello di base include modelli linguistici di grandi dimensioni come GPT-3 (175 miliardi di parametri), Jurassic-1 (parametri 178B) e Megatron-Turing NLG (530 miliardi di parametri). Hanno scoperto che Gopher ha mostrato il miglioramento più uniforme tra le categorie di comprensione della lettura, discipline umanistiche, etica, STEM e medicina. Ha anche mostrato un miglioramento generale sul fact-checking. La tendenza generale è un minor miglioramento nei compiti pesanti di ragionamento (ad esempio, l’algebra astratta) e un miglioramento più ampio e coerente nei test ad alta intensità di conoscenza (ad esempio, la conoscenza generale). 

 

Per i benchmark dei modelli linguistici, espandiamo i risultati delle prestazioni relative di Gopher rispetto all’attuale modello SOTA 178B Jurassic-1 e 175B GPT-3. Gopher non supera lo stato dell’arte in 8 compiti su 19; prestazioni inferiori su Ubuntu IRC e DM Mathematics in particolare. Ciò potrebbe essere dovuto a una scarsa rappresentazione del tokenizzatore per i numeri. Gopher dimostra una modellazione migliorata su 11 delle 19 attività, in particolare libri e articoli. Si dice che ciò possa accadere a causa dell’uso massiccio dei dati dei libri in MassiveText (proporzione di campionamento del 27% rispetto al 16% in GPT-3).

 Troppo presto per sapere quanto possa essere d’impatto Gopher

Proprio come il grande clamore creato da GPT-3 intorno al suo lancio, Gopher ha fatto lo stesso. 



Ma GPT-3, descritto come rivoluzionario da alcuni, è stato criticato anche da noti leader tecnologici. Dobbiamo ancora vedere se Gopher attirerà questo tipo di critiche dal mondo della tecnologia. Al momento è troppo presto per dirlo in quanto il modello è stato appena introdotto. 

Man mano che vengono sviluppati strumenti linguistici sempre più grandi, la necessità del momento è uno sviluppo più rapido di strumenti di interpretabilità e qualità dei dati per comprendere meglio i modelli. Solo allora i benefici di tali modelli possono essere utilizzati a beneficio della società.

Di ihal