Gato di DeepMind è il coltellino svizzero dei modelli di intelligenza artificiale
Gato è una politica generalista multimodale, multi-task e multi-incarnazione.
 
L’arrivo delle reti neurali profonde è stato uno spartiacque nella storia dell’intelligenza artificiale. Abbiamo fatto enormi passi avanti nella comprensione del linguaggio naturale e nel riconoscimento degli oggetti in un breve periodo. Tuttavia, non abbiamo modelli di intelligenza artificiale che facciano entrambe le cose.

 

DeepMind ha sfruttato i progressi nella modellazione del linguaggio su larga scala per creare un unico agente generalista oltre l’ambito degli output di testo. Gato è una politica generalista multimodale, multi-task e multi-incarnazione: la stessa rete con gli stessi pesi può riprodurre Atari, immagini didascalie, chat e impilare blocchi con un vero braccio robotico.

Come funziona Gato?
Per addestrare Gato, i ricercatori hanno raccolto dati da diversi compiti e modalità. I dati sono stati quindi serializzati in una sequenza piatta di token, quindi raggruppati ed elaborati da una rete neurale di trasformatori. “Sebbene qualsiasi modello di sequenza generale possa funzionare per la prossima previsione del token, abbiamo scelto un trasformatore per semplicità e scalabilità”, hanno affermato i ricercatori nel documento. I ricercatori hanno utilizzato un trasformatore di solo decoder da 1,2 miliardi di parametri con 24 strati e una dimensione di incorporamento di 2048.

Gato è addestrato su molti set di dati con informazioni sull’esperienza degli agenti in ambienti simulati e del mondo reale. Sono stati utilizzati anche set di dati di immagini e linguaggio naturale. 

Un prompt viene tokenizzato durante la fase di distribuzione per formare la sequenza iniziale. In seguito, l’ambiente fornisce la prima osservazione, tokenizzata e aggiunta alla sequenza. Successivamente, Gato campiona il vettore d’azione in modo autoregressivo. Comprende un token alla volta e, una volta che tutti i token sono stati campionati, Gato decodifica l’azione e la invia all’ambiente. L’ambiente produce quindi una nuova osservazione e il processo viene ripetuto in un ciclo. “Il modello vede sempre tutte le osservazioni e le azioni precedenti all’interno della sua finestra di contesto di 1024 token”, hanno affermato i ricercatori. 

In che modo Gato si confronta con altri modelli?
Le storie di successo di GPT-3, Gopher e Flamingo hanno ispirato i ricercatori di DeepMind a spingere i limiti dei modelli linguistici generalisti e dei modelli di linguaggio visivo generalisti.

All’inizio di quest’anno, Google ha introdotto Pathways Language Model (PaLM), basandosi sul sistema Pathways annunciato in precedenza. Il modello Transformer con solo decoder e 540 miliardi di parametri, addestrato con il sistema Pathways , è stato in grado di addestrare un singolo modello su più pod TPU v4 in modo efficiente. Con Pathways, l’obiettivo finale di Google Research è creare un modello unico che possa generalizzare su domini e attività pur essendo altamente efficiente. PaLM ha ottenuto prestazioni all’avanguardia in centinaia di attività di comprensione e generazione della lingua e, in molti casi, con margini significativi.

A gennaio, Meta AI ha rilasciato data2vec , il primo algoritmo auto-supervisionato ad alte prestazioni per modalità multiple. Il data2vec ha superato i precedenti migliori algoritmi monouso per la visione artificiale e il parlato ed è stato competitivo nelle attività di NLP. L’algoritmo segna un cambio di paradigma nell’apprendimento olistico auto-supervisionato. data2vec ci avvicina alla costruzione di macchine in grado di dare un senso al mondo. 

Gopher di DeepMind è un modello NLP da 280 miliardi di parametri basato sull’architettura Transformer e addestrato su 10,5 TB di MassiveText. Gopher ha superato l’attuale stato dell’arte su 100 attività di valutazione. Il modello è stato anche testato su benchmark NLP, tra cui Massive Multitask Language Understanding (MMLU) e BIG-bench, e le prestazioni sono state confrontate con altri modelli di base. Gopher ha mostrato un costante miglioramento nelle attività ad alta intensità di conoscenza, ma non tanto nelle attività ad alta intensità di ragionamento. Allo stesso modo di Gopher, il Generalist Language Model (GLaM) di Google è un modello di trilioni di peso che ottiene un vantaggio competitivo su più attività di apprendimento a pochi colpi . GLaM è un misto di espertimodello con diversi sottomodelli specializzati per diversi input. Raggiunge prestazioni competitive su più attività di apprendimento a pochi colpi. GLaM è stato alla pari su sette attività utilizzando un calcolo 5 volte inferiore durante l’inferenza. Le attività includevano la risposta a domande in dominio aperto, la lettura del buon senso, la comprensione della lettura nel contesto, le attività SuperGLUE e l’inferenza del linguaggio naturale.

Di ihal