Google rilascia un nuovo modello linguistico che prende a calci il sedere di GPT-3
 
Il modello GLaM di Google AI ottiene risultati competitivi sull’apprendimento zero-shot e one-shot.
 
Nazioni Unite e SAP per promuovere le competenze digitali e l’imprenditorialità in Karnataka
Google ha introdotto il Generalist Language Model (GLaM). È un modello di peso da trilioni che utilizza la scarsità. Non solo lo rende più efficiente in termini di formazione e servizio, ma ottiene anche un vantaggio competitivo su più attività di apprendimento di pochi colpi. In termini di prestazioni, GLaM dimostra una migliore efficienza di apprendimento attraverso 29 benchmark pubblici di PNL in sette categorie come completamento del linguaggio, risposta alle domande di dominio aperto e attività di inferenza.

Negli ultimi anni, i principali istituti di intelligenza artificiale e aziende tecnologiche hanno rilasciato diversi modelli linguistici, ciascuno più grande e più avanzato del precedente. Il lancio di GPT-3 è stato nientemeno che un momento spartiacque in questo spazio: il mondo non aveva mai visto un modello così grande con 175 parametri. GPT-3 e altri modelli simili possono eseguire attività come l’ apprendimento in pochi colpi in una vasta gamma di attività, tra cui la comprensione della lettura e la risposta alle domande con pochissimi o nessun esempio di formazione con molta facilità.

Detto questo, questa innovazione e prestazioni superiori hanno un costo. Sono computazionalmente intensivi e hanno effetti negativi sull’ambiente. I ricercatori stanno ora lavorando per sviluppare modelli che possono essere addestrati e utilizzati in modo più efficiente.

Per creare GLaM, il team di Google ha creato un set di dati di token di alta qualità da 1,6 trilioni che contiene l’uso della lingua rappresentativo di un’ampia gamma di casi d’uso Per ogni token, la rete di gating seleziona i due esperti più appropriati per elaborare i dati. La versione completa di GLaM ha 1,2 trilioni di parametri totali su 64 esperti per livello MoE con 32 livelli MoE in totale, ma attiva solo una sottorete di 97 miliardi (8% di 1,2 trilioni) di parametri per previsione token durante l’inferenza. Ogni token di input viene instradato dinamicamente a due reti esperte selezionate su 64 per la previsione. 

È un modello misto di esperti (MoE), il che significa che ha diversi sottomodelli specializzati per input diversi. Gli esperti in ogni livello sono controllati da una rete di gating. Attivano esperti in base ai dati di input. La rete di gating seleziona due esperti più appropriati per elaborare i dati per ciascun token. La versione completa di GLaM ha 1,2 trilioni di parametri totali su 64 esperti per livello MoE con 32 livelli MoE in totale, ma attiva solo una sottorete di 97 miliardi (8% di 1,2 trilioni) di parametri per previsione token durante l’inferenza. Rispetto al modello Megatron-Turing , GLaM è alla pari nelle sette rispettive attività se si utilizza un margine del 5%, mentre si utilizza 5 volte meno calcolo durante l’inferenza.

Di ihal