DeepMind Chinchilla

Diihal

Apr 15, 2022

DeepMind lancia il rivale GPT-3, Chinchilla
Chinchilla raggiunge una precisione media all’avanguardia del 67,5% sul benchmark MMLU, un miglioramento del 7% rispetto a Gopher.

I ricercatori di DeepMind hanno proposto un nuovo modello di calcolo ottimale previsto chiamato Chinchilla che utilizza lo stesso budget di calcolo di Gopher ma con 70 miliardi di parametri e 4 volte più dati.

Chinchilla supera in modo uniforme e significativo Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) e Megatron-Turing NLG (530B) su un’ampia gamma di attività di valutazione a valle. Utilizza sostanzialmente meno elaborazione per la messa a punto e l’inferenza, facilitando notevolmente l’utilizzo a valle.

Chinchilla ha mostrato un’accuratezza media all’avanguardia del 67,5% sul benchmark MMLU, un miglioramento del 7% rispetto a Gopher.

La tendenza dominante nella formazione di modelli linguistici di grandi dimensioni è stata quella di aumentare le dimensioni del modello, senza aumentare il numero di token di formazione. Il più grande trasformatore denso, MT-NLG 530B, è ora oltre 3 volte più grande dei 170 miliardi di parametri di GPT-3.
Chinchilla di DeepMind , così come la maggior parte dei modelli di grandi dimensioni esistenti , sono stati tutti addestrati per un numero comparabile di token, circa 300 miliardi. Sebbene il desiderio di addestrare questi mega-modelli abbia portato a una sostanziale innovazione ingegneristica, i ricercatori hanno affermato che la corsa all’addestramento di modelli sempre più grandi si traduce in modelli sostanzialmente sottoperformanti rispetto a quanto si potrebbe ottenere con lo stesso budget di calcolo.

DeepMind Chinchilla

Diihal

Di ihal

Articoli correlati

Arriva ModernBERT per l’elaborazione dell’NLP

Wayve AI LINGO-2: semplificare la guida autonoma con il linguaggio naturale

DUS Depth-Up Scaling rivoluzionario approccio per lo sviluppo di modelli linguistici avanzati

Ultimi Post

Thinking Machines rilascia Inkling, modello multimodale open-weight da 975 miliardi di parametri

OpenAI presenta Codex Micro, il controller fisico per gestire gli agenti di programmazione

La moltiplicazione dei prodotti AI di Google rende più complessa la scelta degli strumenti per gli sviluppatori

OpenAI sviluppa GPT-Red per automatizzare gli attacchi di sicurezza contro i modelli di intelligenza artificiale