DeepMind lancia il rivale GPT-3, Chinchilla
Chinchilla raggiunge una precisione media all’avanguardia del 67,5% sul benchmark MMLU, un miglioramento del 7% rispetto a Gopher.
I ricercatori di DeepMind hanno proposto un nuovo modello di calcolo ottimale previsto chiamato Chinchilla che utilizza lo stesso budget di calcolo di Gopher ma con 70 miliardi di parametri e 4 volte più dati.
Chinchilla supera in modo uniforme e significativo Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) e Megatron-Turing NLG (530B) su un’ampia gamma di attività di valutazione a valle. Utilizza sostanzialmente meno elaborazione per la messa a punto e l’inferenza, facilitando notevolmente l’utilizzo a valle.
Chinchilla ha mostrato un’accuratezza media all’avanguardia del 67,5% sul benchmark MMLU, un miglioramento del 7% rispetto a Gopher.
La tendenza dominante nella formazione di modelli linguistici di grandi dimensioni è stata quella di aumentare le dimensioni del modello, senza aumentare il numero di token di formazione. Il più grande trasformatore denso, MT-NLG 530B, è ora oltre 3 volte più grande dei 170 miliardi di parametri di GPT-3.
Chinchilla di DeepMind , così come la maggior parte dei modelli di grandi dimensioni esistenti , sono stati tutti addestrati per un numero comparabile di token, circa 300 miliardi. Sebbene il desiderio di addestrare questi mega-modelli abbia portato a una sostanziale innovazione ingegneristica, i ricercatori hanno affermato che la corsa all’addestramento di modelli sempre più grandi si traduce in modelli sostanzialmente sottoperformanti rispetto a quanto si potrebbe ottenere con lo stesso budget di calcolo.