Meta MEGALODON: Architettura Neurale per sequenze di lunghezza illimitata pronta a superare i Transformer

DiFantasy

Apr 16, 2024

Meta ha lanciato MEGALODON, un’architettura neurale progettata per gestire sequenze di lunghezza illimitata in modo più efficiente. Questo modello mira a superare i limiti dell’architettura Transformer, come la complessità computazionale e la limitata capacità di generalizzazione della lunghezza.

Nei confronti di Llama 2, MEGALODON dimostra di essere più efficiente su una scala di 7 miliardi di parametri e 2 trilioni di token di addestramento, con una perdita di addestramento di 1,70, posizionandosi tra LLAMA2-7B e LLAMA2-13B. Questi miglioramenti sono stati confermati attraverso diversi benchmark su vari compiti e modalità.

Per valutare le prestazioni di MEGALODON, sono stati condotti diversi esperimenti, tra cui il pre-addestramento su larga scala e in un contesto lungo. Il modello è stato scalato fino a 7 miliardi di parametri e applicato a modelli linguistici su larga scala con pre-addestramento su 2 trilioni di token.

MEGALODON introduce innovazioni come il componente CEMA, che estende l’EMA smorzato multidimensionale al dominio complesso, e lo strato di normalizzazione del passo temporale, che consente la normalizzazione lungo la dimensione sequenziale. Altri miglioramenti includono l’attenzione normalizzata e la pre-norma con configurazioni residue a due salti.

La complessità computazionale e di memoria di MEGALODON durante l’addestramento e l’inferenza è gestita tramite l’uso di blocchi fissi di input, noti come MEGA-chunk. Questo approccio consente un pre-addestramento efficiente e una migliore gestione dei dati.

MEGALODON è stato valutato su varie scale di modellazione del linguaggio e attività specifiche del dominio, dimostrando la sua capacità di gestire sequenze di lunghezza illimitata.

Le prestazioni di messa a punto di MEGALODON sono anche notevoli, con risultati elevati su diversi benchmark, inclusi quelli per la classificazione delle immagini e la modellazione linguistica autoregressiva.

Meta MEGALODON: Architettura Neurale per sequenze di lunghezza illimitata pronta a superare i Transformer

DiFantasy

Di Fantasy

Articoli correlati

Adobe Firefly AI trasforma la produzione video con suoni personalizzati

Naver Place introduce la ricerca visiva AI dei luoghi

Loveable, l’unicorno europeo del vibe coding

You missed

Adobe Firefly AI trasforma la produzione video con suoni personalizzati

Naver Place introduce la ricerca visiva AI dei luoghi

Loveable, l’unicorno europeo del vibe coding

Claude Code di Anthropic: restrizioni inaspettate e confusione tra gli utenti