Meta ha lanciato MEGALODON, un’architettura neurale progettata per gestire sequenze di lunghezza illimitata in modo più efficiente. Questo modello mira a superare i limiti dell’architettura Transformer, come la complessità computazionale e la limitata capacità di generalizzazione della lunghezza.
Nei confronti di Llama 2, MEGALODON dimostra di essere più efficiente su una scala di 7 miliardi di parametri e 2 trilioni di token di addestramento, con una perdita di addestramento di 1,70, posizionandosi tra LLAMA2-7B e LLAMA2-13B. Questi miglioramenti sono stati confermati attraverso diversi benchmark su vari compiti e modalità.
Per valutare le prestazioni di MEGALODON, sono stati condotti diversi esperimenti, tra cui il pre-addestramento su larga scala e in un contesto lungo. Il modello è stato scalato fino a 7 miliardi di parametri e applicato a modelli linguistici su larga scala con pre-addestramento su 2 trilioni di token.
MEGALODON introduce innovazioni come il componente CEMA, che estende l’EMA smorzato multidimensionale al dominio complesso, e lo strato di normalizzazione del passo temporale, che consente la normalizzazione lungo la dimensione sequenziale. Altri miglioramenti includono l’attenzione normalizzata e la pre-norma con configurazioni residue a due salti.
La complessità computazionale e di memoria di MEGALODON durante l’addestramento e l’inferenza è gestita tramite l’uso di blocchi fissi di input, noti come MEGA-chunk. Questo approccio consente un pre-addestramento efficiente e una migliore gestione dei dati.
MEGALODON è stato valutato su varie scale di modellazione del linguaggio e attività specifiche del dominio, dimostrando la sua capacità di gestire sequenze di lunghezza illimitata.
Le prestazioni di messa a punto di MEGALODON sono anche notevoli, con risultati elevati su diversi benchmark, inclusi quelli per la classificazione delle immagini e la modellazione linguistica autoregressiva.