Sepp Hochreiter introduce xLSTM per superare i limiti nell’AI dei transformer

DiFantasy

Mag 8, 2024

Sepp Hochreiter, noto per aver creato LSTM, ha presentato una nuova architettura chiamata xLSTM, ovvero Extended Long Short-Term Memory. Questa innovazione risolve una limitazione chiave dei precedenti modelli LSTM, che non erano in grado di elaborare tutte le informazioni contemporaneamente a causa della loro natura sequenziale.

A differenza degli LSTM, che hanno alcuni svantaggi rispetto ai Transformers, come la capacità limitata di rivedere le decisioni di archiviazione e la mancanza di parallelizzabilità, i Transformer sono in grado di eseguire operazioni in parallelo tra i token, rendendoli più efficienti.

I principali componenti della nuova architettura xLSTM includono una memoria a matrice per LSTM, che elimina il mixaggio della memoria e il gating esponenziale. Queste modifiche consentono all’LSTM di rivedere la propria memoria in modo più efficace durante l’elaborazione di nuovi dati.

xLSTM ha una complessità temporale e di memoria molto migliore rispetto ai Transformers, rendendolo più efficiente. Nei test comparativi, xLSTM[1:0] ha ottenuto i migliori risultati tra vari modelli addestrati su grandi quantità di testo.

Un aspetto importante di xLSTM è il rapporto flessibile tra blocchi MLSTM e SLSTM. MLSTM può operare su tutti i token contemporaneamente, simile ai Transformers, mentre SLSTM migliora la capacità di tracciamento dello stato ma rallenta l’addestramento e l’inferenza.

L’architettura xLSTM supera i modelli all’avanguardia come i Transformers nella modellazione del linguaggio. I modelli xLSTM più grandi potrebbero diventare competitivi con i modelli linguistici attuali costruiti con la tecnologia Transformer e potrebbero influenzare altri campi del deep learning come l’apprendimento per rinforzo e la previsione delle serie temporali.

Sepp Hochreiter introduce xLSTM per superare i limiti nell’AI dei transformer

DiFantasy

Di Fantasy

Articoli correlati

Google introduce nuove app AI per aiutare le persone disabili

Tesla pianifica un data center in Cina per l’apprendimento AI sulla guida autonoma

Hugging Face ZeroGPU: il progetto di condivisione GPU gratuita per l’open source

You missed

Google introduce nuove app AI per aiutare le persone disabili

Tesla pianifica un data center in Cina per l’apprendimento AI sulla guida autonoma

Hugging Face ZeroGPU: il progetto di condivisione GPU gratuita per l’open source

Elon Musk annuncia la ricerca del secondo paziente per il chip cerebrale Neuralink