Sepp Hochreiter, noto per aver creato LSTM, ha presentato una nuova architettura chiamata xLSTM, ovvero Extended Long Short-Term Memory. Questa innovazione risolve una limitazione chiave dei precedenti modelli LSTM, che non erano in grado di elaborare tutte le informazioni contemporaneamente a causa della loro natura sequenziale.
A differenza degli LSTM, che hanno alcuni svantaggi rispetto ai Transformers, come la capacità limitata di rivedere le decisioni di archiviazione e la mancanza di parallelizzabilità, i Transformer sono in grado di eseguire operazioni in parallelo tra i token, rendendoli più efficienti.
I principali componenti della nuova architettura xLSTM includono una memoria a matrice per LSTM, che elimina il mixaggio della memoria e il gating esponenziale. Queste modifiche consentono all’LSTM di rivedere la propria memoria in modo più efficace durante l’elaborazione di nuovi dati.
xLSTM ha una complessità temporale e di memoria molto migliore rispetto ai Transformers, rendendolo più efficiente. Nei test comparativi, xLSTM[1:0] ha ottenuto i migliori risultati tra vari modelli addestrati su grandi quantità di testo.
Un aspetto importante di xLSTM è il rapporto flessibile tra blocchi MLSTM e SLSTM. MLSTM può operare su tutti i token contemporaneamente, simile ai Transformers, mentre SLSTM migliora la capacità di tracciamento dello stato ma rallenta l’addestramento e l’inferenza.
L’architettura xLSTM supera i modelli all’avanguardia come i Transformers nella modellazione del linguaggio. I modelli xLSTM più grandi potrebbero diventare competitivi con i modelli linguistici attuali costruiti con la tecnologia Transformer e potrebbero influenzare altri campi del deep learning come l’apprendimento per rinforzo e la previsione delle serie temporali.