L’introduzione della memoria di attenzione del feedback offre un nuovo approccio aggiungendo attivazioni di feedback che alimentano la rappresentazione contestuale in ciascun blocco di attenzione della finestra scorrevole.
Un team di ricercatori di Google ha presentato Feedback Attention Memory (FAM), una nuova architettura Transformer che utilizza un circuito di feedback per consentire alla rete di gestire le proprie rappresentazioni latenti. Questo approccio favorisce l’emergere della memoria di lavoro all’interno del Transformer, permettendogli di elaborare sequenze di lunghezza indefinita.
Il documento fa un parallelo con il film “Memento” (2000), in cui il protagonista soffre di amnesia anterograda, ma mantiene la memoria a lungo termine. Questo è simile alla sfida attuale dei modelli linguistici di grandi dimensioni (LLM), che devono gestire sequenze di testo estremamente lunghe.
Gli attuali LLM si basano sull’attenzione per estrarre informazioni rilevanti dai dati, ma la complessità computazionale aumenta quadraticamente con la lunghezza del contesto, limitando la loro capacità di modellare contesti lunghi.
Per superare queste limitazioni, i ricercatori hanno esplorato diverse tecniche, ma con risultati limitati. L’introduzione della memoria di attenzione del feedback offre una nuova soluzione, incorporando attivazioni di feedback che migliorano la rappresentazione contestuale in ciascun blocco di attenzione.
Questo approccio innovativo favorisce lo sviluppo della memoria di lavoro all’interno del Transformer, consentendo di gestire sequenze di lunghezza indefinita. La nuova architettura, chiamata TransformerFAM, ha dimostrato significativi miglioramenti nelle prestazioni su varie attività a lungo contesto.
I ricercatori sottolineano il potenziale di TransformerFAM nel gestire sequenze di lunghezza illimitata, il che potrebbe avere un impatto rivoluzionario sulle attività con dipendenze a lungo contesto.
L’articolo mette in evidenza che, nonostante le reti neurali ricorrenti (RNN) siano basate su relazioni causali tra sequenze di input, i Transformer sfruttano in modo efficiente il parallelismo, mantenendo comunque buone prestazioni.
Infine, i ricercatori di Google hanno introdotto un metodo per ridimensionare i modelli LLM basati su Transformer per gestire input infinitamente lunghi con risorse computazionali limitate, dimostrando un ulteriore progresso nell’affrontare questa sfida.