I ricercatori di Google hanno ideato un nuovo metodo chiamato Infini-attention, per scalare i modelli LLM (Large Language Model) basati su Transformer per elaborare input di lunghezza infinita con memoria e calcoli limitati.
Questo approccio, presentato nell’articolo “Leave No Context Behind”, combina la memoria compressiva con il meccanismo di attenzione standard dei Transformer, integrando sia l’attenzione locale che quella lineare a lungo termine in un singolo blocco Transformer.
In pratica, Infini-attention consente ai modelli LLM di gestire contesti estremamente lunghi in modo continuo e fluido, supportando sia la pre-formazione che il fine-tuning, e agevolando l’estensione naturale dei modelli esistenti.
L’approccio Infini-attention sfrutta una memoria compressiva per immagazzinare e recuperare informazioni a lungo termine, riducendo al minimo il degrado delle prestazioni man mano che la lunghezza dell’input aumenta. Rispetto ai modelli di base, Infini-attention offre un rapporto di comprensione 114 volte superiore in termini di dimensione della memoria.
I risultati sperimentali dimostrano che, addestrando il modello con sequenze di input estremamente lunghe, Infini-attention migliora notevolmente le prestazioni di comprensione, superando le baselines sui benchmark di modellazione del linguaggio a lungo contesto. Inoltre, il metodo consente un’inferenza di streaming veloce per i LLM, mantenendo bassi i requisiti di memoria e calcolo.