Il principale ostacolo alla scalabilità dei modelli linguistici di grandi dimensioni (LLM) risiede nella gestione della memoria di lavoro, tecnicamente nota come Key-Value (KV) cache. Ogni volta che un modello elabora un testo, genera e memorizza vettori (chiavi e valori) per ogni singolo token, permettendo al meccanismo di attenzione di “ricordare” il contesto precedente durante la generazione di nuove parole. Tuttavia, questa cache cresce linearmente con la lunghezza della sequenza, arrivando a saturare rapidamente la memoria VRAM delle GPU, specialmente in contesti aziendali che richiedono l’analisi di documenti massivi o dialoghi prolungati. Una nuova ricerca condotta dal MIT e recentemente presentata ha introdotto una tecnica denominata “Attention Matching”, capace di compattare la cache KV fino a 50 volte senza compromettere l’accuratezza del modello, superando i limiti dei metodi di compressione tradizionali.

Fino ad oggi, le strategie per mitigare l’esplosione della memoria KV si dividevano principalmente in due categorie: l’evizione dei token e il riassunto del contesto. L’evizione consiste nell’eliminare i token ritenuti meno rilevanti dall’algoritmo di attenzione, ma questo approccio tende a degradare le prestazioni in modo catastrofico quando si raggiungono rapporti di compressione elevati. Il riassunto testuale, d’altro canto, sostituisce porzioni di testo con sintesi generate dal modello stesso; tuttavia, questo metodo è intrinsecamente “lossy” (con perdita), poiché i dettagli tecnici o le sfumature semantiche presenti nei dati originali vengono spesso omessi, rendendo il modello incapace di rispondere a quesiti specifici su testi densi, come cartelle cliniche o contratti legali.

L’innovazione dell’Attention Matching risiede nello spostamento della compressione dallo spazio dei token allo spazio latente. Invece di selezionare quali parole mantenere, la tecnica ottimizza direttamente i vettori delle chiavi (K) e dei valori (V) affinché una versione ridotta della cache produca lo stesso “output di attenzione” della cache originale. In termini tecnici, il processo non si basa sulla lenta e costosa discesa del gradiente (come avveniva in approcci precedenti come i “Cartridges”), ma utilizza soluzioni in forma chiusa e algoritmi di ottimizzazione rapida come i minimi quadrati non negativi (NNLS). Questo permette di compattare contesti lunghi migliaia di token in pochi secondi, rendendo la tecnica applicabile in tempo reale durante le sessioni di inferenza.

Un aspetto cruciale di questa architettura è la gestione non uniforme della compressione tra i diversi “head” di attenzione del modello. I ricercatori hanno osservato che non tutte le parti del modello reagiscono allo stesso modo alla riduzione della memoria: alcuni segmenti sono estremamente sensibili e richiedono una cache più ampia per mantenere la precisione, mentre altri possono essere compressi aggressivamente senza impatti rilevanti. L’Attention Matching implementa quindi un sistema di allocazione dinamica del budget di memoria, distribuendo le risorse in modo ottimale tra i vari strati (layer) e teste di attenzione. Questo garantisce che le informazioni critiche e la “massa di attenzione” originale siano preservate, permettendo al modello di operare su sequenze vastissime con una frazione minima delle risorse hardware precedentemente necessarie.

L’impatto di questa tecnologia sulla distribuzione commerciale dell’intelligenza artificiale è potenzialmente dirompente. Ridurre l’ingombro della cache di 50 volte significa poter gestire finestre di contesto molto più ampie su hardware standard o aumentare drasticamente il numero di utenti simultanei serviti da un singolo server. Sebbene l’integrazione di queste tecniche richieda uno sforzo ingegneristico significativo per essere adattata alle infrastrutture esistenti, la disponibilità del codice sorgente e la solidità dei risultati ottenuti su modelli come Llama 3 e Qwen suggeriscono che la compattazione della cache KV diventerà presto uno standard fondamentale per rendere i modelli a lungo contesto economicamente sostenibili e tecnicamente efficienti.

Di Fantasy