I ricercatori di Cohere, della Princeton University e dell’University of Illinois hanno sviluppato una nuova tecnica chiamata SnapKV per comprimere efficacemente la memoria cache dei valori-chiave (KV) nei modelli linguistici di grandi dimensioni (LLM). Questo porta a miglioramenti nell’efficienza della memoria e nella velocità di elaborazione.
La cache KV è fondamentale per gli LLM nell’analisi di contesti complessi. Tuttavia, quando l’input diventa più lungo, la crescita della cache KV crea sfide per la memoria e l’efficienza temporale.
Approcci precedenti hanno tentato di risolvere questo problema eliminando la cache KV o comprimendola, ma spesso a costo di perdere informazioni importanti.
SnapKV affronta questo problema in modo diverso, identificando e selezionando intelligentemente le caratteristiche di attenzione più importanti per creare una nuova cache KV. Osservando le attenzioni delle testate del modello, SnapKV seleziona le caratteristiche chiave e le raggruppa per mantenere il contesto.
L’algoritmo SnapKV funziona in due fasi: seleziona e raggruppa le caratteristiche chiave, poi le comprime per utilizzarle successivamente.
Valutato su vari LLM e set di dati a lunga sequenza, SnapKV ha dimostrato miglioramenti significativi nella velocità di generazione e nell’efficienza della memoria rispetto ai metodi precedenti. È stato in grado di gestire con precisione dettagli su input molto lunghi e può essere integrato con altri modelli per migliorare ulteriormente le prestazioni.
Comprimendo la cache KV in modo efficiente, SnapKV apre nuove possibilità per l’uso di LLM in scenari del mondo reale che richiedono una comprensione approfondita del contesto, come l’elaborazione di documenti e conversazioni complesse.