Ottimizzazione della memoria negli LLM: la tecnica di compattazione della cache KV tramite Attention Matching
Il principale ostacolo alla scalabilità dei modelli linguistici di grandi dimensioni (LLM) risiede nella gestione della memoria di lavoro, tecnicamente nota come Key-Value (KV) cache. Ogni volta che un modello…