Un recente rapporto dei ricercatori di Microsoft Research Bangalore ha rivelato importanti problemi legati ai metodi attuali di compressione e quantizzazione dei modelli di linguaggio di grandi dimensioni (LLM).
Il documento, intitolato “L’accuratezza non è tutto ciò di cui hai bisogno”, evidenzia che le tecniche di compressione comunemente utilizzate, come la quantizzazione, possono causare cambiamenti nel comportamento del modello che non vengono rilevati dalle metriche di accuratezza tradizionali.
Lo studio, condotto da Abhinav Dutta, Sanjeev Krishnan, Nipun Kwatra e Ramachandran Ramjee, sottolinea l’importanza di considerare altri fattori oltre alla precisione quando si valutano i modelli compressi.
I ricercatori hanno scoperto che, sebbene i modelli compressi mantengano spesso livelli di precisione simili alle loro versioni originali, il loro comportamento può differire significativamente. Questo fenomeno, chiamato “flip”, implica che le risposte possano passare da corrette a errate e viceversa, influenzando l’affidabilità del modello.
Il team propone l’uso di metriche a distanza, come la divergenza di Kullback-Leibler (KL) e la percentuale di flip, per valutare meglio l’impatto della compressione. Queste metriche forniscono una visione più dettagliata di come la compressione influenzi le risposte del modello secondo la percezione degli utenti finali.
Gli esperimenti condotti con diversi LLM, come Llama2 e Yi, attraverso varie tecniche di quantizzazione e set di dati, hanno dimostrato che i modelli compressi tendono a performare peggio nei compiti generativi.
I ricercatori riconoscono che prevedere il degrado delle prestazioni nelle applicazioni del mondo reale rimane una sfida. Le metriche di distanza potrebbero non sempre indicare chiaramente il degrado nelle attività pratiche.
Inoltre, i modelli compressi mostrano spesso differenze comportamentali significative rispetto alle loro versioni originali, influenzando l’esperienza dell’utente. La metrica dei flip ha rivelato che la proporzione di cambiamenti di risposta è considerevole, sottolineando i limiti dell’accuratezza come unico indicatore di prestazioni.
In conclusione, lo studio di Microsoft Research suggerisce che le metriche di accuratezza tradizionali non sono sufficienti per valutare la qualità dei modelli compressi. L’introduzione di metriche a distanza, come la KL-Divergence e i flip, offre una valutazione più precisa delle prestazioni del modello, catturando i cambiamenti che influenzano gli utenti finali. Queste metriche sono essenziali per tutti i metodi di ottimizzazione volti a ridurre al minimo i cambiamenti visibili nel comportamento del modello rispetto alla versione originale. Adottando queste metriche, il campo dell’ottimizzazione e della compressione dei modelli può progredire in modo più efficace, garantendo che i modelli compressi soddisfino le aspettative degli utenti e mantengano uscite di alta qualità.