Ricercatori di Microsoft e dell’ETH di Zurigo hanno recentemente presentato SliceGPT, un nuovo metodo per ridurre i costi computazionali e di memoria dei grandi modelli linguistici. SliceGPT si dimostra efficace nel ridurre la dimensione di questi modelli, tagliando fino al 25% dei loro parametri, inclusi gli incorporamenti, mantenendo al contempo elevate prestazioni in attività zero-shot.
Lo studio ha analizzato tre modelli significativi: LLAMA2-70B, OPT 66B e Phi-2. Per il modello LLAMA2-70B, SliceGPT ha ottenuto una riduzione del calcolo totale al 64% su GPU consumer da 24 GB e al 66% su GPU A100 da 40 GB. Questa innovazione richiede meno GPU per funzionare, risultando in maggior velocità ed efficienza senza bisogno di ulteriori ottimizzazioni del codice.
La caratteristica distintiva di SliceGPT è la sua capacità di sostituire ogni matrice di peso con una versione più piccola e densa, riducendo l’ingombro di memoria della rete. Questa tecnica di sparsificazione rappresenta una soluzione promettente ai limiti di risorse imposti dai grandi modelli linguistici, mostrando il suo potenziale nel facilitare futuri progressi per ridurre le richieste di memoria e calcolo in modelli già addestrati.
Infine, l’approccio di SliceGPT, sviluppato da Microsoft, non solo dimostra la sua efficienza nella riduzione delle dimensioni dei modelli, ma inaugura anche un nuovo concetto: l’invarianza computazionale nelle reti di trasformatori. Questa innovazione potrebbe ispirare e aprire la strada a ulteriori sviluppi nell’ambito dei modelli preaddestrati.