NVIDIA ha pubblicato una versione quantizzata di GLM-5.2, il grande modello linguistico open source di Zhipu AI (Z.ai), applicando il formato NVFP4 a 4 bit. L’obiettivo è rendere più gestibile un checkpoint originariamente molto pesante, riducendo lo spazio necessario per archiviarlo e la memoria GPU richiesta durante l’inferenza, senza introdurre un calo rilevante nelle prestazioni di ragionamento, coding e gestione delle istruzioni.
GLM-5.2 è un modello Mixture of Experts da 753 miliardi di parametri. Non tutti i parametri vengono attivati a ogni richiesta: il sistema seleziona soltanto una parte degli esperti necessari per elaborare il prompt, riducendo il costo computazionale rispetto a un modello denso della stessa dimensione. L’architettura integra inoltre sparse attention e il sistema IndexShare, con supporto a contesti fino a un milione di token, una caratteristica pensata per lavorare su documenti molto lunghi, repository software, raccolte di file e conversazioni estese.
La versione FP8 originale occupa circa 1,5 terabyte. Con la quantizzazione NVFP4 il checkpoint viene ridotto a circa 410 GB, con un taglio vicino al 70%. La differenza è rilevante soprattutto per le organizzazioni che vogliono distribuire modelli molto grandi in infrastrutture private, dove il costo non dipende soltanto dalla GPU, ma anche dalla capacità di storage, dalla quantità di memoria HBM disponibile e dai tempi necessari per caricare i pesi all’avvio.
La quantizzazione a 4 bit tradizionale può comprimere in modo efficace un modello, ma rischia di modificare troppo i valori numerici dei pesi e di peggiorare la qualità delle risposte. NVFP4 cerca di limitare questo effetto applicando scale differenziate a gruppi ridotti di valori e mantenendo una precisione più alta nei layer più sensibili. In pratica, non tutte le parti del modello ricevono lo stesso trattamento: le componenti che incidono maggiormente sull’accuratezza vengono protette, mentre le altre vengono compresse in modo più aggressivo.
I benchmark riportano una distanza molto ridotta rispetto alla versione FP8. In GPQA Diamond, dedicato al ragionamento scientifico avanzato, GLM-5.2 FP8 ottiene 89,52 punti e la versione NVFP4 89,39. Anche nei test di coding CyCode il divario resta contenuto, con 49,85 punti per l’originale e 49,04 per il modello quantizzato. In alcuni benchmark dedicati al rispetto delle istruzioni e all’uso di strumenti, la variante NVFP4 risulta persino leggermente superiore, segnale che la compressione non comporta necessariamente una degradazione uniforme su tutte le attività.
Il vantaggio principale emerge nei casi in cui la memoria rappresenta il limite operativo. In una configurazione con otto GPU NVIDIA B200, il modello NVFP4 ha ridotto l’uso di memoria HBM di circa 300 GB rispetto alla variante FP8. Questo margine può essere destinato a un KV cache più ampia, permettendo di gestire più richieste concorrenti oppure contesti più lunghi senza aumentare il numero di GPU necessarie. Nel test citato, la capacità della cache KV è salita del 57%, un dato importante per i servizi che devono mantenere molte conversazioni o inferenze attive contemporaneamente.
La quantizzazione non rende però automaticamente il modello più veloce in ogni scenario. In un sistema nel quale il collo di bottiglia non è la memoria, ma la velocità di decoding, il modello FP8 può continuare a essere preferibile. La versione NVFP4 non supporta infatti il Multi-Token Prediction utilizzato per lo speculative decoding, una tecnica che prova a generare più token in anticipo e poi verifica quelli corretti. In un ambiente con molte richieste simultanee, questa assenza può ridurre la velocità di generazione per singolo flusso.
Nei test su otto B200, il modello NVFP4 è stato avviato correttamente in circa sei minuti e ha offerto un notevole risparmio di memoria, ma la velocità di decoding è risultata inferiore di circa il 24% rispetto alla variante FP8. Per questo la scelta tra i due formati deve dipendere dal tipo di carico: NVFP4 è utile quando la priorità è ospitare un modello molto grande con meno memoria disponibile, mentre FP8 può restare più adatto quando l’obiettivo principale è massimizzare il throughput e la generazione token per token.
La disponibilità di GLM-5.2 NVFP4 mostra come la quantizzazione stia diventando una componente centrale nella distribuzione dei modelli di frontiera. Ridurre il peso di un checkpoint da terabyte a poche centinaia di gigabyte non cambia soltanto il costo di archiviazione: modifica il numero di GPU necessarie, la gestione dei contesti lunghi, la possibilità di usare più richieste in parallelo e la sostenibilità dell’inferenza in ambienti enterprise. Il punto decisivo non è quindi scegliere il formato più piccolo in assoluto, ma individuare il formato che risponde meglio al vero limite dell’infrastruttura: memoria, costo, latenza o capacità di servire utenti simultanei.
