Immagine AI

Un modello di intelligenza artificiale gigantesco — con decine o centinaia di miliardi di parametri — che normalmente richiede hardware costosi e memoria abbondante per funzionare: Huawei ha annunciato una novità un metodo di quantizzazione open source chiamato SINQ (Sinkhorn-Normalized Quantization), concepito per ridurre in maniera drastica l’uso di memoria senza compromettere la qualità delle risposte.

L’obiettivo sembra quasi “fantascientifico”: permettere a modelli che prima avevano bisogno di oltre 60 GB di memoria di operare con circa 20 GB. Ciò significa che il modello, in precedenza accessibile solo su infrastrutture “enterprise”, potrebbe girare su GPU relativamente più modeste, persino su una Nvidia GeForce RTX 4090.

Alla base di questo approccio ci sono alcune innovazioni tecniche che rendono la quantizzazione più robusta e meno invasiva. Tradizionalmente, la quantizzazione riduce la precisione numerica dei pesi di un modello — per esempio passando da valori in virgola mobile “float32” a formati più compatti (8 bit, 4 bit) — ma questo comporta un rischio: degradare la qualità delle risposte, introdurre errori, ridurre l’affidabilità.

SINQ affronta queste sfide con due idee centrali: una scaling duale (due fattori di scala, uno per le righe e uno per le colonne di una matrice) e una normalizzazione ispirata all’algoritmo Sinkhorn-Knopp, che bilancia le deviazioni standard tra righe e colonne, riducendo quello che il team chiama “matrix imbalance”. In sostanza, l’errore dovuto all’approssimazione numerica viene distribuito con più intelligenza, evitando che zone “difficili” (outlier) compromettano l’intero modello.

Un altro vantaggio di SINQ è che non richiede calibrazione esterna né dipendenza tra layer: si può applicare in modo relativamente diretto al modello, rendendolo un metodo “plug and play” che può essere integrato nei flussi di lavoro esistenti.

Le cifre che Huawei presenta sono impressionanti: una riduzione dell’uso di memoria tra il 60 % e il 70 % a seconda dell’architettura e della precisione (bit width). Ciò significa che modelli che una volta richiedevano cluster costosi possono essere distribuiti su configurazioni più leggere, riducendo costi e abbattendo il “soffitto” tecnologico per molte organizzazioni che non dispongono di supercomputing.

In termini di costi operativi, la differenza può essere enorme: usare GPU più modeste abbassa il prezzo orario dell’inferenza e rende più sostenibile l’uso continuo del modello. Su cloud, passare da istanze “enterprise” a GPU “consumer-grade” può significare migliaia di dollari risparmiati su carichi di lavoro prolungati.

Nei test presentati, SINQ è stato applicato a modelli come LLaMA, Qwen e DeepSeek, mostrando una buona tenuta in metriche come perplexity e “flip rate” (la percentuale con cui le risposte cambiano in modo incoerente).

Inoltre, SINQ è compatibile con schemi di quantizzazione non uniformi (ad esempio NF4) e può essere combinato con metodi calibrati (come AWQ) per ottenere varianti ibride – ad esempio “A-SINQ” – che possono chiudere ulteriormente il divario con il modello in precisione piena.

La velocità è un altro punto di forza: Huawei sostiene che SINQ quantizza un modello circa due volte più velocemente di HQQ e trenta volte più velocemente di AWQ, rendendolo pratico non solo per la ricerca, ma anche per operazioni di produzione.

Una delle scelte più significative di Huawei è quella di rendere SINQ open source sotto licenza Apache 2.0, con codice disponibile su GitHub e Hugging Face. Questo significa che chiunque può usarlo, modificarlo, integrarlo nei propri modelli — anche in ambito commerciale — senza restrizioni significative.

La repository offre utilità per quantizzare modelli Hugging Face con pochi comandi, strumenti per salvare e ricaricare pesi quantizzati e parametri predefiniti che bilanciano memoria e accuratezza, ma con la possibilità di personalizzare bit width, dimensione dei gruppi, strategia di tiling, ecc.

Il team ha annunciato che nei prossimi tempi pubblicherà versioni pre-quantizzate di modelli sul portale Hugging Face, affinché gli utenti possano sperimentare direttamente senza dover ripetere il processo completo.

Questa tecnica apre nuove strade: permette che modelli grandi siano più abbordabili, spinge verso una decentralizzazione dell’AI — non serve più avere solo infrastrutture imponenti — e rende più facile che startup, laboratori di ricerca, persino sviluppatori singoli possano sperimentare modelli “più grandi” pur con vincoli hardware.

Tuttavia, ci sono alcune questioni da non sottovalutare. Per prima cosa, ogni forma di quantizzazione introduce una perdita d’informazione, per quanto contenuta: è inevitabile che qualche forma di degrado si inserisca. Sebbene SINQ prometta di minimizzarlo, sarà importante valutare come si comporti su compiti complessi, in contesti reali, con input variabili.

Inoltre, la compatibilità con tutti i modelli futuri e con tutti gli archivi (attivazioni, layer speciali, reti non lineari) non è garantita: il graduale “upgrade” dei framework dovrà considerare le peculiarità di queste tecniche. C’è anche il tema della latenza: ridurre memoria è utile, ma se l’estrazione o la conversione introduce overhead, parte del guadagno può sfumare.

Un’altra questione – spesso sottesa – riguarda la fiducia nel modello: se il modello lavora con versioni quantizzate dei pesi, quanto rimane trasparente la sua interpretazione interna? E in caso di errore o comportamento indesiderato, quanto sarà facile diagnosticare o correggere il problema?

Infine, la “democratizzazione” dell’AI comporta anche responsabilità: se modelli potenti possono girare su macchine più accessibili, serviranno linee guida sull’uso corretto, sulla sicurezza, sull’etica.

Con SINQ, Huawei mette in campo una mossa strategica: non solo una tecnica avanzata, ma un gesto che apre l’AI a un pubblico più vasto. Rendere possibile che grandi modelli funzionino su hardware meno esigenti può essere una chiave per democratizzare l’accesso all’intelligenza artificiale, spingere l’innovazione fuori dai “data center esclusivi” e dare spazio a nuovi sviluppi.

Di Fantasy