I modelli di intelligenza artificiale hanno seguito una traiettoria dominata dall’aumento della scala, con architetture sempre più grandi che richiedono risorse computazionali e infrastrutturali crescenti. In questo contesto emerge una proposta alternativa sviluppata dalla startup PrismML, che introduce una tecnica di compressione estrema progettata per costruire modelli ad alta densità di intelligenza mantenendo prestazioni competitive. L’approccio si basa su una rappresentazione a 1 bit dei pesi, con l’obiettivo di ridurre drasticamente l’uso di memoria e l’energia necessaria per l’inferenza, segnando una possibile inversione di tendenza rispetto alla crescita dimensionale dei modelli.
Il concetto alla base della proposta è quello di “intelligence density”, ovvero la quantità di capacità inferenziale che un modello riesce a offrire in rapporto alla sua dimensione. PrismML sostiene che l’industria abbia privilegiato l’espansione del numero di parametri come principale leva per migliorare le prestazioni, ma questo approccio comporta costi elevati in termini di GPU, energia e infrastruttura. La nuova tecnica punta invece a ottimizzare l’efficienza interna del modello, riducendo la precisione numerica dei pesi fino a una rappresentazione binaria mantenendo capacità di ragionamento e generalizzazione.
La soluzione proposta prende forma nel modello denominato “1-bit Bonsai”, costruito su un’architettura che rappresenta i pesi esclusivamente con valori +1 e −1. Nei modelli tradizionali, i pesi vengono memorizzati con precisione a 16 bit, mentre alcune implementazioni più recenti utilizzano 8 o 4 bit per ridurre la memoria. La riduzione a un singolo bit rappresenta quindi una compressione estremamente aggressiva, che modifica radicalmente la struttura dei calcoli numerici e richiede tecniche specifiche per mantenere stabilità e accuratezza durante l’inferenza.
Il modello di riferimento, “1-bit Bonsai 8B”, contiene circa 8,2 miliardi di parametri, ma grazie alla rappresentazione binaria raggiunge un footprint di memoria di circa 1,15 GB. Questo valore è significativamente inferiore rispetto ai modelli equivalenti a 16 bit, risultando circa quattordici volte più piccolo. Nonostante la riduzione drastica delle dimensioni, PrismML afferma che le prestazioni restano competitive con modelli della stessa classe, mentre la velocità di esecuzione può aumentare fino a otto volte e l’efficienza energetica migliorare di oltre cinque volte.
La compressione estrema introduce implicazioni importanti anche per l’infrastruttura. Ridurre la memoria necessaria per eseguire modelli di grandi dimensioni consente di spostare l’inferenza dal cloud a dispositivi locali. PrismML evidenzia che modelli di questo tipo possono essere eseguiti direttamente su smartphone, laptop, robot e sistemi embedded, senza necessità di connessione continua a data center remoti. Questo approccio favorisce scenari edge, con benefici in termini di latenza e privacy, poiché i dati possono essere elaborati localmente.
La rappresentazione a 1 bit modifica la natura delle operazioni matematiche. Le moltiplicazioni in virgola mobile vengono sostituite da operazioni logiche più semplici, riducendo il costo computazionale per inferenza. Questo tipo di ottimizzazione si traduce in maggiore throughput e minore consumo energetico, due fattori critici per l’esecuzione su hardware limitato. Tuttavia, la compressione binaria richiede tecniche avanzate per evitare la perdita di informazione, come normalizzazione dei pesi, strategie di quantizzazione adattiva e ottimizzazione dei layer durante l’addestramento.
Un elemento rilevante è l’impatto sulla distribuzione dei modelli. La riduzione del footprint permette di trasferire modelli complessi su reti con banda limitata e di integrarli in sistemi offline. Questo potrebbe accelerare l’adozione dell’AI in contesti industriali, dispositivi IoT e applicazioni mobili, dove la disponibilità di memoria e potenza è limitata. La possibilità di eseguire modelli avanzati direttamente sul dispositivo elimina inoltre la necessità di infrastrutture cloud costose.
Il concetto di intelligence density proposto da PrismML introduce anche una nuova metrica di valutazione. Invece di misurare esclusivamente l’accuratezza, l’attenzione si sposta sul rapporto tra prestazioni e risorse utilizzate. Secondo le valutazioni riportate, il modello 1-bit Bonsai 8B presenta una densità di intelligenza superiore di oltre dieci volte rispetto a modelli comparabili, suggerendo che l’efficienza architetturale possa diventare un fattore determinante nello sviluppo dei sistemi AI.
I benchmark effettuati su diverse categorie, tra cui conoscenza generale, ragionamento, matematica, coding e tool calling, indicano che il modello mantiene prestazioni competitive nonostante la drastica riduzione della precisione numerica. Questo risultato evidenzia come parte della capacità dei modelli linguistici possa essere preservata anche con rappresentazioni altamente compresse, purché l’architettura sia progettata per supportare la quantizzazione estrema.
