Microsoft ha presentato un innovativo modello linguistico chiamato LLM a 1 bit, un progetto a cui hanno contribuito ricerche recenti come BitNet.
L’elemento chiave di questa innovazione è la rappresentazione dei parametri del modello, noti come pesi, utilizzando solo 1,58 bit. A differenza dei tradizionali LLM che spesso usano valori a virgola mobile a 16 bit (FP16) per i pesi, BitNet b1.58 limita ciascun peso a uno dei tre valori: -1, 0 o 1. Questa significativa riduzione nell’uso dei bit è il cuore del nuovo modello proposto.
Sorprendentemente, BitNet b1.58 funziona allo stesso modo dei modelli tradizionali, pur utilizzando solo 1,58 bit per parametro. Il modello ha dimostrato di avere le stesse dimensioni e gli stessi dati di addestramento, con risultati simili in termini di perplessità e prestazioni complessive delle attività. Inoltre, offre vantaggi in termini di latenza, utilizzo della memoria, velocità effettiva e consumo energetico.
Questo LLM a 1,58 bit offre un nuovo approccio alla scalabilità e all’addestramento dei modelli linguistici, bilanciando alte prestazioni ed efficienza dei costi. Inoltre, suggerisce la possibilità di progettare hardware specializzato ottimizzato per questi LLM a 1 bit.
L’articolo esplora anche il potenziale del supporto nativo di lunghe sequenze nei LLM reso possibile da BitNet b1.58. Gli autori suggeriscono ulteriori ricerche per esplorare le possibilità di compressione senza perdite, aprendo la strada a un’efficienza ancora maggiore.
Alla fine dello scorso anno, Microsoft ha presentato la sua ultima versione del modello Small Language Model (SML) Phi-2, un modello da 2,7 miliardi di parametri che spicca per le sue capacità di comprensione e ragionamento.