I ricercatori delle università della California, Santa Cruz, Soochow e California, Davis hanno sviluppato una nuova architettura per modelli linguistici che elimina completamente le costose moltiplicazioni di matrici (MatMul) dei tradizionali Transformers. Questo avanza nella ricerca poiché le dimensioni sempre maggiori dei modelli linguistici hanno reso le MatMul un punto critico, aumentando sia l’utilizzo della memoria che la latenza durante addestramento e inferenza.
Nel loro studio, i ricercatori propongono modelli senza MatMul che mantengono prestazioni eccellenti paragonabili ai Transformers di punta, ma con un notevole risparmio di memoria durante l’inferenza. Queste operazioni di MatMul sono fondamentali nel deep learning, utilizzate per integrare dati e pesi nelle reti neurali, ma possono diventare un collo di bottiglia con modelli di dimensioni enormi, richiedendo cluster GPU massicci.
Il loro approccio sostituisce i tradizionali pesi a virgola mobile con pesi ternari a 3 bit, consentendo di eliminare le MatMul a favore di operazioni più semplici come l’addizione e la negazione. Questo non solo riduce drasticamente il costo computazionale, ma migliora anche l’efficienza energetica e la scalabilità dei modelli.
I ricercatori hanno implementato “strati BitLinear” che utilizzano pesi ternari, e hanno ristrutturato l’architettura del modello utilizzando unità ricorrenti lineari e unità di canale modificate per funzionare senza MatMul. Questa innovazione permette di ottenere prestazioni simili o superiori rispetto ai modelli tradizionali, ma con un utilizzo significativamente ridotto di memoria e una latenza inferiore.
Hanno dimostrato che i loro modelli senza MatMul superano il Transformer++ su diversi compiti linguistici avanzati, evidenziando l’efficacia di questa nuova architettura nell’utilizzo efficiente delle risorse di elaborazione. Con il rilascio del codice sorgente, i ricercatori sperano di incentivare ulteriori sviluppi e adozioni pratiche di queste tecniche, aprendo la strada a modelli linguistici più accessibili, efficienti e sostenibili nel futuro del deep learning.