È stato sviluppato un metodo rivoluzionario per eseguire modelli linguistici di grandi dimensioni (LLM) con 1 miliardo di parametri utilizzando solo 13 watt di potenza. Questo è circa 50 volte più efficiente rispetto alle GPU da data center come l’H100 di NVIDIA, che richiedono 700 watt.
Secondo Tom’s Hardware, i ricercatori dell’UC Santa Cruz hanno pubblicato un documento che rivela come eliminare la costosa moltiplicazione di matrici nell’implementazione dei LLM. Rimuovendo questa operazione critica e utilizzando hardware personalizzato, è stato possibile ottenere prestazioni LLM con un consumo energetico estremamente ridotto, pari a quello necessario per una semplice lampadina.
Nei LLM, le parole vengono rappresentate come numeri e organizzate in matrici, che vengono tradizionalmente moltiplicate insieme per elaborare il linguaggio, valutare l’importanza delle parole e le relazioni tra di loro.
Per evitare la moltiplicazione matriciale su centinaia di GPU separate, i ricercatori hanno introdotto due innovazioni: la riduzione dei numeri matriciali a tre valori (-1, 0, 1) e l’uso di un approccio basato sul tempo anziché sulla moltiplicazione diretta. Queste tecniche hanno permesso di eseguire operazioni più leggere e meno energetiche, mantenendo prestazioni e precisione elevate.
Il modello è stato confrontato con successo con il modello “Rama 3” di Meta, dimostrando capacità paragonabili su una scala di miliardi di parametri.
I ricercatori hanno reso la loro rete neurale disponibile come open source, ottimizzandola per le GPU standard e sviluppando un prototipo hardware personalizzato basato su FPGA. Questo approccio ha consentito di generare output più velocemente rispetto alle GPU tradizionali, con un consumo energetico significativamente inferiore.
Guardando al futuro, i ricercatori sono fiduciosi nel migliorare ulteriormente le prestazioni, sfruttando potenze di calcolo superiori per continuare a ridurre l’impatto ambientale e migliorare l’efficienza delle reti neurali.