Un nuovo studio dell’Università di Tsinghua ha rivelato che una riorganizzazione dell’hardware e dei calcoli può notevolmente abbassare i costi dell’inferenza per i modelli linguistici di grandi dimensioni (LLM). La tecnica chiave introdotta nello studio è chiamata “attention offloading”, che sfrutta GPU economiche per operazioni di memoria intensive, lasciando gli acceleratori più costosi per altre attività.
L’inferenza dei LLM è un processo complesso che coinvolge diverse operazioni, alcune legate al calcolo e altre alla memoria. La sfida consiste nell’organizzare queste operazioni in modo efficiente per sfruttare al massimo le risorse hardware disponibili.
Attualmente, molte soluzioni si concentrano su hardware costoso di fascia alta, ma questa ricerca suggerisce che un approccio eterogeneo potrebbe essere più efficiente ed economico. Utilizzando una combinazione di GPU economiche per operazioni di memoria e acceleratori di fascia alta per altre operazioni, è possibile ottimizzare le prestazioni dell’inferenza LLM senza spendere una fortuna.
Il sistema proposto, chiamato Lamina, sfrutta le GPU per archiviare i valori di attenzione e calcolare l’operatore di attenzione, mentre gli acceleratori di fascia alta gestiscono altri calcoli di inferenza. Questo approccio consente a Lamina di gestire batch di dati molto più grandi rispetto alle soluzioni esistenti, ottenendo un throughput superiore a un costo inferiore.
L’architettura di Lamina prevede anche l’uso di diverse tecnologie di rete per garantire una comunicazione efficiente tra i dispositivi e minimizzare la latenza. Anche se il codice per Lamina non è ancora stato rilasciato, il concetto potrebbe presto essere adottato dalla comunità open source, offrendo un nuovo modo per ridurre i costi di inferenza e ottimizzare l’uso dell’hardware per i modelli LLM.