Di recente, Intel ha fatto una presentazione su una nuova soluzione di inferenza per Linguistic Model (LLM) caratterizzata da bassa latenza e alto throughput, specificamente progettata per le GPU Intel. Gli esperti hanno dimostrato che questa soluzione offre una latenza fino a 7 volte inferiore e un throughput fino a 27 volte superiore rispetto all’implementazione standard di HuggingFace.
Visto il ruolo cruciale dei Linguistic Model in svariati settori, l’ottimizzazione delle loro prestazioni è diventata un obiettivo primario. L’ultimo sviluppo da parte di Intel sembra promettere una svolta significativa. Il team dietro questa innovazione ha affrontato la complessità intrinseca dei Linguistic Model, caratterizzata da strutture di modelli intricate e modalità di inferenza autoregressiva, offrendo un’alternativa altamente efficiente.
Una delle principali sfide che il team di ricerca ha dovuto superare è stata la complessa progettazione dei Linguistic Model, con le sue intricate strutture di modelli e le estese operazioni autoregressive. Questa complessità ha portato a un intenso utilizzo della memoria, rallentando il processo di inferenza.
Il cuore della soluzione proposta da Intel è un livello di decodifica semplificato per i Linguistic Model. Questo livello è stato progettato in modo strategico per combinare il movimento dei dati e le operazioni basate sugli elementi, riducendo notevolmente la frequenza di accesso alla memoria e abbassando significativamente la latenza del sistema. Il risultato è una velocità di inferenza notevolmente migliorata ed efficiente.
La soluzione Intel inizia con un approccio semplificato al livello di decodifica dei Linguistic Model. Il team è riuscito a ridurre la frequenza di accesso alla memoria combinando abilmente il movimento dei dati con le operazioni basate sugli elementi, ottenendo così una significativa riduzione della latenza del sistema.
Un’altra innovazione chiave è l’introduzione di una politica di cache chiave/valore (KV) per il segmento. Questa separazione strategica degli elementi chiave e di valore tra i token di richiesta e risposta in segmenti di memoria distinti è fondamentale per una gestione efficiente della memoria del dispositivo. Il risultato è una dimensione batch di runtime estesa e una produttività generale migliorata del sistema.
Il team ha personalizzato un kernel Scaled-Dot-Product-Attention per integrare la loro innovativa politica di fusione basata sulla cache KV del segmento. Il risultato è una soluzione di inferenza per Linguistic Model ottimizzata, che promette di ridefinire gli standard di efficienza per questi potenti modelli linguistici.
Il gruppo di ricerca non si è limitato a concepire queste innovazioni, ma le ha anche tradotte in una soluzione pratica. La loro soluzione di inferenza per Linguistic Model è ora implementata sulle GPU Intel ed è disponibile pubblicamente per essere esaminata e utilizzata.
La significativa riduzione della latenza dei token migliora la reattività del sistema, rendendolo ideale per le applicazioni in cui la velocità di elaborazione è essenziale. Allo stesso tempo, l’aumento significativo della produttività semplifica l’esecuzione di compiti di dimensioni maggiori, rendendo questa soluzione particolarmente interessante per scenari reali ad alta domanda.