NVIDIA TensorRT-LLM ha introdotto significative ottimizzazioni per il throughput di picco e l’efficienza della memoria, producendo notevoli miglioramenti nelle prestazioni di inferenza LLM. In particolare, su GPU NVIDIA H200, gli ultimi miglioramenti hanno portato a un impressionante aumento di velocità di 6,7 volte per Llama 2 70B LLM.
Questi miglioramenti non solo hanno aumentato la velocità, ma hanno anche permesso l’efficace esecuzione di modelli di dimensioni considerevoli, come Falcon-180B, su una singola GPU. Questa realizzazione è un significativo passo avanti rispetto alla necessità precedente di utilizzare almeno otto GPU NVIDIA A100 Tensor Core.
L’accelerazione di Llama 2 70B è attribuita all’ottimizzazione della Grouped Query Attention (GQA), una tecnica estesa delle già potenti tecniche di attenzione multi-head, particolarmente cruciale nell’architettura Llama 2 70B.
L’analisi delle prestazioni di Llama 2 70B, considerando diverse lunghezze di sequenza di input e output, rivela un notevole throughput ottenuto dalla GPU H200. All’aumentare della lunghezza della sequenza di output, la produttività grezza può diminuire, ma il miglioramento delle prestazioni rispetto all’A100 diventa significativo.
Inoltre, gli aggiornamenti del software da soli in TensorRT-LLM contribuiscono a un notevole miglioramento, con un aumento del 2,4 volte rispetto alla versione precedente in esecuzione su H200.
Falcon-180B, noto per le sue dimensioni e precisione, ha storicamente richiesto otto GPU NVIDIA A100 Tensor Core per l’esecuzione. Tuttavia, i progressi recenti di TensorRT-LLM, compreso un AWQ INT4 personalizzato, hanno consentito a questo modello di funzionare in modo efficiente su una singola GPU H200 Tensor Core, con 141 GB di memoria HBM3e all’avanguardia e quasi 5 TB/s di larghezza di banda della memoria.
La più recente iterazione di TensorRT-LLM implementa kernel personalizzati per AWQ, sfruttando al massimo la tecnologia Hopper Tensor Core su GPU NVIDIA Hopper. Questo permette al modello Falcon-180B di eseguire operazioni di inferenza in modo efficiente su una singola GPU H200, raggiungendo un impressionante throughput fino a 800 token al secondo.
In termini di prestazioni, i miglioramenti del software TensorRT-LLM da soli portano a un aumento del 2,4 volte rispetto alla versione precedente in esecuzione su H200.
L’implementazione personalizzata di Multi-Head Attention (MHA), che supporta GQA, Multi-Query Attention (MQA) e MHA standard, sfrutta appieno gli NVIDIA Tensor Core durante le fasi di generazione e contesto, garantendo prestazioni ottimali su GPU NVIDIA.
Nonostante la riduzione dell’occupazione della memoria, TensorRT-LLM AWQ mantiene una precisione superiore al 95%, dimostrando l’efficienza nell’ottimizzazione delle risorse di calcolo della GPU e nella riduzione dei costi operativi.
Questi progressi saranno integrati nelle prossime versioni (v0.7 e v0.8) di TensorRT-LLM.