NVIDIA si conferma leader nell’intelligenza artificiale generativa, raggiungendo risultati eccezionali nei recenti benchmark MLPerf. Grazie a TensorRT-LLM, progettato appositamente per migliorare l’inferenza per modelli di linguaggio di lunga memoria (LLM), le GPU con architettura Hopper di NVIDIA hanno mostrato un notevole aumento delle prestazioni, triplicando il throughput su GPT-J LLM rispetto ai risultati precedenti registrati solo sei mesi fa.
Le aziende all’avanguardia nell’innovazione stanno adottando TensorRT-LLM per ottimizzare i propri modelli, supportate da NVIDIA NIM, una suite di microservizi di inferenza che include potenti motori come TensorRT-LLM. Questo approccio integrato semplifica l’implementazione della piattaforma di inferenza di NVIDIA, offrendo alle aziende efficienza e flessibilità senza precedenti.
I recenti benchmark MLPerf hanno evidenziato un significativo avanzamento nelle capacità dell’intelligenza artificiale generativa, con TensorRT-LLM eseguito sulle più recenti GPU H200 Tensor Core di NVIDIA. Queste GPU, potenziate in termini di memoria e recentemente introdotte nell’arena MLPerf, hanno ottenuto un notevole throughput, generando fino a 31.000 token al secondo sul benchmark Llama 2 70B.
Il successo delle GPU H200 evidenzia anche i progressi innovativi nella gestione termica, con soluzioni personalizzate che contribuiscono a miglioramenti delle prestazioni fino al 14%. Questi progressi, esemplificati dalle implementazioni creative dei costruttori di sistemi nei progetti NVIDIA MGX, migliorano ulteriormente le capacità prestazionali delle GPU Hopper.
NVIDIA ha annunciato oggi la disponibilità delle GPU H200, che saranno presto accessibili tramite quasi 20 importanti costruttori di sistemi e fornitori di servizi cloud.
Con una straordinaria larghezza di banda di memoria di quasi 5 TB/secondo, i superchip GH200 hanno dimostrato prestazioni eccezionali, specialmente nei compiti di inferenza MLPerf ad alta intensità di memoria come i sistemi di raccomandazione.
Utilizzando una tecnica chiamata sparsità strutturata, volta a ridurre i calcoli e precedentemente introdotta con le GPU NVIDIA A100 Tensor Core, gli ingegneri NVIDIA hanno ottenuto miglioramenti fino al 33% nella velocità di inferenza con Llama 2.
In risposta alle crescenti dimensioni dei modelli LLM, il fondatore e CEO di NVIDIA, Jensen Huang, ha annunciato durante il GTC della scorsa settimana che le prossime GPU con architettura NVIDIA Blackwell forniranno prestazioni elevate necessarie per i modelli IA con trilioni di parametri.