Nvidia ha recentemente lanciato una suite software open source progettata per potenziare le prestazioni dei modelli linguistici di grandi dimensioni (LLM) che operano su unità di elaborazione grafica (GPU) Nvidia. Il nuovo software, denominato TensorRT-LLM, si pone l’obiettivo di migliorare l’efficienza e la capacità di elaborazione delle inferenze degli LLM, aprendo la strada a un’ulteriore adozione aziendale di questa tecnologia da parte di grandi imprese.
Con l’evoluzione dei modelli LLM verso livelli sempre più avanzati, le loro dimensioni notevoli rendono l’inferenza costosa e complessa da implementare. TensorRT-LLM sfrutta le potenzialità delle GPU e dei compilatori Nvidia per rivoluzionare la velocità e l’usabilità degli LLM. Questa piattaforma basata su TensorFlow minimizza i requisiti di codifica e offre ottimizzazioni delle prestazioni tramite il software. Grazie al compilatore di deep learning TensorRT e a altre tecniche, è possibile eseguire LLM su più GPU senza necessità di modificare il codice sorgente. Nvidia ha collaborato con importanti sviluppatori di LLM, tra cui Meta, Databricks e Grammarly, per integrare un ampio spettro di opzioni di modelli nella nuova libreria software.
Ian Buck, vice presidente dell’area hyperscale e informatica ad alte prestazioni di Nvidia, ha dichiarato durante una conferenza stampa: “Man mano che i modelli diventano più complessi e intelligenti, crescono in dimensioni, il che è naturale, ma quando si estendono oltre il limite di una singola GPU e devono funzionare su più GPU, ciò diventa un problema”. Buck ha aggiunto che, rispetto alle prestazioni ottenute l’anno precedente con la GPU A-100, la combinazione di Hopper e del software TensorRT-LLM ha portato a un incremento di otto volte nelle prestazioni delle inferenze LLM su modelli linguistici di grandi dimensioni.
Per riassumere i risultati dei test, TensorRT-LLM è riuscito a quadruplicare il throughput sul modello GPT-J 6B utilizzando le nuove GPU H100. Con il modello Llama 2 di Meta, ha registrato prestazioni 4,6 volte più veloci rispetto alle GPU A100. Inoltre, il software supporta la funzione “batch in volo”, che permette di gestire in modo dinamico carichi di inferenza variabili. Questo significa che, anziché attendere il completamento di batch completi, le richieste vengono elaborate man mano che arrivano. Nvidia ha affermato che ciò può raddoppiare il throughput nei carichi di lavoro reali.
Buck ha spiegato: “Il batching in volo consente al lavoro di entrare e uscire dalla GPU in modo indipendente da altre attività. Con TensorRT-LLM e il batching in-flight, il lavoro può entrare ed uscire dai batch in modo indipendente e asincrono, mantenendo così la GPU al 100% di utilizzo”.
Nvidia ha iniziato a offrire servizi cloud per l’intelligenza artificiale generativa all’inizio di quest’anno, espandendo rapidamente le sue operazioni. La collaborazione con Hugging Face per lo sviluppo di “Training Cluster as a Service” è un esempio. Questo strumento mira a semplificare la creazione di LLM aziendali. Nvidia vede TensorRT-LLM come un’opportunità per fornire una soluzione unificata per la formazione e l’implementazione di LLM, agevolando la vita di ricercatori e aziende nell’accesso a modelli LLM complessi. L’obiettivo di Nvidia è rimuovere ostacoli tecnici che spesso scoraggiano l’utilizzo di questa tecnologia, potenzialmente democratizzando l’accesso a una tecnologia vista da molti come costosa ed elitaria. L’accesso anticipato a TensorRT-LLM è già disponibile su GitHub e Nvidia NGC, con il rilascio generale previsto a breve all’interno del framework AI di Nvidia NeMo.