Nvidia ha appena annunciato un nuovo servizio che migliorerà notevolmente l’efficienza nell’uso dei token per i modelli di intelligenza artificiale (IA), fino a cinque volte rispetto ai metodi tradizionali. Questo servizio darà anche accesso immediato ai microservizi NIM in esecuzione su Nvidia DGX Cloud.
L’annuncio è stato fatto dal CEO di Nvidia, Jensen Huang, durante il suo intervento alla conferenza Siggraph a Denver, Colorado.
Grazie a questo servizio, milioni di sviluppatori, inclusi quelli della grande comunità di Hugging Face (circa 4 milioni di persone), potranno accedere facilmente a inferenze accelerate da Nvidia per alcuni dei modelli di IA più popolari.
Il nuovo servizio permetterà agli sviluppatori di implementare rapidamente modelli linguistici di grandi dimensioni, come la famiglia Llama 3 e i modelli Mistral AI, utilizzando i microservizi Nvidia NIM su Nvidia DGX Cloud.
Queste nuove funzionalità, annunciate oggi alla conferenza Siggraph, consentiranno agli sviluppatori di prototipare e distribuire modelli IA open source ospitati su Hugging Face Hub in modo molto più veloce e flessibile. Gli utenti di Hugging Face Enterprise Hub beneficeranno dell’inferenza serverless, che offre maggiore flessibilità e prestazioni ottimizzate grazie a Nvidia NIM.
Il nuovo servizio di inferenza si integra con il già esistente Train on DGX Cloud, un servizio di formazione IA su Hugging Face. Gli sviluppatori potranno ora utilizzare un hub centralizzato per confrontare e testare modelli open source. Le nuove funzionalità di inferenza e formazione offriranno strumenti avanzati per sviluppare e distribuire modelli IA su infrastrutture Nvidia.
Nvidia NIM è una raccolta di microservizi per l’intelligenza artificiale che include modelli di Nvidia e modelli open source, ottimizzati per l’inferenza tramite API standard. NIM migliora l’efficienza dell’elaborazione dei token e delle risorse Nvidia DGX Cloud, accelerando le prestazioni delle applicazioni AI.
Ad esempio, la versione da 70 miliardi di parametri del modello Llama 3 offre prestazioni fino a cinque volte superiori quando viene eseguita come NIM rispetto ad altre versioni su GPU Nvidia H100 Tensor Core.
Nvidia DGX Cloud è progettata specificamente per l’intelligenza artificiale generativa e offre un’infrastruttura di elaborazione accelerata che facilita lo sviluppo e la messa in produzione di applicazioni IA. Fornisce risorse GPU scalabili per tutte le fasi dello sviluppo IA, senza richiedere impegni infrastrutturali a lungo termine da parte degli sviluppatori.