Nvidia ha annunciato al GTC una nuova tecnologia chiamata Nvidia Inference Microservices (NIM), progettata per accelerare l’implementazione di modelli LLM (Large Language Model) di intelligenza artificiale generativa e migliorare l’efficienza dell’inferenza.
NIM comprende motori di inferenza ottimizzati, API standard del settore e supporto per modelli di intelligenza artificiale in contenitori, facilitando l’implementazione sia di modelli precostituiti che di modelli personalizzati. Questo nuovo approccio mira a supportare e accelerare l’implementazione di Retrieval Augmented Generation (RAG), consentendo alle organizzazioni di portare i propri dati proprietari.
La tecnologia NIM è stata sviluppata in collaborazione con grandi fornitori di software come SAP, Adobe, Cadence, Getty Images e molti altri, nonché con fornitori di piattaforme dati come BOX, Cloudera, Dropbox e Snowflake.
Il concetto di un NIM si basa su contenitori di microservizi che possono includere una vasta gamma di modelli, eseguibili ovunque ci sia una GPU Nvidia. Questi contenitori possono essere distribuiti su diverse piattaforme, sia nel cloud che su server locali o persino su laptop. Nvidia sta facilitando l’accesso e l’utilizzo di NIM attraverso il suo nuovo sito Web ai.nvidia.com.
È importante notare che un NIM non sostituisce gli strumenti esistenti di Nvidia per la consegna dei modelli, ma piuttosto fornisce un contenitore ottimizzato per l’inferenza su GPU Nvidia insieme alle tecnologie necessarie.
Un caso d’uso chiave per i NIM sarà il supporto dei modelli di implementazione RAG, che sono sempre più diffusi tra i clienti. L’integrazione dei microservizi NeMo Retriever di Nvidia all’interno dei NIM contribuirà a ottimizzare il recupero dei dati e a migliorare l’efficienza complessiva dell’inferenza.
In sintesi, Nvidia mira a semplificare e accelerare l’implementazione di modelli LLM e di altre forme di intelligenza artificiale generativa attraverso la sua nuova tecnologia NIM, offrendo agli sviluppatori e alle organizzazioni un framework robusto e flessibile per l’inferenza di prossima generazione.