Google ha recentemente introdotto Gemma, i nuovi modelli linguistici leggeri con 2 miliardi e 7 miliardi di parametri, progettati per essere eseguiti in modo efficiente ovunque, riducendo i costi e accelerando l’innovazione per casi d’uso specifici nel dominio linguistico. In collaborazione con NVIDIA, sono state implementate ottimizzazioni su tutte le piattaforme AI NVIDIA per Gemma.
Attraverso l’utilizzo di NVIDIA TensorRT-LLM, una libreria open source per l’ottimizzazione dell’inferenza di modelli linguistici di grandi dimensioni, e l’impiego delle GPU NVIDIA nei data center, nel cloud e localmente su workstation con GPU NVIDIA RTX o PC con GPU GeForce RTX, le due aziende hanno collaborato per migliorare le prestazioni di Gemma. Basato sulla stessa ricerca e tecnologia dei modelli Gemini, Gemma può essere utilizzato su oltre 100 milioni di PC ad alte prestazioni in tutto il mondo dotati di GPU NVIDIA RTX.
Gli sviluppatori hanno anche la possibilità di utilizzare Gemma sulle GPU NVIDIA nel cloud, come le istanze A3 su Google Cloud che sono basate sulla GPU H100 Tensor Core e sulle future GPU H200 Tensor Core di NVIDIA, caratterizzate da 141 GB di memoria HBM3e e una larghezza di banda di 4,8 terabyte al secondo. Per ottimizzare ulteriormente Gemma e integrare il modello nelle loro applicazioni di produzione, gli sviluppatori aziendali possono sfruttare l’ampio ecosistema di tecnologie NVIDIA, che include NVIDIA AI Enterprise con il framework NeMo e TensorRT-LLM.