Immagine AI

NVIDIA ha recentemente introdotto il modello Llama-3.1 Nemotron Ultra, una versione avanzata del suo predecessore Llama-3.1-405B-Instruct. Questo nuovo modello, con 253 miliardi di parametri, offre prestazioni paragonabili a quelle del rinomato DeepSeek R1, nonostante abbia meno della metà dei parametri. ​

La progettazione del Llama-3.1 Nemotron Ultra si basa su un’architettura densa ottimizzata per l’inferenza. NVIDIA ha utilizzato un processo di Neural Architecture Search (NAS) per introdurre variazioni strutturali come strati di attenzione saltati, reti feedforward fuse e rapporti di compressione variabili delle FFN. Queste modifiche hanno ridotto l’ingombro di memoria e le esigenze computazionali, permettendo al modello di funzionare in modo efficiente su un singolo nodo GPU 8x H100. ​

Per migliorare le capacità di ragionamento e allineamento alle preferenze umane, NVIDIA ha implementato una pipeline di formazione post-addestramento in più fasi. Questo processo ha incluso un fine-tuning supervisionato in vari domini, come matematica, generazione di codice, chat e utilizzo di strumenti, seguito da un apprendimento per rinforzo con Group Relative Policy Optimization (GRPO). Il risultato è un modello che eccelle in compiti complessi di ragionamento e comprensione. ​

Nonostante una dimensione inferiore, il Llama-3.1 Nemotron Ultra ha mostrato prestazioni competitive rispetto al DeepSeek R1, un modello Mixture-of-Experts (MoE) con 671 miliardi di parametri. Ad esempio, nel benchmark GPQA, il Llama-3.1 Nemotron Ultra ha ottenuto un punteggio del 76,01%, superando il DeepSeek R1 che ha registrato il 71,5%. Tuttavia, il DeepSeek R1 ha mantenuto un vantaggio in alcuni test matematici, come AIME25. ​

Il codice del Llama-3.1 Nemotron Ultra è disponibile pubblicamente su Hugging Face, completo di pesi aperti e dati di formazione post-addestramento. Il modello supporta applicazioni multilingue e può essere utilizzato in vari casi d’uso, tra cui chatbot, flussi di lavoro di agenti AI, generazione di codice e risposte a domande generali. NVIDIA prevede che questo modello possa accelerare lo sviluppo di applicazioni AI complesse, offrendo un equilibrio tra prestazioni e efficienza.

Di Fantasy