Nvidia ha introdotto una nuova generazione di sistemi progettati per migliorare l’efficienza computazionale e la capacità di ragionamento delle applicazioni AI avanzate. Tra questi, Nemotron 3 Super rappresenta uno dei modelli più significativi della famiglia Nemotron 3, una linea di modelli open-weights pensata per supportare applicazioni aziendali, agenti autonomi e sistemi di analisi complessi. Il modello si distingue per un’architettura ibrida che combina tre approcci differenti alla progettazione dei modelli neurali, con l’obiettivo di migliorare contemporaneamente prestazioni, efficienza e scalabilità.
Nemotron 3 Super è un modello con circa 120 miliardi di parametri complessivi, progettato per gestire compiti di ragionamento avanzato e workflow agentici che richiedono l’elaborazione di grandi quantità di dati testuali e documentali. In molte applicazioni aziendali, infatti, i sistemi AI devono analizzare grandi corpus di documenti, interagire con basi di conoscenza aziendali o eseguire operazioni di ricerca multi-passo. In questi scenari, il volume di token generati e processati può essere molto superiore rispetto alle tradizionali applicazioni di chat AI, rendendo fondamentale migliorare l’efficienza dell’inferenza.
Per affrontare queste esigenze, Nvidia ha progettato Nemotron 3 Super come un sistema ibrido che integra tre differenti componenti architetturali: modelli state-space basati su Mamba, livelli di attenzione Transformer e un sistema di esperti dinamici basato su mixture-of-experts. Questa combinazione consente al modello di sfruttare i vantaggi di ciascun approccio, mitigandone allo stesso tempo le limitazioni.
Uno degli elementi più innovativi del modello è l’utilizzo delle architetture state-space Mamba-2 per la gestione delle sequenze di testo. I modelli state-space sono progettati per elaborare sequenze molto lunghe con complessità lineare rispetto alla lunghezza del contesto. Questo significa che il costo computazionale cresce in modo molto più contenuto rispetto ai modelli Transformer tradizionali, nei quali l’attenzione completa tra tutti i token può diventare estremamente costosa quando la lunghezza del contesto aumenta. Grazie a questo approccio, Nemotron 3 Super è in grado di gestire finestre di contesto estremamente ampie, fino a circa un milione di token, rendendo possibile l’analisi di grandi archivi documentali o di interi repository di codice all’interno di una singola sessione di inferenza.
Nonostante l’efficienza dei modelli state-space, questi sistemi presentano alcune limitazioni quando si tratta di compiti che richiedono recupero preciso di informazioni all’interno del contesto. Per questo motivo Nvidia ha mantenuto all’interno dell’architettura anche livelli Transformer con meccanismi di attenzione. Questi livelli sono posizionati strategicamente all’interno della rete neurale e servono a preservare la capacità di associazione tra informazioni distanti nella sequenza, una funzione fondamentale per attività come il ragionamento logico, l’analisi di documenti complessi o il recupero di informazioni specifiche all’interno di contesti molto lunghi.
Il terzo elemento dell’architettura è rappresentato dal sistema mixture-of-experts, una tecnica sempre più diffusa nei modelli linguistici di grandi dimensioni. In un modello MoE, diverse sottoreti specializzate – chiamate “esperti” – vengono attivate dinamicamente in base al contenuto dell’input. In questo modo il modello può mantenere un numero molto elevato di parametri complessivi, ma utilizzare solo una parte di essi per ogni singola richiesta. Questo approccio riduce il costo computazionale dell’inferenza e consente allo stesso tempo di mantenere elevata la capacità espressiva del modello.
Nel caso di Nemotron 3 Super, Nvidia ha introdotto una variante denominata Latent Mixture-of-Experts. In questa architettura, i token vengono proiettati in uno spazio latente più compatto prima di essere instradati verso gli esperti. Questo processo riduce significativamente i costi di comunicazione tra le diverse parti del modello e migliora l’efficienza complessiva dell’inferenza, consentendo di utilizzare più esperti senza aumentare eccessivamente il carico computazionale.
Un altro aspetto rilevante del modello riguarda l’ottimizzazione hardware. Nemotron 3 Super è stato progettato per funzionare in modo particolarmente efficiente sulle GPU Nvidia di nuova generazione basate sull’architettura Blackwell. Durante il processo di addestramento, il modello è stato pre-allenato utilizzando un formato numerico a 4 bit denominato NVFP4, che consente di ridurre significativamente il consumo di memoria senza compromettere la qualità delle prestazioni. Secondo Nvidia, questa ottimizzazione permette di ottenere velocità di inferenza fino a quattro volte superiori rispetto ai modelli a 8 bit eseguiti sulle precedenti GPU Hopper.
Dal punto di vista delle prestazioni, Nemotron 3 Super è stato programmato in particolare per applicazioni di tipo agentico, cioè sistemi di intelligenza artificiale che eseguono catene di ragionamento multi-passo e interagiscono con strumenti esterni. In benchmark dedicati a compiti di ricerca complessi su grandi collezioni di documenti, il modello ha raggiunto risultati molto competitivi rispetto ad altri modelli open-weights di dimensioni simili.
L’apertura dei pesi del modello rappresenta un altro elemento strategico dell’iniziativa. Nvidia ha reso disponibili i pesi di Nemotron 3 Super su piattaforme di condivisione come Hugging Face, insieme a documentazione tecnica e ricette di addestramento. Questa scelta mira a favorire lo sviluppo di applicazioni personalizzate da parte di aziende e sviluppatori, che possono adattare il modello a specifici contesti industriali o integrare nuove capacità attraverso tecniche di fine-tuning.
