In un’epoca in cui i modelli linguistici di grandi dimensioni sono spesso percepiti come l’apice della potenza computazionale, NVIDIA sceglie un percorso diverso: più raffinato, efficiente e controllato. Il protagonista è il Nemotron‑Nano 9B v2, un modello compatto di circa 9 miliardi di parametri — una diminuzione rispetto alla versione precedente da 12 miliardi — progettato per operare su una singola GPU A10 senza rinunciare a performance d’eccellenza.
- Architettura ibrida: più efficienza, meno memoria
Il segreto dell’efficienza risiede nel mix tra architettura Transformer e Mamba‑2, noto come Nemotron‑H. I moduli Mamba‑2 sostituiscono gran parte dell’attenzione standard con meccanismi di tipo state‑space che scalano linearmente rispetto alla lunghezza della sequenza, riducendo drasticamente uso di memoria e calcolo. Il risultato? Fino a 6× più throughput su contesti lunghi, pur mantenendo un livello di accuratezza simile ai modelli Transformer puri. - Il “toggle” del ragionamento: pensare solo quando serve
Una delle novità più interessanti è la possibilità di attivare o disattivare la modalità di ragionamento tramite comandi testuali come /think o /no_think. Di default, il modello genera una “traccia di ragionamento” prima di formulare la risposta. Ma l’utente può decidere di disattivare questa modalità, privilegiando la velocità quando la complessità della domanda lo consente. - “Thinking budget”: più controllo sulle risorse
NVIDIA ha pensato anche a un budget di ragionamento runtime, consentendo di definire quanti token il modello può usare per il ragionamento interno prima di fornire la risposta. Questo permette un bilanciamento tra accuratezza e latenza, fondamentale in contesti dove ogni millisecondo conta: chatbot, agenti autonomi, supporto automatizzato. - Eccelle nei test — e batte i “rivali”
Sui benchmark di ragionamento, Nemotron‑Nano 9B v2 ottiene risultati di rilievo:
- AIME25: 72.1 %
- MATH500: 97.8 %
- GPQA: 64.0 %
- LiveCodeBench (programmazione): 71.1 %
- IFEval (istruzioni): 90.3 %
- RULER (128k): 78.9 %
In confronto al modello Qwen3‑8B, Nemotron‑Nano v2 offre non solo migliore accuratezza, ma anche una latenza inferiore, grazie alla sua architettura compatta e ottimizzata.
- Open, trasparente e pronto all’uso commerciale
Il modello è disponibile su Hugging Face e sul catalogo NVIDIA, con peso liberamente utilizzabile in ambito commerciale. La Open Model License di NVIDIA è permissiva: libera creazione e distribuzione di derivati, nessun vincolo di royalty o soglia sull’uso. L’unico richiamo riguarda la responsabilità sull’output generato e l’impegno al rispetto di linee guida etiche e normative (compresi i guardrail e l’attribuzione). - Dietro il modello: compressione, allenamento e dataset
L’origine del Nano 9B v2 risale a una versione base da 12 miliardi di parametri, pre‑allenata su 20 trilioni di token in precisione FP8. Attraverso tecniche di pruning, distillazione (Minitron) e raffinamenti come SFT, RLHF, DPO e GRPO, si è ottenuto un modello ridotto ma mantenuto accuratezza elevata, in grado di gestire 128k token contestuali su una GPU A10 da 22 GiB.
Grazie al suo design, Nemotron‑Nano può essere implementato in sistemi edge o su dispositivi con risorse limitate. I settori interessati includono customer support, agenti autonomi, copilots per tool usage, RAG(retrieval‑augmented generation) e altro ancora.