Immagine AI

NVIDIA ha reso disponibile in modalità open source Nemotron 3 Ultra, il nuovo modello linguistico di punta progettato per supportare agenti di intelligenza artificiale in grado di eseguire attività complesse e prolungate nel tempo. A differenza dei modelli ottimizzati principalmente per chatbot conversazionali, Nemotron 3 Ultra è stato sviluppato per scenari che richiedono pianificazione, utilizzo di strumenti esterni, esecuzione di codice, gestione della memoria e processi di ragionamento distribuiti su lunghi flussi operativi.

Il modello utilizza un’architettura Mix of Experts con un totale di 550 miliardi di parametri. Tuttavia, durante l’inferenza ne vengono attivati soltanto 55 miliardi per ciascun token elaborato. Questo approccio consente di mantenere capacità elevate riducendo significativamente il carico computazionale rispetto a un modello denso di dimensioni equivalenti. NVIDIA ha inoltre implementato la propria tecnologia LatentMoE per aumentare il numero di esperti disponibili senza incrementare proporzionalmente il costo operativo.

Dal punto di vista architetturale, Nemotron 3 Ultra si distingue per l’adozione di una struttura ibrida Mamba-Attention. Questa scelta rappresenta un’evoluzione rispetto ai tradizionali modelli Transformer, combinando i vantaggi dei meccanismi di attenzione con i modelli a stato strutturato della famiglia Mamba. L’obiettivo è migliorare la gestione di contesti estremamente lunghi, evitando che il costo computazionale cresca rapidamente all’aumentare della quantità di testo elaborata.

Grazie a questa architettura il modello supporta finestre di contesto fino a un milione di token. Nei test effettuati sul benchmark RULER dedicato alla valutazione della comprensione di contesti estesi, Nemotron 3 Ultra ha ottenuto un punteggio di 94,7 punti, mantenendo elevate capacità di recupero delle informazioni anche in documenti di dimensioni molto superiori a quelle normalmente gestite dai modelli linguistici tradizionali.

NVIDIA ha inoltre evidenziato miglioramenti significativi nelle prestazioni di inferenza. Nei benchmark eseguiti sull’infrastruttura GB200, il modello ha mostrato throughput superiori rispetto a diversi concorrenti open source nelle attività agentiche di lunga durata. Secondo i dati condivisi dall’azienda, il sistema riesce a completare molte operazioni utilizzando meno token rispetto ai modelli alternativi, contribuendo a una riduzione dei costi complessivi che può arrivare fino al 30% in alcuni scenari di utilizzo.

L’addestramento è stato effettuato su un corpus di circa 20 trilioni di token e successivamente perfezionato attraverso tecniche di Supervised Fine-Tuning, Reinforcement Learning e Multi On-Policy Distillation. Quest’ultima rappresenta una delle componenti più innovative del progetto: NVIDIA ha utilizzato oltre dieci modelli specialistici come insegnanti in domini quali programmazione, matematica, ricerca, ingegneria del software e sicurezza informatica, sfruttando i loro giudizi per guidare l’apprendimento del modello finale.

I risultati ottenuti nei benchmark mostrano prestazioni competitive in diverse categorie. Nemotron 3 Ultra ha raggiunto punteggi elevati nelle valutazioni dedicate agli agenti AI, alla ricerca avanzata, all’ingegneria del software e alla risoluzione di problemi in ambienti terminali reali. NVIDIA evidenzia inoltre risultati particolarmente rilevanti nelle prove ispirate alle Olimpiadi Internazionali di Informatica, dove il modello ha dimostrato capacità di programmazione avanzate.

Contestualmente al rilascio del modello, NVIDIA ha presentato anche nuovi strumenti destinati alla costruzione di ecosistemi agentici. Nemotron 3 Ultra è integrabile con framework open source dedicati agli agenti AI e supporta scenari multi-agente che includono esecuzione di codice, utilizzo di strumenti esterni, gestione della memoria e recupero automatico dagli errori. L’azienda ha inoltre pubblicato non soltanto i pesi del modello tramite Hugging Face, ma anche dataset e procedure di addestramento, con l’obiettivo di favorire ricerca, trasparenza e sviluppo di applicazioni avanzate.

Insieme a Nemotron 3 Ultra sono stati annunciati anche Nemotron 3.5 Content Safety, un modello da 4 miliardi di parametri per il monitoraggio di contenuti testuali, visivi e multimodali in 12 lingue, e Nemotron 3.5 ASR, un sistema di riconoscimento vocale multilingue con latenza inferiore a 100 millisecondi progettato per alimentare agenti AI vocali in tempo reale.

Di Fantasy