NVIDIA Cosmos 3, modello fondativo aperto che unisce ragionamento visivo, simulazione del mondo e generazione di azioni per l’AI fisica

NVIDIA ha presentato Cosmos 3, un modello fondativo aperto pensato per l’intelligenza artificiale fisica, ossia quella categoria di sistemi che devono percepire, ragionare e agire nel mondo reale anziché limitarsi a elaborare testo. Il punto di partenza è un problema concreto e ben noto a chi lavora con robot, veicoli autonomi e agenti di visione: questi sistemi faticano a generalizzare quando i dati di addestramento sono limitati e quando le pipeline di simulazione sono frammentate. Cosmos 3 prova ad attaccare proprio questa difficoltà, offrendo una base preaddestrata che riduce la quantità di dati necessari e abbassa i costi di training.

L’elemento tecnico più rilevante è l’architettura, definita mixture-of-transformers. Invece di affidarsi a un’unica rete generalista, il modello affianca un transformer dedicato al ragionamento a un transformer esperto nella generazione. Questa separazione permette al sistema di comprendere prima le interazioni tra oggetti, il movimento e le relazioni spazio-temporali, e solo successivamente di produrre video e traiettorie d’azione coerenti con quella comprensione. È una scelta progettuale che riflette il modo in cui un agente fisico dovrebbe operare: capire la scena prima di intervenire su di essa.

Cosmos 3 viene descritto come il primo omnimodello completamente aperto in grado di comprendere e generare nativamente testo, immagini, video, suono ambientale e azioni, con particolare attenzione all’accuratezza fisica del risultato. La promessa è di comprimere i cicli di addestramento e valutazione dell’AI fisica da mesi a giorni, un cambiamento che sul piano operativo conta quanto le prestazioni grezze, perché incide direttamente sulla velocità con cui un team può iterare. L’addestramento si è basato su uno dei dataset multimodali più ampi nel campo, con miliardi di campioni distribuiti tra testo, immagini, video, suono e traiettorie d’azione.

Nell’uso pratico il modello può assumere tre ruoli distinti. Può funzionare come modello visione-linguaggio capace di ragionare attraverso più modalità; può agire come modello del mondo o foundation model video, simulando ambienti fisici e prevedendo stati futuri da impiegare in addestramento e valutazione; può infine fare da struttura portante per i world action model, quelli che addestrano i robot a eseguire compiti specifici. La famiglia è articolata in più varianti pensate per fasi diverse: una versione orientata alla massima accuratezza fisica e qualità di generazione per il post-training di robotica e veicoli autonomi, una versione più rapida per ragionamento su video e azioni in frazioni di secondo, e una terza, ancora in arrivo, destinata all’inferenza in tempo reale direttamente sul dispositivo. Sul fronte dei benchmark, il modello viene posizionato ai vertici tra i sistemi aperti per accuratezza nella generazione del mondo, per le politiche d’azione e per la comprensione visiva.

Accanto al modello è nata anche una coalizione che riunisce sviluppatori di world model e realtà della robotica con l’obiettivo di far progredire i modelli del mondo aperti su scala industriale. I membri possono contribuire con modelli, ricerca e tecniche di valutazione, appoggiandosi agli strumenti di training e all’infrastruttura cloud di NVIDIA per l’addestramento su larga scala. La logica dichiarata è quella dell’ecosistema condiviso: costruire in modo aperto per favorire interoperabilità più ampia e innovazione più rapida. Sulla piattaforma si aggiungono inoltre nuovi dataset per robotica, fisica, movimento umano, guida autonoma, sicurezza in magazzino e ragionamento spaziale, insieme a competenze applicative come la ricostruzione neurale di scene, la generazione di immagini di difetti e l’augmentation video.

Il filo conduttore di tutta la presentazione è l’idea che l’AI fisica stia per vivere un salto generazionale, reso possibile dall’unione di ragionamento multimodale, visione e modelli del mondo in un’unica architettura. È un’impostazione che sposta il baricentro dalla generazione di contenuti alla capacità di un sistema di interpretare e influenzare un ambiente reale, e che punta a fornire agli sviluppatori una base comune e aperta su cui costruire robot, veicoli autonomi e agenti di visione.

NVIDIA Cosmos 3, modello fondativo aperto che unisce ragionamento visivo, simulazione del mondo e generazione di azioni per l’AI fisica

DiFantasy

Di Fantasy

Articoli correlati

Anthropic valuta l’accesso di ENISA UE a Claude Mythos, il modello AI specializzato nella cybersecurity

Apple prepara una funzione AI per dividere automaticamente le spese di gruppo dagli scontrini

Cisco presenta Cloud Control, una piattaforma agentica per gestire e proteggere infrastrutture IT critiche

Ultimi Post

NVIDIA Cosmos 3, modello fondativo aperto che unisce ragionamento visivo, simulazione del mondo e generazione di azioni per l’AI fisica

Anthropic valuta l’accesso di ENISA UE a Claude Mythos, il modello AI specializzato nella cybersecurity

Apple prepara una funzione AI per dividere automaticamente le spese di gruppo dagli scontrini

Cisco presenta Cloud Control, una piattaforma agentica per gestire e proteggere infrastrutture IT critiche