Immagine AI

NVIDIA ha presentato Cosmos 3, un modello fondativo aperto pensato per l’intelligenza artificiale fisica, ossia quella categoria di sistemi che devono percepire, ragionare e agire nel mondo reale anziché limitarsi a elaborare testo. Il punto di partenza è un problema concreto e ben noto a chi lavora con robot, veicoli autonomi e agenti di visione: questi sistemi faticano a generalizzare quando i dati di addestramento sono limitati e quando le pipeline di simulazione sono frammentate. Cosmos 3 prova ad attaccare proprio questa difficoltà, offrendo una base preaddestrata che riduce la quantità di dati necessari e abbassa i costi di training.

L’elemento tecnico più rilevante è l’architettura, definita mixture-of-transformers. Invece di affidarsi a un’unica rete generalista, il modello affianca un transformer dedicato al ragionamento a un transformer esperto nella generazione. Questa separazione permette al sistema di comprendere prima le interazioni tra oggetti, il movimento e le relazioni spazio-temporali, e solo successivamente di produrre video e traiettorie d’azione coerenti con quella comprensione. È una scelta progettuale che riflette il modo in cui un agente fisico dovrebbe operare: capire la scena prima di intervenire su di essa.

Cosmos 3 viene descritto come il primo omnimodello completamente aperto in grado di comprendere e generare nativamente testo, immagini, video, suono ambientale e azioni, con particolare attenzione all’accuratezza fisica del risultato. La promessa è di comprimere i cicli di addestramento e valutazione dell’AI fisica da mesi a giorni, un cambiamento che sul piano operativo conta quanto le prestazioni grezze, perché incide direttamente sulla velocità con cui un team può iterare. L’addestramento si è basato su uno dei dataset multimodali più ampi nel campo, con miliardi di campioni distribuiti tra testo, immagini, video, suono e traiettorie d’azione.

Nell’uso pratico il modello può assumere tre ruoli distinti. Può funzionare come modello visione-linguaggio capace di ragionare attraverso più modalità; può agire come modello del mondo o foundation model video, simulando ambienti fisici e prevedendo stati futuri da impiegare in addestramento e valutazione; può infine fare da struttura portante per i world action model, quelli che addestrano i robot a eseguire compiti specifici. La famiglia è articolata in più varianti pensate per fasi diverse: una versione orientata alla massima accuratezza fisica e qualità di generazione per il post-training di robotica e veicoli autonomi, una versione più rapida per ragionamento su video e azioni in frazioni di secondo, e una terza, ancora in arrivo, destinata all’inferenza in tempo reale direttamente sul dispositivo. Sul fronte dei benchmark, il modello viene posizionato ai vertici tra i sistemi aperti per accuratezza nella generazione del mondo, per le politiche d’azione e per la comprensione visiva.

Accanto al modello è nata anche una coalizione che riunisce sviluppatori di world model e realtà della robotica con l’obiettivo di far progredire i modelli del mondo aperti su scala industriale. I membri possono contribuire con modelli, ricerca e tecniche di valutazione, appoggiandosi agli strumenti di training e all’infrastruttura cloud di NVIDIA per l’addestramento su larga scala. La logica dichiarata è quella dell’ecosistema condiviso: costruire in modo aperto per favorire interoperabilità più ampia e innovazione più rapida. Sulla piattaforma si aggiungono inoltre nuovi dataset per robotica, fisica, movimento umano, guida autonoma, sicurezza in magazzino e ragionamento spaziale, insieme a competenze applicative come la ricostruzione neurale di scene, la generazione di immagini di difetti e l’augmentation video.

Il filo conduttore di tutta la presentazione è l’idea che l’AI fisica stia per vivere un salto generazionale, reso possibile dall’unione di ragionamento multimodale, visione e modelli del mondo in un’unica architettura. È un’impostazione che sposta il baricentro dalla generazione di contenuti alla capacità di un sistema di interpretare e influenzare un ambiente reale, e che punta a fornire agli sviluppatori una base comune e aperta su cui costruire robot, veicoli autonomi e agenti di visione.

Di Fantasy