Un’intelligenza artificiale che non si limita a manipolare parole o numeri, ma che sa interpretare la fisica, percepire oggetti nello spazio, prevedere movimenti e interagire con il mondo reale con coerenza: questa è la promessa che NVIDIA sta lanciando al centro della sua strategia, e che chiama “intelligenza artificiale fisica” (Physical AI). In una recente intervista con il Financial Times, il vicepresidente di NVIDIA, Lev Levardian, ha evocato cifre ambiziose: se riusciremo davvero a “creare un’intelligenza in grado di comprendere il mondo fisico e operare al suo interno”, ciò potrebbe generare un valore economico fino a 100 trilioni di dollari.
Questa affermazione non è un semplice esercizio speculativo: prende corpo in progetti concreti che NVIDIA ha già iniziato a sviluppare, come il sistema Cosmos, concepito proprio per costruire “modelli mondiali” (world models) che uniscono simulazione, video, dati sensoriali e ragionamento grafico. In breve, NVIDIA punta su modelli generativi che non “parlano di” un mondo, ma piuttosto “construiscono” un mondo (virtuale) con le stesse leggi, da usare come base per formare robot, veicoli autonomi e agenti intelligenti capaci di agire.
I modelli linguistici (LLM) hanno dominato il discorso sull’intelligenza artificiale negli ultimi anni: generano testo, traducono, scrivono codice. Ma presentano limiti evidenti se si tratta di operare nel mondo fisico. Un’IA che deve prendere decisioni su come afferrare un oggetto, evitare ostacoli, muoversi in uno spazio 3D — queste sono situazioni nelle quali un modello puramente testuale vacilla. Serve un modello che “capisca” lo spazio, il tempo, le forze, la causalità.
I modelli mondiali provano a colmare questa lacuna: sono progettati per simulare ambienti realistici, prevedere stati futuri in scenari fisici, interpretare input multimodali (immagini, video, dati da sensori), e generare output coerenti con leggi fisiche. Diversi pionieri dell’IA — come Demis Hassabis (DeepMind), Fei-Fei Li (WorldLab), e il Chief Scientist Yann LeCun — vedono nei world model una delle chiavi per avanzare verso una forma di intelligenza artificiale generale (AGI).
Recentemente, aziende come Runway (nel video) e Niantic (mentre costruisce ambienti 3D per applicazioni AR) hanno iniziato a esplorare questa frontiera, mostrando che la generazione fisica non è più teoria, ma ambito di sviluppo pratico.
Uno dei pilastri concreti di questa visione è Cosmos, una piattaforma lanciata da NVIDIA per supportare lo sviluppo dell’IA fisica attraverso modelli mondiali fondativi (World Foundation Models, WFMs).
Cosmos è progettato per integrare diversi tipi di dati — testo, immagini, video, dati da sensori robotici — e produrre “output video basati sulla fisica” che riproducono ambienti tridimensionali coerenti, con oggetti, interazioni e dinamiche realistiche. NVIDIA lo descrive come “modello di base mondiale per Physical AI”, pensato per essere esteso, personalizzato, e utilizzato come base infrastrutturale per robot, veicoli autonomi, agenti video intelligenti e molto altro.
Ad esempio, i modelli Cosmos Predict (previsione dello stato del mondo nei secondi futuri) e Cosmos Transfer (capace di trasferire simulazioni da un ambiente all’altro) sono stati progettati per generare video realistici, simulare condizioni variabili e contribuire a colmare il divario tra simulazione e realtà (sim2real).
Un altro componente fondamentale è Cosmos Reason, un modello di “ragionamento fisico” in cui l’IA interpreta scene visive e genera decisioni — ad esempio, calcola quale passo un robot debba fare successivamente, in base a ragionamenti gerarchici sullo spazio, sul tempo e sulla causalità. Questo modello è descritto nei paper come in grado di “comprendere il mondo fisico e generare decisioni incarnate” mediante catene di pensiero.
Cosmos è anche accompagnato da strumenti di supporto: pipeline per curation e filtraggio video, tokenizzatori video, strumenti per il post-training dei modelli, e componenti hardware e software ottimizzati per l’uso nei data center.
Importante: questi modelli sono in gran parte open-weight e disponibili con licenze permissive, affinché sviluppatori e ricercatori possano costruirci sopra applicazioni personalizzate.
Quando Lev Levardian parla di un potenziale di 100 trilioni di dollari, non si riferisce a un calcolo esatto, ma ad una visione: se l’IA fisica diventasse capacemente affidabile e diffusa, potrebbe intervenire in ogni settore — dalla produzione, alla logistica, ai trasporti, all’agricoltura, all’edilizia, alla sanità — e ridefinire radicalmente il lavoro fisico e operativo in ogni economia. Alla luce che il PIL mondiale nominale si aggira oggi su cifre che oggi superano i cento trilioni, la portata dell’ambizione è chiara: l’IA che agisce nel mondo è un agente di trasformazione strutturale.