NVIDIA ha presentato “SANA-WM”, un nuovo world model open source progettato per generare sequenze video lunghe e ad alta risoluzione utilizzando risorse hardware molto più contenute rispetto ai sistemi concorrenti. Il modello introduce un approccio focalizzato sull’efficienza computazionale e sulla gestione avanzata dei movimenti di camera, con l’obiettivo di rendere accessibile la generazione video controllabile anche in ambienti single-GPU consumer.
I world model rappresentano una delle aree più strategiche dell’attuale evoluzione AI, perché non si limitano a generare singole immagini o brevi clip, ma cercano di simulare il comportamento coerente di ambienti tridimensionali nel tempo. In pratica, il sistema riceve un’immagine iniziale, istruzioni sul movimento della telecamera e informazioni sulle azioni da eseguire, producendo poi una sequenza video continua che mantiene coerenza spaziale e temporale. Questa tipologia di modello è particolarmente rilevante per robotica, simulazione fisica, training di agenti autonomi, digital twin e ambienti virtuali interattivi.
Il nuovo SANA-WM è basato su un’architettura da 2,6 miliardi di parametri ed è in grado di generare video nativi da 60 secondi in risoluzione 720p. Uno degli elementi più interessanti riguarda il supporto completo ai movimenti “6-DoF” (six degrees of freedom), cioè la capacità di controllare posizione e rotazione della telecamera lungo tutti gli assi spaziali. Questo consente di produrre scene con movimenti cinematici più realistici e coerenti rispetto ai tradizionali modelli video diffusion-based che spesso soffrono di drift visivo o perdita di stabilità durante le sequenze lunghe.
La vera differenza tecnica emerge però sul piano dell’efficienza. NVIDIA dichiara che la versione compressa del modello può generare un video da un minuto in 720p in circa 34 secondi utilizzando una singola GPU consumer come la NVIDIA GeForce RTX 5090. Questo rappresenta un cambio significativo rispetto ai grandi world model open source precedenti, che normalmente richiedevano configurazioni multi-GPU o infrastrutture datacenter molto costose per ottenere risultati comparabili.
Per raggiungere questo risultato, NVIDIA ha introdotto diverse ottimizzazioni architetturali. Una delle principali è la struttura “Hybrid Linear Attention”, progettata per ridurre drasticamente il consumo di memoria durante la generazione di video lunghi. Nei tradizionali transformer video, infatti, il costo computazionale cresce rapidamente con l’aumentare del numero di frame. SANA-WM combina invece moduli “Gated DeltaNet” con blocchi selettivi di softmax attention, mantenendo la qualità visiva ma riducendo la complessità computazionale complessiva.
Un altro componente rilevante è il sistema “Dual-Branch Camera Control”, sviluppato per separare la gestione del movimento globale della camera dai dettagli locali interni ai singoli frame. In pratica, il modello utilizza pipeline differenti per controllare la traiettoria cinematica generale e le micro-variazioni della scena, migliorando la stabilità dei movimenti anche nelle sequenze prolungate. Questo approccio cerca di risolvere uno dei problemi storici della generazione video AI, cioè la perdita progressiva di coerenza durante movimenti di camera complessi o continui.
NVIDIA ha inoltre implementato una pipeline a due fasi con un modello “refiner” separato, incaricato di correggere artefatti e degradazioni generate nella prima passata inferenziale. Il refiner interviene per ridurre fenomeni come struttura instabile della scena, distorsioni temporali e drifting visivo che tendono a comparire nei video di lunga durata. Nei benchmark interni pubblicati dall’azienda, la versione raffinata del modello ha raggiunto punteggi elevati nel test VBench dedicato alla qualità video e alla stabilità cinematica.
Anche il dataset di training evidenzia un approccio molto orientato alla simulazione spaziale. NVIDIA ha costruito oltre 212 mila clip di addestramento utilizzando sia video pubblici sia sequenze sintetiche generate con tecniche di Gaussian Splatting 3D. Parallelamente è stata sviluppata una pipeline automatica per estrarre dati di posizione e rotazione della camera, creando così un dataset annotato specificamente per il controllo preciso dei movimenti 6-DoF.
Dal punto di vista infrastrutturale, l’azienda ha dichiarato che l’addestramento del modello è stato eseguito su 64 GPU NVIDIA H100 per circa 15 giorni, una quantità di risorse considerata relativamente contenuta rispetto ai grandi modelli industriali di simulazione video attualmente disponibili. NVIDIA ha inoltre utilizzato ottimizzazioni proprietarie basate su Triton kernel per migliorare velocità di training e inferenza fino a circa 1,5-2 volte rispetto alle implementazioni standard.
Il rilascio open source di SANA-WM potrebbe avere un impatto significativo soprattutto nei settori della robotica simulata, della ricerca embodied AI e della produzione sintetica di ambienti dinamici. Ridurre drasticamente il costo hardware necessario per generare video controllabili di lunga durata apre infatti la possibilità di sviluppare sistemi di simulazione avanzata anche fuori dai grandi laboratori industriali, spostando parte della sperimentazione verso community indipendenti, università e piccoli team di ricerca.
