Negli ultimi anni il concetto di world model è diventato uno dei pilastri emergenti dell’intelligenza artificiale applicata alla robotica e ai sistemi autonomi. L’idea di fondo è che una macchina intelligente debba possedere una rappresentazione interna del mondo che le consenta di prevedere le conseguenze delle proprie azioni prima di eseguirle. Questa capacità, ispirata ai meccanismi cognitivi del cervello umano, permette ai robot di simulare scenari futuri e scegliere strategie operative efficaci in ambienti complessi.
In questo contesto si inserisce il lavoro della società sudcoreana NC AI, guidata dal CEO Lee Yeon-soo, che ha annunciato un importante risultato nel campo dei modelli del mondo con il proprio World Foundation Model (WFM). Secondo quanto dichiarato dall’azienda, il sistema ha raggiunto prestazioni comparabili con i modelli globali di riferimento, pur utilizzando una quantità significativamente inferiore di risorse computazionali. In particolare, il modello sarebbe in grado di raggiungere circa l’80% delle prestazioni di un modello SOTA globale utilizzando solo un quarto delle risorse GPU normalmente necessarie.
Questo risultato è rilevante perché uno dei principali ostacoli allo sviluppo dell’intelligenza artificiale fisica riguarda proprio il costo computazionale dei modelli necessari per simulare il mondo reale. I sistemi di AI avanzati utilizzati nella robotica moderna richiedono spesso enormi quantità di calcolo per analizzare ambienti complessi, generare simulazioni visive e pianificare azioni. Ridurre drasticamente queste esigenze computazionali rappresenta quindi un passo fondamentale per rendere queste tecnologie scalabili e utilizzabili in applicazioni industriali reali.
Il punto centrale dell’innovazione proposta da NC AI riguarda la struttura stessa del modello del mondo. Nei sistemi tradizionali, il processo di simulazione e decisione viene generalmente suddiviso in quattro fasi principali. La prima consiste nel riconoscimento dell’ambiente esterno attraverso sensori e modelli di percezione visiva. La seconda fase riguarda la generazione di immagini o video che rappresentano le possibili evoluzioni future della scena osservata. Questa fase di rendering simula visivamente le conseguenze delle azioni possibili. Successivamente interviene un modello di tipo Visual Language Model (VLM) che analizza le immagini generate per interpretare la situazione e individuare l’azione più appropriata. Infine, sulla base di questa analisi, il sistema determina e esegue l’azione del robot.
Questo approccio ha dimostrato una grande efficacia nel campo della robotica autonoma, ma presenta anche importanti limiti tecnici. La generazione di immagini o video realistici in tempo reale richiede infatti una potenza di calcolo estremamente elevata, soprattutto quando si tratta di produrre simulazioni ad alta risoluzione. Inoltre, i modelli generativi possono introdurre errori o allucinazioni durante la produzione delle immagini, con il rischio che il sistema interpreti scenari inesistenti e prenda decisioni sbagliate.
NC AI ha deciso di affrontare questo problema modificando radicalmente l’architettura del modello. Il World Foundation Model elimina completamente due delle quattro fasi tradizionali del processo, ovvero la generazione delle immagini e l’analisi visiva tramite VLM. Invece di simulare scenari futuri sotto forma di immagini, il sistema utilizza una rappresentazione interna basata su uno spazio latente che descrive lo stato del mondo e le possibili azioni del robot.
All’interno di questo spazio latente, il modello calcola direttamente i valori delle azioni possibili basandosi su leggi fisiche e informazioni sullo stato dell’ambiente. In altre parole, invece di produrre immagini che rappresentano il futuro per poi analizzarle, il sistema esegue simulazioni numeriche delle dinamiche fisiche e traduce immediatamente queste simulazioni in decisioni operative.
Questo approccio ricorda in parte il modo in cui il cervello umano pianifica le azioni. Gli esseri umani non generano necessariamente immagini dettagliate di ogni possibile scenario futuro prima di compiere un movimento. Piuttosto, il sistema nervoso utilizza modelli interni della fisica del mondo per stimare rapidamente le conseguenze delle azioni. Applicare questo principio all’intelligenza artificiale consente di semplificare enormemente il processo computazionale.
Eliminando le fasi di rendering e analisi visiva, il modello di NC AI riduce drasticamente il numero di operazioni necessarie per prendere una decisione. L’azienda ha dichiarato che questo approccio consente di ridurre di circa il 75% il consumo di risorse GPU rispetto ai sistemi tradizionali, mantenendo comunque prestazioni competitive rispetto ai modelli di riferimento a livello globale.
Un altro aspetto importante riguarda il cosiddetto problema Sim2Real, uno dei principali ostacoli nello sviluppo di robot intelligenti. Questo fenomeno si verifica quando un sistema addestrato in simulazione virtuale non riesce a funzionare correttamente nel mondo reale. Le simulazioni possono infatti semplificare o approssimare fenomeni fisici complessi come gravità, attrito, collisioni o deformazioni dei materiali. Quando il robot viene trasferito dall’ambiente simulato a quello reale, queste differenze possono causare errori di comportamento.
Secondo NC AI, il nuovo modello riduce significativamente questo divario tra simulazione e realtà. Poiché il sistema basa le proprie decisioni su simulazioni numeriche direttamente legate alle leggi fisiche, piuttosto che su rappresentazioni visive generate artificialmente, la corrispondenza con il comportamento del mondo reale risulta più accurata. Questo miglioramento potrebbe avere un impatto significativo sulle applicazioni industriali della robotica autonoma.
I risultati sperimentali presentati dall’azienda indicano prestazioni molto competitive in diversi compiti di robotica. Il modello è stato testato su un insieme di 24 attività relative al controllo di bracci robotici, ottenendo circa il 70% delle prestazioni dei migliori modelli globali di riferimento. Nelle 18 missioni considerate più rilevanti per l’implementazione industriale, il sistema ha raggiunto un tasso di successo pari all’80% rispetto a modelli avanzati come Cosmos sviluppato da NVIDIA.
NC AI, poi, sta investendo nella generazione di grandi quantità di dati sintetici destinati all’addestramento di sistemi di intelligenza artificiale fisica. L’azienda utilizza un proprio modello generativo tridimensionale chiamato Barco 3D, considerato attualmente uno dei pochi modelli 3D generativi sviluppati in Corea del Sud. Grazie a questa piattaforma e all’utilizzo di un linguaggio specifico di dominio progettato per la simulazione industriale, NC AI è in grado di generare enormi quantità di dati sintetici necessari per addestrare sistemi robotici. Secondo le dichiarazioni dell’azienda, utilizzando cento GPU H100 è possibile produrre circa 10.000 ore di video sintetici in appena undici giorni.
La disponibilità di grandi dataset sintetici è un elemento fondamentale per lo sviluppo dell’intelligenza artificiale fisica. Molti scenari industriali sono difficili o costosi da registrare nel mondo reale, soprattutto quando si tratta di ambienti altamente specializzati come camere bianche per la produzione di semiconduttori, processi siderurgici o cantieri navali. La generazione sintetica di dati consente di simulare questi ambienti in modo controllato, creando grandi quantità di esempi per addestrare i modelli. Attraverso questo approccio, NC AI mira a costruire un ecosistema completo per l’intelligenza artificiale applicata alla robotica industriale. L’obiettivo dichiarato è sviluppare una filiera tecnologica che includa la generazione dei dati, l’addestramento dei modelli e l’implementazione operativa dei sistemi robotici in ambienti industriali complessi.
Secondo Lee Yeon-soo, il risultato ottenuto con il World Foundation Model dimostra che è possibile sviluppare modelli di intelligenza artificiale altamente efficienti basati su architetture ottimizzate e su una comprensione più profonda delle leggi fisiche che governano il mondo reale. L’approccio proposto rappresenta quindi un’alternativa al paradigma dominante degli ultimi anni, che si è spesso basato sull’aumento continuo delle dimensioni dei modelli e delle risorse computazionali utilizzate.
