Negli ultimi anni la ricerca sull’intelligenza artificiale generativa ha prodotto progressi significativi nella creazione di immagini, video e ambienti virtuali. Tuttavia, la maggior parte dei modelli sviluppati fino a oggi si è concentrata sulla generazione di scene plausibili ma non necessariamente fedeli a luoghi reali. I sistemi generativi più diffusi sono infatti progettati per creare ambienti realistici dal punto di vista visivo, ma non garantiscono la corrispondenza con la struttura geografica o urbanistica di una città esistente. In questo contesto emerge una nuova direzione della ricerca denominata “world models”, ovvero modelli di intelligenza artificiale capaci di simulare ambienti reali mantenendo la coerenza spaziale e temporale del mondo fisico. Un esempio significativo di questo approccio è il Seoul World Model (SWM), sviluppato da un gruppo di ricercatori di Naver, del Korea Advanced Institute of Science and Technology (KAIST) e della Seoul National University.
Il Seoul World Model rappresenta un modello generativo su scala urbana progettato per riprodurre fedelmente la struttura reale della città di Seoul. A differenza dei modelli video generativi tradizionali, che producono sequenze visive basate su probabilità statistiche e immaginazione sintetica, SWM utilizza dati geografici e immagini reali della città per generare video che mantengono l’allineamento con le strade, gli edifici e la disposizione urbanistica effettiva del territorio. Questo approccio consente di creare ambienti virtuali navigabili che riflettono la topografia e l’architettura della città reale, trasformando i sistemi di generazione video in veri strumenti di simulazione urbana.
Il funzionamento del modello si basa sull’integrazione tra dati geografici, immagini panoramiche e modelli generativi di visione artificiale. Quando l’utente inserisce una posizione specifica, una traiettoria della telecamera e una descrizione testuale dello scenario, il sistema utilizza queste informazioni per individuare le immagini di Street View corrispondenti all’area richiesta. Il modello analizza quindi queste immagini e genera una sequenza video che riproduce il movimento nello spazio urbano mantenendo la coerenza con la struttura reale della città. Questo processo non si limita alla semplice combinazione di immagini esistenti, ma implica la creazione di nuove rappresentazioni visive generate dall’intelligenza artificiale che riflettono simultaneamente la struttura spaziale dell’ambiente e le caratteristiche visive delle immagini originali.
Uno degli aspetti più innovativi del Seoul World Model riguarda la capacità di mantenere la coerenza spaziale su lunghe sequenze video. Nei modelli generativi tradizionali, infatti, la qualità delle immagini tende a deteriorarsi quando la sequenza si estende nel tempo o quando la telecamera si sposta su distanze considerevoli. Questo fenomeno è dovuto alla difficoltà di mantenere un riferimento stabile all’interno della scena durante la generazione delle immagini successive. Per superare questo limite, il team di ricerca ha sviluppato una struttura denominata Virtual Lookahead Sink. Questa tecnica introduce un punto di riferimento virtuale che viene utilizzato durante il processo di generazione per confrontare continuamente le immagini future con quelle già generate, mantenendo così la coerenza spaziale anche durante movimenti prolungati attraverso l’ambiente urbano.
Grazie a questa architettura, il modello è in grado di simulare percorsi molto più lunghi rispetto ai sistemi generativi precedenti, mantenendo un allineamento accurato con la struttura reale della città. Ciò significa che l’intelligenza artificiale non produce semplicemente immagini realistiche, ma costruisce una rappresentazione coerente dello spazio urbano che rimane stabile anche durante movimenti complessi della telecamera.
Un’altra caratteristica importante del Seoul World Model riguarda la gestione dei movimenti della telecamera. Il sistema non è limitato alla prospettiva tipica delle riprese stradali utilizzate nei servizi di mappatura online, ma supporta una varietà di traiettorie e modalità di osservazione. Il modello può generare sequenze che simulano la visuale di un pedone, il movimento di un veicolo o traiettorie libere che attraversano incroci e spazi urbani da diverse angolazioni. Questa flessibilità consente di utilizzare il modello per simulazioni dinamiche in cui la prospettiva dell’osservatore cambia continuamente durante l’esplorazione dell’ambiente.
La costruzione di un modello generativo urbano accurato richiede una grande quantità di dati di addestramento. Nel caso del Seoul World Model, i ricercatori hanno utilizzato circa 1,2 milioni di immagini panoramiche raccolte in tutta la città di Seoul. Queste immagini sono state integrate con oltre 10.000 sequenze video sintetiche generate attraverso il simulatore CARLA, una piattaforma open source utilizzata per la simulazione di ambienti urbani e veicoli autonomi. L’utilizzo di dati sintetici è stato fondamentale per compensare le limitazioni dei dataset reali, permettendo al modello di apprendere una maggiore varietà di movimenti e traiettorie all’interno dello spazio urbano.
Durante il processo di addestramento, il modello è stato progettato per concentrarsi sulla struttura permanente della città piuttosto che sugli elementi temporanei presenti nelle immagini, come veicoli o pedoni. Per ottenere questo risultato, i ricercatori hanno utilizzato una tecnica denominata accoppiamento temporale incrociato, che consiste nell’analizzare immagini della stessa area urbana acquisite in momenti diversi. Confrontando questi dati nel tempo, il modello può identificare le caratteristiche stabili dell’ambiente urbano e separarle dagli elementi variabili che cambiano nel corso della giornata o delle stagioni.
Un ulteriore elemento tecnologico utilizzato nel sistema è l’interpolazione della vista. Le immagini panoramiche disponibili nei database urbani non sono sempre distribuite in modo uniforme lungo le strade, e spesso esistono intervalli significativi tra una posizione fotografata e la successiva. La tecnologia di interpolazione consente al modello di generare transizioni visive fluide tra immagini distanti, creando una continuità visiva che permette alla telecamera virtuale di muoversi nello spazio urbano senza interruzioni.
Oltre alla simulazione fedele dell’ambiente reale, il Seoul World Model introduce anche la possibilità di modificare gli scenari urbani attraverso comandi testuali. Inserendo descrizioni in linguaggio naturale, l’utente può generare variazioni dell’ambiente mantenendo la struttura reale della città. Ad esempio, è possibile simulare eventi immaginari come onde giganti che attraversano le strade o creature fantastiche che appaiono tra gli edifici. Questo dimostra come i modelli generativi basati su dati reali possano combinare accuratezza geografica e creatività sintetica, creando ambienti virtuali che uniscono realtà e immaginazione.
Per valutare le prestazioni del sistema, il team di ricerca ha confrontato il Seoul World Model con altri modelli generativi utilizzando dataset provenienti non solo da Seoul, ma anche da altre città come Busan e Ann Arbor negli Stati Uniti. I risultati mostrano che SWM supera i modelli precedenti in diversi parametri chiave, tra cui l’accuratezza spaziale, la coerenza temporale delle sequenze video e la capacità di generare percorsi di lunga distanza senza degradazione della qualità visiva.
L’importanza di questa tecnologia va oltre la semplice generazione di immagini o video realistici. I modelli del mondo urbano come SWM rappresentano una base fondamentale per lo sviluppo di agenti di intelligenza artificiale capaci di interagire con ambienti realistici. In futuro, sistemi di questo tipo potrebbero essere utilizzati per addestrare veicoli autonomi, robot urbani e assistenti intelligenti in ambienti simulati che riproducono fedelmente le condizioni delle città reali.
Un altro campo di applicazione particolarmente promettente riguarda i cosiddetti gemelli digitali urbani. Questi sistemi consistono in repliche virtuali di città reali utilizzate per analizzare scenari di pianificazione urbana, gestione del traffico o risposta alle emergenze. L’integrazione tra modelli generativi e dati geografici permette di creare simulazioni dinamiche in cui è possibile testare interventi infrastrutturali o politiche urbane prima di implementarle nel mondo reale.
Le potenzialità di questa tecnologia si estendono anche all’industria dei videogiochi e delle simulazioni immersive. Ambienti virtuali basati su città reali potrebbero offrire nuove possibilità per la creazione di mondi di gioco estremamente dettagliati, in cui i giocatori possono esplorare repliche realistiche di interi ambienti urbani.
