Il Korea Advanced Institute of Science and Technology (KAIST), sotto la presidenza di Kwang-Hyung Lee, ha annunciato lo sviluppo di un nuovo modello di intelligenza artificiale denominato EgoX, progettato per generare video in prima persona partendo esclusivamente da riprese in terza persona. Il progetto è stato guidato dai professori Jae-Geol Joo e Jae-Cheol Kim della Graduate School of AI e rappresenta un avanzamento significativo nel campo della ricostruzione prospettica e della sintesi video immersiva.
Tradizionalmente, la produzione di contenuti in prima persona di alta qualità richiede l’impiego di dispositivi indossabili come action camera o occhiali intelligenti, capaci di catturare direttamente il campo visivo dell’utente. Questa modalità comporta costi hardware, limitazioni ergonomiche e vincoli tecnici nella qualità e stabilità delle riprese. Parallelamente, i tentativi di conversione da prospettiva in terza persona a prospettiva in prima persona si sono storicamente scontrati con difficoltà legate alla ricostruzione spaziale, alla coerenza geometrica e alla gestione dei movimenti complessi della testa e del corpo.
EgoX introduce un approccio differente, basato sulla modellazione precisa della correlazione tra il movimento della testa di un soggetto osservato e il campo visivo che tale soggetto avrebbe percepito. Invece di limitarsi a operazioni di rotazione o ritaglio dell’immagine, il modello ricostruisce una rappresentazione tridimensionale implicita dell’ambiente circostante e della postura del personaggio. Questo implica un processo di inferenza della struttura spaziale 3D a partire da input bidimensionali, combinato con la stima della posa corporea e dell’orientamento della testa.
Il contributo tecnico centrale consiste nella capacità di apprendere la relazione tra cinematica del corpo e percezione visiva. Quando una persona ruota la testa, il campo visivo cambia in modo continuo e coerente con la geometria dello spazio. EgoX non simula semplicemente una trasformazione rigida dell’immagine, ma genera nuovi fotogrammi coerenti con la posizione stimata dell’osservatore virtuale all’interno della scena ricostruita. Questo consente di mantenere stabilità anche in condizioni di movimento rapido o di illuminazione complessa, evitando artefatti visivi e degradazioni qualitative tipiche dei metodi precedenti.
Un elemento distintivo rispetto ad approcci passati è l’eliminazione della necessità di configurazioni multi-camera. Tecniche precedenti spesso richiedevano quattro o più telecamere sincronizzate per ottenere una ricostruzione volumetrica affidabile. EgoX, invece, opera su video monoculari in terza persona, sfruttando modelli di deep learning capaci di inferire profondità e struttura spaziale latente. Questo riduce drasticamente i requisiti hardware e amplia le possibilità di applicazione a contenuti già esistenti.
Dal punto di vista algoritmico, il sistema integra componenti di stima della posa umana, ricostruzione 3D della scena e generazione video condizionata. La comprensione della postura consente di dedurre l’orientamento del capo e la direzione dello sguardo, mentre la modellazione spaziale permette di proiettare correttamente il punto di vista sintetico nello spazio ricostruito. La generazione finale del video in prima persona avviene attraverso reti neurali generative che garantiscono coerenza temporale e continuità visiva tra i fotogrammi.
Le implicazioni applicative sono rilevanti in ambiti quali realtà aumentata, realtà virtuale e metaverso, dove la possibilità di trasformare video convenzionali in contenuti immersivi rappresenta un vantaggio competitivo. La conversione di riprese tradizionali in esperienze in prima persona potrebbe consentire la creazione di contenuti immersivi senza la necessità di infrastrutture di produzione dedicate. Questo scenario apre prospettive anche per il settore dell’intrattenimento, ad esempio nelle trasmissioni sportive, dove lo spettatore potrebbe scegliere di visualizzare l’azione dal punto di vista di un atleta specifico, o nei vlog, trasformando registrazioni in terza persona in esperienze soggettive.
Un ulteriore ambito di utilizzo riguarda la robotica e l’apprendimento per imitazione. I dati generati in prima persona possono essere impiegati per addestrare sistemi robotici a replicare comportamenti umani osservati. In questo contesto, la capacità di ricostruire il punto di vista dell’agente umano fornisce informazioni più ricche rispetto a una semplice osservazione esterna, facilitando l’apprendimento di politiche di controllo basate su percezione e azione.
Secondo il professor Jae-Cheol Kim, il valore della ricerca risiede nel superamento della mera conversione d’immagine, ponendo l’accento sulla comprensione della visione umana e della cognizione spaziale. EgoX non si limita a manipolare pixel, ma integra modelli che tentano di replicare il modo in cui un individuo percepisce e interpreta lo spazio circostante. Questo orientamento verso una rappresentazione più semantica e strutturata dell’ambiente distingue il progetto da soluzioni puramente grafiche.
Nel medio termine, la disponibilità di strumenti capaci di generare prospettive immersive a partire da contenuti esistenti potrebbe ridefinire il ciclo di produzione dei media digitali. L’accesso a tecnologie di questo tipo democratizza la creazione di esperienze immersive, riducendo la dipendenza da dispositivi specializzati e ampliando la base di contenuti trasformabili. In una prospettiva più ampia, EgoX rappresenta un passo verso sistemi di intelligenza artificiale che integrano percezione visiva, modellazione spaziale e generazione multimodale, avvicinandosi a una simulazione sempre più sofisticata dell’esperienza umana nello spazio tridimensionale.
