Immagine AI

La generazione e modifica dei contenuti video tramite intelligenza artificiale sta evolvendo rapidamente, ma uno dei problemi più complessi riguarda la coerenza fisica delle scene dopo interventi di editing. Le tecnologie tradizionali di rimozione degli oggetti si limitano generalmente a riempire lo sfondo lasciato vuoto, senza considerare l’impatto fisico che l’oggetto rimosso aveva sugli elementi circostanti. Questo limite produce risultati spesso innaturali, soprattutto quando la scena include interazioni dinamiche tra oggetti. Per affrontare questo problema, Netflix ha presentato un nuovo framework open source denominato VOID, progettato per generare video modificati che rispettino le relazioni causali e fisiche dell’ambiente originale.

VOID, acronimo di Interaction-Aware Counterfactual Video Generation, introduce un approccio basato sulla generazione di scenari controfattuali. In pratica, il sistema non si limita a rimuovere un oggetto, ma ricostruisce la scena come se quell’elemento non fosse mai esistito, modificando automaticamente anche le conseguenze fisiche della sua assenza. Questo significa che l’AI non sostituisce soltanto il fondo visivo, ma ricalcola movimenti, collisioni e dinamiche tra gli oggetti per mantenere la coerenza temporale e spaziale del video.

Il problema affrontato dal modello emerge chiaramente nei sistemi precedenti. Quando un oggetto viene eliminato da una sequenza video, è frequente che gli elementi circostanti continuino a comportarsi come se l’oggetto fosse ancora presente. Ad esempio, se una persona spinge un oggetto e viene rimossa dalla scena, il movimento dell’oggetto rimane invariato, generando un’incongruenza visiva. Questo accade perché i modelli tradizionali non comprendono la relazione causa-effetto tra gli elementi della scena. VOID cerca di superare questa limitazione integrando una comprensione delle interazioni fisiche.

Il framework combina modelli vision-language con tecniche di video diffusion. Quando l’utente seleziona l’oggetto da rimuovere, il sistema identifica innanzitutto l’area interessata e analizza l’impatto dell’oggetto sul resto della scena. Successivamente genera un nuovo video che integra le modifiche necessarie per mantenere la coerenza fisica, simulando il comportamento degli oggetti in assenza dell’elemento eliminato. Questo processo rappresenta una forma di simulazione implicita, in cui l’intelligenza artificiale costruisce una versione alternativa della sequenza originale.

Un elemento chiave del sistema è l’utilizzo del metodo denominato quadmask. La scena viene suddivisa in quattro categorie: l’oggetto da rimuovere, le aree direttamente influenzate dalla sua presenza, le regioni da mantenere inalterate e le zone da rigenerare. Questa segmentazione consente al modello di comprendere quali parti del video devono essere modificate e quali devono rimanere stabili. L’approccio permette di evitare artefatti visivi e garantire una transizione più naturale.

Il processo di generazione avviene in due fasi. Nella prima fase il sistema produce una versione fisicamente plausibile della scena senza l’oggetto, prevedendo i nuovi movimenti degli elementi coinvolti. Nella seconda fase, opzionale, viene applicata una correzione per ridurre eventuali distorsioni e migliorare la stabilità visiva. Questa fase utilizza informazioni derivate dal flusso di movimento per affinare il risultato e mantenere coerenza temporale.

Per addestrare il modello, i ricercatori hanno utilizzato dataset generati tramite simulazioni fisiche. Ambienti come Kubric e HUMOTO sono stati impiegati per creare coppie di dati che mostrano la stessa scena con e senza determinati oggetti, consentendo all’AI di apprendere le relazioni causali tra gli elementi. Questo approccio differisce dai metodi basati esclusivamente su dati reali, perché permette di controllare con precisione le interazioni fisiche e fornire esempi coerenti per l’apprendimento.

I risultati sperimentali indicano che VOID mantiene meglio la coerenza temporale e fisica rispetto ai metodi tradizionali di rimozione degli oggetti. Le sequenze generate mostrano movimenti più naturali e una maggiore continuità tra i frame, riducendo anomalie visive tipiche dei sistemi precedenti. Questo miglioramento è particolarmente importante per applicazioni professionali come post-produzione video, effetti visivi e editing automatico.

Di Fantasy