La generazione automatica di video attraverso modelli di intelligenza artificiale rappresenta una delle frontiere più avanzate della ricerca nel campo dell’AI generativa. Negli ultimi anni, sistemi capaci di produrre sequenze video a partire da descrizioni testuali hanno compiuto progressi significativi, migliorando la qualità visiva, la fluidità dei movimenti e la capacità narrativa delle clip generate. Tuttavia, uno dei principali ostacoli tecnici che ha limitato l’utilizzo di queste tecnologie in contesti professionali riguarda il problema della coerenza visiva e temporale. Per affrontare questa sfida, OpenAI ha annunciato una nuova funzionalità per il suo modello di generazione video Sora, denominata “Riferimenti”, progettata per consentire agli utenti di salvare e riutilizzare elementi visivi e stilistici tra diverse scene.
La funzione è stata introdotta nella versione web di Sora ed è attualmente disponibile in versione beta all’interno dell’interfaccia Video Composer, dove può essere accessibile tramite la scheda dedicata ai riferimenti. L’obiettivo di questa tecnologia è consentire la definizione di elementi persistenti che possano essere richiamati durante la generazione di nuovi video, permettendo al modello di mantenere caratteristiche coerenti nel tempo. In questo modo, gli utenti possono salvare configurazioni relative a personaggi, oggetti di scena, costumi, stili visivi e movimenti della telecamera, per poi applicarle in modo ripetuto durante la creazione di più clip o sequenze narrative.
Il problema della coerenza è uno dei più discussi nel campo della generazione video basata su modelli generativi. A differenza delle immagini statiche, che vengono generate come singole istanze indipendenti, i video richiedono la capacità di mantenere una continuità visiva lungo sequenze temporali prolungate. Nei modelli attuali, ogni nuova scena o segmento video viene generato attraverso un processo probabilistico che può produrre variazioni impreviste nei dettagli visivi. Questo fenomeno può portare a situazioni in cui un personaggio cambia improvvisamente colore dei capelli, stile di abbigliamento o tratti del volto da una scena all’altra, creando l’impressione che si tratti di individui diversi.
Queste variazioni derivano dal fatto che molti modelli di generazione video non possiedono un meccanismo strutturato per mantenere uno stato persistente tra diverse generazioni. Quando un nuovo segmento video viene prodotto, il sistema ricostruisce l’immagine partendo dal prompt e dal contesto fornito, ma non sempre riesce a replicare con precisione le caratteristiche presenti nelle scene precedenti. Questo comportamento ha portato molti professionisti della produzione audiovisiva a descrivere i risultati dei modelli AI come imprevedibili, paragonando il processo a un lancio di dadi in cui ogni generazione può produrre risultati leggermente differenti.
Nel campo della ricerca, questa problematica viene spesso definita coerenza temporale. La coerenza temporale rappresenta la capacità di mantenere la stessa identità visiva di persone, oggetti e ambienti lungo sequenze video di lunga durata. In contesti narrativi o cinematografici, questa proprietà è essenziale per garantire la continuità della storia e la credibilità delle scene. Senza un controllo preciso di questi elementi, l’utilizzo della generazione video AI rimane limitato a clip brevi o a contenuti sperimentali.
La nuova funzione “Riferimenti” è stata progettata proprio per affrontare questo problema in modo strutturale. Attraverso questo sistema, gli utenti possono creare e salvare configurazioni specifiche che definiscono elementi visivi chiave di un progetto. Questi elementi possono includere la progettazione di un personaggio, lo stile estetico della scena, gli oggetti utilizzati nella narrazione, i costumi e perfino parametri relativi alla cinematografia, come movimenti della telecamera o tipi di inquadratura.
Una volta salvati, questi riferimenti possono essere richiamati durante la generazione di nuovi segmenti video. Il modello utilizza queste informazioni come vincoli per guidare la generazione delle immagini, riducendo le variazioni casuali e aumentando la probabilità che gli elementi visivi rimangano coerenti tra le diverse scene. In pratica, il sistema consente di definire una sorta di memoria visiva che il modello può consultare durante il processo creativo.
Questo meccanismo permette di costruire sequenze narrative più lunghe e articolate rispetto a quanto fosse possibile in precedenza. Ad esempio, se un utente definisce il design di un personaggio attraverso un riferimento, può riutilizzarlo in più scene mantenendo lo stesso volto, lo stesso abbigliamento e lo stesso stile visivo. Allo stesso modo, è possibile applicare lo stesso stile cinematografico o gli stessi movimenti di camera in più clip, creando una continuità stilistica tra le diverse parti del video.
L’introduzione dei riferimenti può migliorare significativamente la produttività nei flussi di lavoro di produzione audiovisiva. Finora, molti creatori che utilizzavano modelli di generazione video dovevano generare numerose versioni di una scena fino a ottenere una clip con caratteristiche sufficientemente coerenti. Questo processo richiedeva tempo e risorse computazionali e rendeva difficile l’integrazione della tecnologia nei flussi di lavoro professionali.
Con la possibilità di salvare e riutilizzare configurazioni visive, il processo diventa più prevedibile e controllabile. Gli utenti possono definire una volta sola i parametri estetici del progetto e applicarli automaticamente alle scene successive. Questo approccio facilita anche il lavoro iterativo, poiché consente di modificare solo alcuni elementi della scena mantenendo invariati gli altri.
