Microsoft propone GODIVA, un framework di machine learning da testo a video

Una collaborazione tra Microsoft Research Asia e la Duke University ha prodotto un sistema di machine learning in grado di generare video esclusivamente da un prompt di testo, senza l’utilizzo di GAN (Generative Adversarial Networks).

Il progetto si intitola GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions) e si basa su alcuni degli approcci utilizzati dal sistema di sintesi di immagini DALL-E di OpenAI, rivelato all’inizio di quest’anno.

GODIVA utilizza il modello VQ-VAE (Vector Quantised-Variational AutoEncoder) introdotto per la prima volta dai ricercatori del progetto DeepMind di Google nel 2018 e anche un componente essenziale nelle capacità di trasformazione di DALL-E.

VQ-VAE è stato utilizzato in numerosi progetti per generare il video previsto , in cui l’utente fornisce un numero iniziale di frame e richiede al sistema di generare frame aggiuntivi:

Tuttavia, gli autori del nuovo articolo affermano che GODIVA rappresenta la prima implementazione di puro text-to-video (T2V) che utilizza VQ-VAE piuttosto che i risultati più irregolari che i progetti precedenti hanno ottenuto con i GAN.

Punti seme in Text-To-Video
Sebbene la presentazione sia a corto di dettagli sui criteri in base ai quali vengono creati i frame di origine, GODIVA sembra evocare immagini seme dal nulla prima di estrapolarle in frame video a bassa risoluzione.

Una rappresentazione colonnare del sistema tridimensionale dell’attenzione sparsa che alimenta GODIVA per le attività da testo a immagine. L’auto-regressione è prevista attraverso quattro fattori: testo di input, posizionamento relativo con il frame precedente (simile a SPADE di NVIDIA e altri metodi che si basano o si evolvono oltre gli approcci del flusso ottico), stesse righe sullo stesso frame e stesse colonne sullo stesso colonna.
Una rappresentazione colonnare del sistema tridimensionale dell’attenzione sparsa che alimenta GODIVA per le attività da testo a immagine. L’auto-regressione è prevista attraverso quattro fattori: testo di input, posizionamento relativo con il frame precedente (simile a SPADE di NVIDIA e altri metodi che si basano o si evolvono oltre gli approcci del flusso ottico), stesse righe sullo stesso frame e stesse colonne sullo stesso colonna.

In effetti, l’origine proviene dalle etichette nei dati utilizzati: GODIVA è stato pre-addestrato sul set di dati Howto100M , composto da 136 milioni di clip video con sottotitoli provenienti da YouTube in 15 anni e con 23.000 attività etichettate. Tuttavia, ogni possibile attività è presente in un numero molto elevato di clip, che aumenta con la generalizzazione (cioè ‘Animali e animali’ ha 3,5 milioni di clip, mentre ‘cani’ ha 762.000 clip), quindi c’è ancora una grande scelta di possibili punti di partenza .

Il modello è stato valutato sul set di dati MSR Video to Text ( MSR-VTT ) di Microsoft . Come ulteriori test dell’architettura, GODIVA è stato addestrato da zero sul set di dati Moving Mnist e il set di dati Double Moving Mnist, entrambi derivati ​​dal database MNIST originale , una collaborazione tra Microsoft, Google e il Courant Institute of Mathematical Sciences della NYU.

Valutazione dei fotogrammi in sintesi video continua
In linea con l’ IRC-GAN dell’Università di Pechino , GODIVA aggiunge quattro controlli colonnari aggiuntivi al metodo MNIST originale, che valutava i frame precedenti e successivi spostandosi su> giù e poi a sinistra> destra. IRC-GAN e GODIVA considerano anche i frame spostando l’attenzione a sinistra> destra, destra> sinistra, su> giù e giù> su.

Valutazione della qualità del video e della fedeltà ai suggerimenti
Per capire quanto sia riuscita la generazione di immagini, i ricercatori hanno utilizzato due metriche: una basata sulla somiglianza CLIP e una nuova metrica di corrispondenza relativa (RM).

Il framework CLIP di OpenAI è in grado di abbinare immagini a testo a scatto zero, oltre a facilitare la sintesi di immagini invertendo questo modello. I ricercatori hanno diviso il punteggio derivato dal CLIP per la somiglianza calcolata tra il prompt di testo e il video della verità fondamentale per arrivare a un punteggio RM. In un round di punteggio separato, l’output è stato valutato da 200 persone ei risultati sono stati confrontati con i punteggi programmatici.

TFGAN può produrre 128 pixel quadrati rispetto all’output 64 × 64 che vincola GODIVA e T2V negli esempi precedenti, ma i ricercatori notano non solo che GODIVA produce movimenti più audaci e più impegnati, ma genererà cambiamenti di scena senza alcun suggerimento specifico e non esita a generare primi piani.

Nelle esecuzioni successive, GODIVA genera anche un output di 128x128px, con modifiche in POV:

Nella metrica RM del progetto, GODIVA è in grado di ottenere punteggi che si avvicinano al 100% in termini di autenticità (qualità del video) e fedeltà (quanto il contenuto generato corrisponde al prompt di input).

I ricercatori ammettono, tuttavia, che lo sviluppo di metriche CLIP basate su video sarebbe una gradita aggiunta a quest’area di sintesi di immagini, poiché fornirebbe condizioni di parità per la valutazione della qualità dei risultati senza ricorrere all’adattamento eccessivo e alla mancanza di generalizzazione che è stata sempre più criticata in relazione alle sfide “standard” della visione artificiale negli ultimi dieci anni.

Osservano anche che la generazione di video più lunghi sarà una considerazione logistica nell’ulteriore sviluppo del sistema, poiché solo 10 fotogrammi di output 64x64px richiedono 2560 token visivi, una pipeline gonfia che rischia di diventare costosa e ingestibile piuttosto rapidamente.

Di ihal