Il modello di generazione video Sora di OpenAI ha ispirato una nuova ondata di ricerche nella sintesi video di lunga durata e alta qualità. In risposta, i ricercatori hanno introdotto MiraData, un set di dati video su larga scala progettato per migliorare il campo della generazione di video.
MiraData contiene video con una durata media di 72,1 secondi e didascalie strutturate dettagliate con una media di 318 parole, superando significativamente i set di dati esistenti in termini di lunghezza e dettagli descrittivi. Il set di dati è stato creato attraverso un meticoloso processo in cinque fasi: raccolta da fonti diverse, divisione e cucitura dei video, selezione basata sulla qualità e aggiunta di sottotitoli completi.
Per dimostrare l’efficacia di MiraData, i ricercatori hanno sviluppato MiraDiT, un modello di generazione video basato su Diffusion Transformer. Quando è stato addestrato su MiraData, MiraDiT ha superato i modelli formati su set di dati precedenti, in particolare per quanto riguarda la forza del movimento e la coerenza 3D.
I ricercatori hanno anche introdotto MiraBench, un quadro di valutazione avanzato con 17 metriche in sei aspetti chiave della generazione video, tra cui coerenza temporale, forza del movimento e allineamento testo-video. Questo benchmark mira a fornire una valutazione più completa dei modelli di generazione video.
Le didascalie strutturate di MiraData, che includono descrizioni dettagliate di oggetti principali, sfondi, movimenti della fotocamera e stile video, si sono dimostrate utili per aumentare le dinamiche, migliorare la coerenza temporale e migliorare l’allineamento testo-video nei contenuti generati.
MiraData mostra la promessa di far progredire la generazione di video, ma presenta potenziali limitazioni e impatti sociali, come i pregiudizi del set di dati e l’uso improprio per creare falsi profondi. I ricercatori sottolineano la necessità di linee guida etiche e solide protezioni della privacy nel suo sviluppo e applicazione.