Meta ha recentemente introdotto MarDini, una nuova famiglia di modelli di diffusione video sviluppata in collaborazione con la King Abdullah University of Science and Technology (KAUST). MarDini si distingue per la sua tecnologia avanzata, progettata per facilitare la creazione di video fluidi e di alta qualità. Questo modello può riempire i fotogrammi mancanti nei video, trasformare una singola immagine in una scena animata e persino estendere una breve clip aggiungendo fotogrammi naturali e continui.
L’architettura di MarDini è composta da due componenti principali: un modello di pianificazione e un modello di generazione. Il modello di pianificazione interpreta i fotogrammi di input a bassa risoluzione utilizzando l’autoregressione mascherata (MAR), generando segnali guida per tutti i fotogrammi che devono essere creati. Successivamente, il modello di generazione interviene per produrre fotogrammi dettagliati e ad alta risoluzione attraverso un processo di diffusione, garantendo così che il video finale risulti fluido e ben assemblato. Grazie a questa struttura, MarDini combina adattabilità e velocità, semplificando per i creatori la generazione o l’espansione di video con un flusso naturale.
MarDini si distingue per la sua flessibilità e prestazioni elevate. Può gestire una vasta gamma di attività, tra cui l’interpolazione video, che consente di riempire i fotogrammi mancanti per transizioni fluide tra le scene, la trasformazione di una singola immagine in un video e l’espansione di una breve clip. Questa tecnologia rende MarDini particolarmente adatto sia per la creazione di nuove sequenze video sia per la rielaborazione di filmati esistenti.
Un aspetto innovativo di MarDini è la sua capacità di addestrarsi da zero utilizzando dati video non etichettati, grazie a una strategia di addestramento progressivo. Questo approccio adatta il modo in cui i fotogrammi vengono mascherati durante l’addestramento, rendendo il modello più flessibile e in grado di gestire diverse configurazioni di fotogrammi.
In termini di prestazioni, MarDini stabilisce nuovi parametri di riferimento, generando video di alta qualità in molti meno passaggi rispetto ai modelli tradizionali. Questa efficienza si traduce in un risparmio sia in termini di costi che di tempo, rendendo MarDini una soluzione conveniente per la generazione video. Secondo il documento di ricerca pubblicato da Meta, la strategia di modellazione di MarDini si è dimostrata potente e in grado di ottenere risultati competitivi su vari benchmark di interpolazione e animazione, con un impegno computazionale inferiore rispetto ad altri modelli di dimensioni comparabili.
Con il lancio di MarDini, Meta si sta creando uno spazio significativo nel settore della generazione video basata sull’intelligenza artificiale. Dopo il rilascio di Emu Video, Emu Edit e Movie Gen, MarDini rappresenta un ulteriore passo avanti nell’offerta di strumenti di alta qualità per la creazione e l’editing di video, offrendo ai creatori maggiore controllo e una qualità visiva eccezionale.