Stability AI sta ampliando la sua offerta di modelli di intelligenza artificiale generativa con una novità significativa: Stable Video 4D. Questo nuovo modello introduce una dimensione in più rispetto agli strumenti esistenti come Sora, Runway, Haiper e Luma AI di OpenAI.
Stable Video 4D si basa sul modello preesistente di Stability AI, Stable Video Diffusion, che trasforma le immagini in video. Tuttavia, questa nuova versione va oltre: accetta input video e genera nuovi video da 8 angolazioni diverse, offrendo una vista innovativa da molteplici prospettive.
Stable Video 4D rappresenta un’evoluzione rispetto al modello Stable Video 3D lanciato a marzo, che permetteva di creare brevi video 3D partendo da un’immagine o un testo. Mentre il 3D riguarda larghezza, altezza e profondità, il 4D aggiunge anche il tempo come quarta dimensione. Questo significa che Stable Video 4D può visualizzare oggetti 3D in movimento da diverse angolazioni e in momenti diversi.
Stable Video 4D combina i punti di forza dei modelli Stable Video Diffusion e Stable Video 3D, perfezionandoli con un set di dati di oggetti 3D in movimento. A differenza dei modelli esistenti, Stable Video 4D utilizza una sola rete per generare sia le nuove viste sia i video, mentre solitamente sono utilizzate reti separate per questi compiti.
Inoltre, il modello migliora la coerenza 3D e la fluidità temporale dei video grazie a meccanismi di attenzione avanzati, che fanno sì che ogni fotogramma tenga conto dei suoi vicini in diverse angolazioni e momenti.
Stable Video 4D non utilizza il tradizionale approccio di riempimento delle informazioni (infill/outfill) presente nella generazione di immagini 2D. Invece, sintetizza completamente 8 nuovi video da zero, basandosi sul video di input originale senza trasferire esplicitamente informazioni pixel per pixel.
Attualmente, Stable Video 4D è disponibile per la ricerca su Hugging Face. Stability AI non ha ancora annunciato le opzioni commerciali future, ma Jampani ha aggiunto che il modello è capace di elaborare video di oggetti singoli con sfondi semplici e ci sono piani per espandere la sua capacità a video più lunghi e scene più complesse.