Google ha lanciato Lumiere, un modello innovativo per trasformare testo in video, permettendo di creare video realistici e variati. A differenza di modelli precedenti, Lumiere può generare video completi in un solo passaggio, grazie alla sua architettura Space-Time U-Net all’avanguardia.
Questo strumento consente agli utenti di esprimere la loro creatività, creando video clip di fino a cinque secondi di durata. Può animare immagini statiche, rispondere a istruzioni in linguaggio naturale e svolgere complesse operazioni di inpainting video. Lumiere si basa su un’architettura Space-Time U-Net e su un modello text-to-image (T2I) che opera a livello di pixel, richiedendo un modulo di super risoluzione per produrre immagini ad alta definizione.
Inoltre, Lumiere offre la possibilità di generare video in uno stile specifico, utilizzando un’immagine di riferimento per ottenere risultati stilizzati. Questo avviene sfruttando i pesi del modello testo-immagine ottimizzati. Il modello può anche animare immagini fisse o parti di esse, riempiendo le zone mancanti con risultati di alta qualità.
Va notato che Lumiere ha alcune limitazioni, come l’incapacità di generare video con diverse inquadrature o scene con movimenti complessi. Tuttavia, rappresenta un notevole passo avanti nella generazione di video da testo grazie all’intelligenza artificiale. Al momento, questo progetto è una ricerca e il suo utilizzo futuro potrebbe dipendere da considerazioni politiche.
Attualmente, OpenAI non dispone di un modello di generazione video pubblicamente accessibile tramite la propria API, ma stanno lavorando attivamente su questa tecnologia, con la possibilità che qualcosa sia in fase di sviluppo con il rilascio di GPT-5.