Google Lumiere

DiFantasy

Gen 24, 2024

Google ha lanciato Lumiere, un modello innovativo per trasformare testo in video, permettendo di creare video realistici e variati. A differenza di modelli precedenti, Lumiere può generare video completi in un solo passaggio, grazie alla sua architettura Space-Time U-Net all’avanguardia.

Questo strumento consente agli utenti di esprimere la loro creatività, creando video clip di fino a cinque secondi di durata. Può animare immagini statiche, rispondere a istruzioni in linguaggio naturale e svolgere complesse operazioni di inpainting video. Lumiere si basa su un’architettura Space-Time U-Net e su un modello text-to-image (T2I) che opera a livello di pixel, richiedendo un modulo di super risoluzione per produrre immagini ad alta definizione.

Inoltre, Lumiere offre la possibilità di generare video in uno stile specifico, utilizzando un’immagine di riferimento per ottenere risultati stilizzati. Questo avviene sfruttando i pesi del modello testo-immagine ottimizzati. Il modello può anche animare immagini fisse o parti di esse, riempiendo le zone mancanti con risultati di alta qualità.

Va notato che Lumiere ha alcune limitazioni, come l’incapacità di generare video con diverse inquadrature o scene con movimenti complessi. Tuttavia, rappresenta un notevole passo avanti nella generazione di video da testo grazie all’intelligenza artificiale. Al momento, questo progetto è una ricerca e il suo utilizzo futuro potrebbe dipendere da considerazioni politiche.

Attualmente, OpenAI non dispone di un modello di generazione video pubblicamente accessibile tramite la propria API, ma stanno lavorando attivamente su questa tecnologia, con la possibilità che qualcosa sia in fase di sviluppo con il rilascio di GPT-5.

Google Lumiere

DiFantasy

Di Fantasy

Articoli correlati

Anthropic citata in giudizio per due brevetti sulle reti neurali

Google sviluppa Gemini 3.5 Flash Cyber per automatizzare la ricerca e la correzione delle vulnerabilità

Google lancia Gemini 3.6 Flash, Gemini 3.5 Flash-Lite e Gemini 3.5 Flash Cyber per rendere più efficienti gli agenti AI su larga scala

Ultimi Post

Anthropic citata in giudizio per due brevetti sulle reti neurali

Google sviluppa Gemini 3.5 Flash Cyber per automatizzare la ricerca e la correzione delle vulnerabilità

Google lancia Gemini 3.6 Flash, Gemini 3.5 Flash-Lite e Gemini 3.5 Flash Cyber per rendere più efficienti gli agenti AI su larga scala

OpenAI prepara una nuova famiglia di modelli orientata alle attività aziendali