Google Research ha recentemente svelato VideoPoet, un innovativo modello di linguaggio di grandi dimensioni (LLM) dedicato alla creazione di video. Questo modello è progettato per compiere una varietà di compiti, che includono la trasformazione di testo in video, l’animazione di immagini, la stilizzazione di video, oltre alla conversione da video ad audio.

VideoPoet si distingue per la sua capacità di generare movimenti coerenti su larga scala nei video, superando una limitazione comune delle attuali tecnologie di generazione video. A differenza di altri modelli, VideoPoet unisce diverse funzionalità di creazione video all’interno di un singolo framework LLM. È addestrato con diversi tokenizzatori come MAGVIT V2 per video e immagini e SoundStream per l’audio, permettendo una vasta gamma di operazioni, dalla modifica alla stilizzazione di video basati su input testuali.

Nell’ambito dell’IA per la generazione video, VideoPoet rappresenta un notevole passo avanti rispetto a modelli come Imagen Video, RunwayML e Stable Video Diffusion. Questo modello si distingue per la sua elevata fedeltà nel seguire le istruzioni testuali e nella generazione di video con movimenti più naturali e coinvolgenti.

Un aspetto fondamentale di VideoPoet è la sua capacità di operare in modalità Zero-Shot, generando contenuti da un singolo input di testo o immagine senza addestramento specifico. Pur condividendo questa caratteristica con altri modelli contemporanei, VideoPoet eccelle nella creazione di video con un alto grado di coerenza e fluidità nei movimenti, superando le sfide comuni di altri modelli nel generare movimenti ampi senza artefatti.

Nonostante l’entusiasmo per il lancio di VideoPoet il 19 dicembre 2023, persiste un certo scetticismo nella comunità riguardo alle sue applicazioni pratiche e all’efficacia. Mentre VideoPoet mostra miglioramenti nella fedeltà del testo e nella qualità del movimento, alcuni critici sollevano dubbi sulla sua dipendenza da tecniche specifiche di suggerimento, come l’uso di termini quali “8k” nei prompt, una pratica già vista in precedenti modelli come VQGAN + CLIP e Stable Diffusion, per migliorare il realismo visivo.

In conclusione, VideoPoet si posiziona come un passo importante nella tecnologia di generazione video. Tuttavia, la sua effettiva applicabilità, efficacia e impatto nel mondo reale rimangono argomenti di discussione e analisi all’interno della comunità.

Di Fantasy