Da quando OpenAI ha introdotto il suo modello di creazione video con intelligenza artificiale generativa, Sora, all’inizio di quest’anno, nessun altro ha avvicinato la qualità e il realismo delle immagini in movimento generate dall’intelligenza artificiale, fino ad ora.
Google ha annunciato oggi, in mezzo alla conferenza annuale degli sviluppatori I/O, un nuovo modello video AI generativo chiamato Veo, sviluppato dai ricercatori della sua divisione DeepMind AI.
Google Veo è in grado di creare clip video ad alta qualità in risoluzione 1080p che possono durare oltre i 60 secondi, affrontando una vasta gamma di stili cinematografici, dal fotorealismo al surrealismo e all’animazione.
Questo nuovo modello supporta la trasformazione da testo a video, da video a video e da immagine a video, aprendo nuove possibilità per la narrazione, l’istruzione e altro ancora.
Google ha collaborato con l’artista Donald Glover, noto come Childish Gambino, per testare alcune funzionalità attraverso il suo studio creativo, Gilga, utilizzando Veo AI di Google.
Le clip pubblicate da DeepMind su YouTube e su altri canali mostrano scene che sono quasi indistinguibili dalle riprese dal vivo o dalle animazioni generate al computer, realizzate tutte con istruzioni di testo.
Veo offre un livello di controllo creativo senza precedenti e può apportare facilmente modifiche di alta qualità ai video generati dall’intelligenza artificiale o alle clip caricate dagli utenti.
Il modello utilizza trasformatori di diffusione latente avanzati per garantire la coerenza tra i fotogrammi video, riducendo al minimo gli artefatti e le incoerenze.
Google ha arricchito i dati di addestramento con dettagli aggiuntivi ai sottotitoli di ciascun video e ha implementato rappresentazioni video compresse e di alta qualità per migliorare le prestazioni.
Attualmente, Veo non è pubblico ma è disponibile per alcuni creatori in anteprima privata in VideoFX, con piani per portare alcune funzionalità su YouTube Shorts e altri prodotti Google nel futuro.