Imagen di Google affronta Make-A-Video di Meta mentre i modelli di IA da testo a video aumentano 

È la stagione dell’intelligenza artificiale generativa (AI). La scorsa settimana, Meta ha annunciato Make-A-Video , un sistema di intelligenza artificiale che consente agli utenti di trasformare i messaggi di testo in brevi clip video di alta qualità e unici nel loro genere. Ora, Google non è molto indietro. La tendenza del text-to-video mostra tutti i segnali di preparazione per esplodere, proprio come è successo l’anno scorso con il text-to-image con DALL-E , MidJourney e Stable Diffusion.  

Annunciato proprio ieri, Imagen Video di Google è un modello di IA generativa da testo a video in grado di produrre video ad alta definizione da un messaggio di testo. Il modello di diffusione video con condizionamento del testo può generare video fino a una risoluzione di 1280×768 a 24 fotogrammi al secondo. 

 
Da Honeywell alle startup Come i leader stanno guidando una crescita prevedibile con l’IA
Imagen Video di Google offre alta fedeltà
Nel suo articolo recentemente pubblicato ” Imagen Video: generazione di video ad alta definizione con modelli di diffusione ” Google afferma che Imagen Video è in grado di generare video ad alta fedeltà e ha un alto grado di controllabilità e conoscenza del mondo. Le capacità del modello generativo includono la creazione di diversi video e animazioni di testo in diversi stili artistici, comprensione 3D, rendering e animazione del testo. Il modello è attualmente in una fase di ricerca, ma il suo arrivo arriva appena cinque mesi dopo che Imagen ha mostrato il rapido sviluppo di modelli basati sulla sintesi.

Uno sguardo a Imagen Video
Imagen Video è costituito da un codificatore di testo (T5-XXL congelato), un modello di diffusione video di base e modelli di diffusione a super risoluzione spaziale e temporale intercalati. Per creare una tale architettura, Google afferma di aver trasferito i risultati del precedente lavoro sulla generazione di immagini basata sulla diffusione all’impostazione di generazione video. Il team di ricerca ha anche inculcato la distillazione progressiva nei modelli video con una guida priva di classificatore per un campionamento rapido e di alta qualità.

 

Cascata di sette modelli di diffusione sub-video
Il framework di generazione video è una cascata di sette modelli di diffusione sub-video che eseguono la generazione video condizionale del testo, la super risoluzione spaziale e la super risoluzione temporale. Con l’intera cascata, Imagen Video genera video ad alta definizione 1280×768 a 24 fotogrammi al secondo per 128 fotogrammi, circa 126 milioni di pixel. Con l’aiuto della distillazione progressiva, Imagen Video può generare video di alta qualità utilizzando solo otto passaggi di diffusione per sottomodello. Ciò accelera il tempo di generazione del video di un fattore di circa 18 volte.

 

Google afferma che Imagen Video è stato addestrato sul set di dati immagine-testo pubblicamente disponibile LAION-400M, nonché su 14 milioni di coppie video-testo e 60 milioni di coppie immagine-testo. I set di dati di addestramento gli hanno permesso di generalizzare una varietà di estetiche. Inoltre, un vantaggio dei modelli a cascata scoperti dal team di sviluppo di Google era che ogni modello di diffusione poteva essere addestrato in modo indipendente, consentendo di addestrare tutti e sette i modelli in parallelo.


Un dilemma sui dati di Google
Poiché i modelli generativi possono anche essere utilizzati in modo improprio per generare contenuti falsi, odiosi, espliciti o dannosi, Google afferma di aver adottato più misure per ridurre al minimo tali preoccupazioni. Attraverso prove interne, l’azienda ha affermato di essere stata in grado di applicare il filtraggio del prompt del testo di input e il filtraggio del contenuto video in uscita, ma ha avvertito che ci sono ancora diverse importanti sfide etiche e di sicurezza che devono essere affrontate. 

 
Imagen Video e il suo codificatore di testo T5-XXL congelato sono stati addestrati su “dati problematici”. Mentre i test interni mostrano che gran parte del contenuto esplicito e violento può essere filtrato, Google afferma che esistono ancora pregiudizi e stereotipi sociali che possono essere difficili da rilevare e filtrare. Questo è stato uno dei motivi principali per cui Google ha deciso di non rilasciare pubblicamente il modello o il suo codice sorgente fino a quando le preoccupazioni non saranno state attenuate.

L’IA generativa su Google e oltre? 
Secondo Dumitru Erhan, uno scienziato ricercatore del personale di Google Brain, ci sono sforzi per rafforzare la ricerca dietro Phenaki , un altro sistema di conversione da testo a video di Google, che può trasformare messaggi di testo dettagliati in video di oltre due minuti; il principale inconveniente è la qualità video inferiore. 

Il team che lavora su Phenaki afferma che il modello può sfruttare i vasti set di dati testo-immagine per generare video, in cui l’utente può anche narrare e modificare dinamicamente le scene.

 
Una tendenza generativa dell’IA che è iniziata con il text-to-image e ha iniziato a passare al text-to-video, sembra anche trasformarsi lentamente verso il text-to-3D, con modelli come CLIP-Forge , un text-to- modello di generazione di forme in grado di generare oggetti 3D utilizzando l’apprendimento a scatto zero.

L’IA da testo a 3D di Google ” DreamFusion “, rilasciata la scorsa settimana, è un altro ottimo esempio di IA generativa che si sta muovendo verso un approccio di sintesi 3D più aggressivo. DreamFusion utilizza Imagen per ottimizzare una scena 3D. 

Di ihal