Questa mattina, Mark Zuckerberg, CEO di Meta, ha pubblicato sulla sua pagina Facebook l’annuncio di Make-A-Video, un nuovo sistema di intelligenza artificiale che consente agli utenti di trasformare i messaggi di testo, come “un orsacchiotto che dipinge un autoritratto”, in brevi, di alta qualità, videoclip unici.

Suona come DALL-E ? Questa è l’idea: secondo un comunicato stampa, Make-A-Video si basa sulla tecnologia di generazione di immagini AI (incluso il lavoro Make-A-Scene di Meta dell’inizio di quest’anno) “aggiungendo uno strato di apprendimento non supervisionato che consente al sistema di comprendere il movimento nel mondo fisico e applicarlo alla tradizionale generazione da testo a immagine”.

 
Presentazione Perché rendere operativa la mesh di dati è fondamentale per operare nel cloud_
“Questo è un progresso davvero sorprendente”, ha scritto Zuckerberg nel suo post. “È molto più difficile generare video che foto perché oltre a generare correttamente ogni pixel, il sistema deve anche prevedere come cambieranno nel tempo”.

Un anno dopo DALL-E
È difficile credere che sia passato solo un anno da quando il DALL-E originale è stato presentato nel gennaio 2021, mentre il 2022 è sembrato essere l’anno della rivoluzione del text-to-image grazie a DALL-E 2 , Midjourney , Stable Diffusion e altri modelli generativi di grandi dimensioni che consentono agli utenti di creare immagini e opere d’arte realistiche da prompt di testo naturali.

 

MetaBeat riunirà leader di pensiero per fornire indicazioni su come la tecnologia metaverse trasformerà il modo in cui tutti i settori comunicano e fanno affari il 4 ottobre a San Francisco, in California.
Registrati qui
Il nuovo Make-A-Video di Meta è un segno che il prossimo passo dell’IA generativa, il text-to-video, sta per diventare mainstream? Data l’assoluta velocità dell’evoluzione da testo a immagine quest’anno – Midjourney ha persino creato polemiche con un’immagine che ha vinto un concorso artistico alla Colorado State Fair – sembra certamente possibile. Un paio di settimane fa, la società di software di editing video Runway ha rilasciato un video promozionale che prende in giro una nuova funzionalità del suo editor video basato su Web basato sull’intelligenza artificiale in grado di modificare video da descrizioni scritte.

 
E la richiesta di generatori di testo in video al livello delle odierne opzioni di testo in immagine è elevata, grazie alla necessità di contenuti video su tutti i canali, dalla pubblicità sui social media e dai blog video ai video esplicativi.

Meta, da parte sua, sembra fiduciosa, secondo il suo documento di ricerca che introduce Make-A-Video: “In tutti gli aspetti, rivoluzione spaziale e temporale, fedeltà al testo e qualità, presentiamo risultati all’avanguardia nel testo -to-video generazione, come determinato da misure sia qualitative che quantitative.”

Il nuovo generatore di intelligenza artificiale da testo a video di Meta è come DALL-E per i video
/Basta digitare una descrizione e l’IA genera filmati corrispondenti
 
Un video di esempio generato dal nuovo modello di intelligenza artificiale da testo a video di Meta, Make-A-Video . Il messaggio di testo utilizzato per creare il video era “un orsacchiotto che dipinge un ritratto”.
 Immagine: Meta
I generatori di intelligenza artificiale da testo a immagine hanno fatto notizia negli ultimi mesi, ma i ricercatori stanno già passando alla prossima frontiera: i generatori di intelligenza artificiale da testo a video .
Un team di ingegneri dell’apprendimento automatico della società madre di Facebook Meta ha svelato un nuovo sistema chiamato Make-A-Video . Come suggerisce il nome, questo modello di intelligenza artificiale consente agli utenti di digitare una descrizione approssimativa di una scena e genererà un breve video corrispondente al loro testo. I video sono chiaramente artificiali, con soggetti sfocati e animazioni distorte, ma rappresentano comunque uno sviluppo significativo nel campo della generazione di contenuti AI.
 
L’output del modello è chiaramente artificiale ma comunque impressionante
“La ricerca sull’IA generativa sta spingendo in avanti l’espressione creativa fornendo alle persone strumenti per creare nuovi contenuti in modo rapido e semplice”, ha affermato Meta in un post sul blog che annuncia il lavoro. “Con poche parole o righe di testo, Make-A-Video può dare vita all’immaginazione e creare video unici pieni di colori e paesaggi vividi”.
In un post su Facebook , Mark Zuckerberg, CEO di Meta, ha descritto il lavoro come “un progresso straordinario”, aggiungendo: “È molto più difficile generare video che foto perché oltre a generare correttamente ogni pixel, il sistema deve anche prevedere come cambieranno nel tempo. “
Le clip non durano più di cinque secondi e non contengono audio, ma coprono una vasta gamma di richieste. Il modo migliore per giudicare le prestazioni del modello è osservarne l’output. Ciascuno dei video seguenti è stato generato da Make-A-Video e sottotitolato con il prompt utilizzato per generare il video. Tuttavia, vale anche la pena notare che ogni video è stato fornito a The Verge da Meta, che attualmente non consente a nessuno di accedere al modello. Ciò significa che le clip avrebbero potuto essere selezionate per mostrare il sistema nella sua luce migliore.


“Una giovane coppia che cammina sotto una pioggia battente.”

“Unicorni che corrono lungo una spiaggia.”

“Un orsacchiotto che dipinge un ritratto.”
Anche in questo caso, mentre è chiaro che questi video sono generati dal computer, l’output di tali modelli di intelligenza artificiale migliorerà rapidamente nel prossimo futuro. A titolo di confronto, nel giro di pochi anni, i generatori di immagini AI sono passati dalla creazione di immagini borderline incomprensibili a contenuti fotorealistici . E sebbene i progressi nel video potrebbero essere più lenti data la complessità quasi illimitata dell’argomento, il premio della generazione di video senza interruzioni motiverà molte istituzioni e aziende a riversare grandi risorse nel progetto.
 
Come con i modelli da testo a immagine, esiste la possibilità di applicazioni dannose
Nel post sul blog di Meta che annuncia Make-a-Video, l’azienda osserva che gli strumenti di generazione video potrebbero essere preziosi “per creatori e artisti”. Ma, come con i modelli text-to-image, ci sono anche prospettive preoccupanti. L’output di questi strumenti potrebbe essere utilizzato per disinformazione, propaganda e, più probabilmente, sulla base di ciò che abbiamo visto con i sistemi di immagini AI e i deepfake , per generare pornografia non consensuale che può essere utilizzata per molestare e intimidire le donne.
Meta afferma di voler essere “premuroso su come costruire nuovi sistemi di IA generativa come questo” e sta pubblicando solo un articolo sul modello Make-A-Video. La società afferma che prevede di rilasciare una demo del sistema, ma non dice quando o come l’accesso al modello potrebbe essere limitato.
Vale anche la pena notare che Meta non è l’unica istituzione che lavora su generatori di video AI. All’inizio di quest’anno, ad esempio, un gruppo di ricercatori dell’Università di Tsinghua e dell’Accademia di intelligenza artificiale di Pechino (BAAI) ha pubblicato il proprio modello da testo a video, chiamato CogVideo (l’unico altro modello da testo a video disponibile pubblicamente). Puoi guardare l’output di esempio da CogVideo qui , che è limitato più o meno allo stesso modo del lavoro di Meta.

“Pesci pagliaccio che nuotano attraverso la barriera corallina.”

“Un cane che indossa un vestito da supereroe, mantello rosso che vola nel cielo.”

“Un robot che balla a Times Square.”
In un articolo che descrive il modello , i ricercatori di Meta notano che Make-A-Video si sta allenando su coppie di immagini e didascalie, oltre a filmati senza etichetta. Il contenuto della formazione è stato ottenuto da due set di dati ( WebVid-10M e HD-VILA-100M ), che insieme contengono milioni di video che coprono centinaia di migliaia di ore di filmati. Ciò include filmati d’archivio creati da siti come Shutterstock e prelevati dal web.
I ricercatori notano nel documento che il modello ha molti limiti tecnici oltre a filmati sfocati e animazioni disgiunte. Ad esempio, i loro metodi di addestramento non sono in grado di apprendere informazioni che potrebbero essere dedotte solo da un essere umano che guarda un video, ad esempio se il video di una mano che saluta va da sinistra a destra o da destra a sinistra. Altri problemi includono la generazione di video più lunghi di cinque secondi, video con più scene ed eventi e una risoluzione più elevata. Make-A-Video attualmente emette 16 fotogrammi di video con una risoluzione di 64 per 64 pixel, che vengono poi aumentati di dimensioni utilizzando un modello AI separato a 768 per 768.
Il team di Meta osserva inoltre che, come tutti i modelli di intelligenza artificiale addestrati sui dati prelevati dal web, Make-A-Video ha “imparato e probabilmente esagerato pregiudizi sociali, compresi quelli dannosi”. Nei modelli text-to-image, questi pregiudizi spesso rafforzano i pregiudizi sociali. Ad esempio, chiedi a una modella di generare l’immagine di un “terrorista” e probabilmente rappresenterà qualcuno che indossa un turbante. Tuttavia, è impossibile dire quali pregiudizi abbia appreso il modello di Meta senza l’accesso aperto.
Meta afferma che sta “condividendo apertamente questa ricerca e risultati sull’IA generativa con la comunità per il loro feedback e continuerà a utilizzare il nostro framework di IA responsabile per perfezionare ed evolvere il nostro approccio a questa tecnologia emergente”.

Di ihal