Microsoft DragNUWA Eleva il Livello della Generazione Video AI con la Tracciatura
Il campo dell’intelligenza artificiale sta vivendo una corsa all’eccellenza nella generazione di video, con aziende come Stability AI e Pika Labs che hanno recentemente introdotto modelli in grado di creare video in base a istruzioni testuali e immagini. Microsoft AI si è ora lanciata in questa competizione con un progetto chiamato DragNUWA, che punta a offrire un controllo estremamente preciso sulla produzione video.
DragNUWA integra approcci consolidati basati su testo e immagini con la generazione basata sulla traiettoria. Questo permette agli utenti di manipolare oggetti o sequenze video intere seguendo traiettorie specifiche. Il risultato è una generazione video altamente controllabile dal punto di vista semantico, spaziale e temporale, senza compromettere la qualità dell’output.
Microsoft ha reso pubblici i pesi del modello e una demo del progetto per permettere alla comunità di sperimentarlo. Tuttavia, va sottolineato che si tratta ancora di un progetto di ricerca in fase di sviluppo e non privo di limitazioni.
Cosa Distingue Microsoft DragNUWA?
Fino ad ora, la generazione video basata sull’IA si è concentrata su input basati su testo, immagini o traiettorie, ma ciascun approccio ha avuto difficoltà a fornire un controllo dettagliato sul risultato desiderato. Ad esempio, la combinazione di testo e immagini non è stata in grado di catturare i dettagli intricati dei movimenti presenti nei video. Inoltre, le immagini e le traiettorie spesso non sono riuscite a rappresentare accuratamente oggetti e movimenti futuri, mentre il linguaggio può generare ambiguità nella descrizione di concetti astratti.
Per superare queste sfide, Microsoft ha sviluppato DragNUWA, che unisce testo, immagini e traiettorie per consentire una generazione video altamente controllabile da parte dell’utente. Questo permette di definire in modo rigoroso il testo, l’immagine e la traiettoria desiderati nell’input, controllando così aspetti come il movimento della telecamera e degli oggetti nel video di output.
Ad esempio, è possibile caricare un’immagine di una barca su uno specchio d’acqua e aggiungere un messaggio testuale come “una barca che naviga nel lago” insieme alle indicazioni sulla traiettoria della barca. Questo risultato nella creazione di un video della barca che naviga nella direzione specificata. La traiettoria fornisce dettagli sul movimento, il linguaggio descrive gli oggetti futuri e le immagini aggiungono distinzione tra gli oggetti.
DragNUWA in Azione
Nella prima versione 1.5 di DragNUWA, rilasciata su Hugging Face, Microsoft ha adottato il modello Stable Video Diffusion di Stability AI per animare un’immagine o il suo oggetto seguendo un percorso specifico. Una volta completamente sviluppata, questa tecnologia potrebbe semplificare notevolmente la generazione e l’editing video. Immagina di poter trasformare sfondi, animare immagini e definire traiettorie di movimento disegnando semplicemente una linea.
Gli appassionati di intelligenza artificiale sono entusiasti di questo sviluppo, ritenendolo un significativo passo avanti nell’ambito dell’IA creativa. Tuttavia, resta da vedere come il modello si comporterà nel mondo reale. Nei test condotti da Microsoft, DragNUWA è stato in grado di generare con precisione movimenti di telecamera e oggetti seguendo diverse traiettorie di trascinamento.
I ricercatori dell’azienda hanno evidenziato che DragNUWA supporta traiettorie curve complesse, lunghezze di traiettoria variabili e la gestione simultanea di traiettorie di più oggetti, un livello di controllo della traiettoria mai raggiunto prima da modelli di generazione video esistenti. Questo sottolinea il notevole potenziale di DragNUWA per avanzare ulteriormente nella generazione video controllabile nelle applicazioni future.
Questo lavoro si aggiunge al crescente corpo di ricerca nel campo dell’intelligenza artificiale applicata ai video, con recenti sviluppi come l’interfaccia testo-video di Pika Labs che sta attirando l’attenzione.