La visione artificiale, un campo molto studiato nell’intelligenza artificiale, affronta ancora sfide nell’animazione delle immagini per creare video dinamici mantenendo l’aspetto originale. I tradizionali strumenti di animazione delle immagini si concentrano su movimenti specifici come capelli o fluidi, ma hanno limitazioni nell’applicazione generale. Approcci convenzionali si basano su movimenti predefiniti o personalizzazione per oggetti specifici, ma spesso non sono sufficientemente adattabili.
Recentemente, i modelli Text to Video (T2V) hanno dimostrato successo nel generare video vivaci da istruzioni testuali, ispirando il framework DynamiCrafter. Questo framework cerca di superare le limitazioni attuali incorporando l’immagine nell’animazione, ma ancora lotta a preservare tutti i dettagli visivi.
DynamiCrafter adotta un approccio a doppio flusso, che utilizza una rappresentazione del contesto allineata al testo e una guida visiva per migliorare la conservazione dei dettagli. Questo framework si basa sulle potenti capacità dei modelli T2V per animare immagini in modo più accurato e realistico.
Utilizzando una rete appositamente progettata, DynamiCrafter proietta l’immagine in uno spazio di rappresentazione del contesto allineato al testo, consentendo al modello video di comprendere meglio il contenuto dell’immagine. Tuttavia, per migliorare ulteriormente la conformità visiva, l’immagine viene integrata con il rumore iniziale per fornire al modello di diffusione video ulteriori dettagli visivi.
Il framework DynamiCrafter segue un processo di formazione in tre fasi per adattare il modello alla generazione video guidata dall’immagine. Questo include l’addestramento di una rete di rappresentazione del contesto dell’immagine, l’adattamento di questa rete al modello Text to Video e il perfezionamento finale del processo di generazione video.
Per garantire che il modello produca video che rispecchino l’immagine di input, DynamiCrafter combina l’immagine con il rumore iniziale e aggiusta i livelli della rete di rappresentazione del contesto e del modello di discriminazione visiva. Questo approccio è progettato per mantenere l’integrità temporale del modello T2V e garantire una rappresentazione del contesto più adattabile.