Samsung Research ha presentato ANSE (Active Noise Selection for Generation), un innovativo framework progettato per ottimizzare la qualità dei video generati a partire da descrizioni testuali. Questa tecnologia si distingue per la sua capacità di selezionare in modo intelligente il “seme” di rumore iniziale, migliorando così la coerenza e la fedeltà del video finale.
I modelli di diffusione video, come quelli utilizzati per la generazione di video da testo, iniziano il loro processo con un rumore casuale. La scelta del seme di rumore ha un impatto significativo sulla qualità e sulla coerenza semantica del video prodotto. Tradizionalmente, questa selezione è stata casuale o basata su metodi esterni, ma ANSE adotta un approccio più sofisticato.
Al cuore di ANSE vi è BANSA (Bayesian Active Noise Selection via Attention), una funzione di acquisizione che misura l’incertezza del modello utilizzando mappe di attenzione durante le prime fasi di rimozione del rumore. Questo approccio consente di identificare i semi di rumore più promettenti, migliorando la qualità visiva e la coerenza temporale del video generato. Inoltre, ANSE è progettato per essere efficiente, con un aumento minimo del tempo di inferenza: solo l’8% per il modello CogVideoX-2B e il 13% per il modello CogVideoX-5B.
I risultati sperimentali hanno mostrato miglioramenti significativi nelle prestazioni dei modelli di diffusione video. Ad esempio, l’applicazione di ANSE al modello CogVideoX-2B ha portato a un aumento del punteggio complessivo di VBench di 0,63 punti, con un miglioramento di 1,23 punti nell’allineamento semantico. Anche il modello CogVideoX-5B ha mostrato miglioramenti, sebbene più contenuti, confermando l’efficacia di ANSE su diverse architetture.
Inoltre, ANSE ha dimostrato di generare video più realistici e coerenti in scenari complessi. Per esempio, in un prompt che descrive un “koala che suona il pianoforte”, il video generato presentava movimenti più naturali e anatomia corretta. Similmente, in una scena di esplosione, i risultati erano più realistici, con una rappresentazione più accurata delle dinamiche temporali.