Un’applicazione basata sull’intelligenza artificiale in grado di osservare le azioni che si svolgono in un video e creare effetti sonori artificiali per abbinare tali azioni

Programma di progettazione di ricercatori di intelligenza artificiale per generare effetti sonori per film e altri media

I ricercatori dell’Università del Texas San Antonio hanno creato un’applicazione basata sull’intelligenza artificiale in grado di osservare le azioni che si svolgono in un video e creare effetti sonori artificiali per abbinare tali azioni. Secondo quanto riferito, gli effetti sonori generati dal programma sono così realistici che quando gli osservatori umani sono stati interrogati, in genere pensavano che gli effetti sonori fossero legittimi.

Il programma responsabile della generazione degli effetti sonori, AudioFoley, è stato dettagliato in uno studio recentemente pubblicato su IEEE Transactions on Multimedia. Secondo IEEE Spectrum, il programma AI è stato sviluppato da Jeff Provost, professore all’UT San Antonio e Ph.D. studentessa Sanchita Ghose. I ricercatori hanno creato il programma utilizzando più modelli di apprendimento automatico uniti insieme.

Il primo compito nella generazione di effetti sonori appropriati alle azioni su uno schermo era riconoscere quelle azioni e mapparle in effetti sonori. Per ottenere ciò, i ricercatori hanno progettato due diversi modelli di apprendimento automatico e testato i loro diversi approcci. Il primo modello funziona estraendo i fotogrammi dai video che vengono alimentati e analizzando questi fotogrammi per caratteristiche rilevanti come movimenti e colori. Successivamente, è stato impiegato un secondo modello per analizzare come la posizione di un oggetto cambia attraverso i fotogrammi, per estrarre informazioni temporali. Queste informazioni temporali vengono utilizzate per anticipare le prossime azioni probabili nel video. I due modelli hanno metodi diversi per analizzare le azioni nella clip, ma entrambi utilizzano le informazioni contenute nella clip per indovinare quale suono sarebbe meglio accompagnarla.

Il compito successivo è quello di sintetizzare il suono, e ciò si ottiene abbinando attività / movimenti previsti a possibili campioni sonori. Secondo Ghose e Prevost, AutoFoley è stato utilizzato per generare suoni per 1000 brevi clip, con azioni e oggetti come un fuoco, un cavallo che corre, orologi che ticchettano e pioggia che cade sulle piante. Sebbene AutoFoley abbia avuto più successo nella creazione di suoni per clip in cui non era necessario un abbinamento perfetto tra azioni e suoni, e ha avuto problemi ad abbinare clip in cui le azioni si verificavano con più variazioni, il programma era ancora in grado di ingannare molti osservatori umani a cogliere i suoi suoni generati rispetto al suono che originariamente accompagnava una clip.

Prevost e Ghose hanno reclutato 57 studenti universitari e li hanno fatti guardare diversi clip. Alcune clip contenevano l’audio originale, altre contenevano l’audio generato da AutoFoley. Quando è stato testato il primo modello, circa il 73% degli studenti ha selezionato l’audio sintetizzato come audio originale, trascurando il suono vero che accompagnava la clip. L’altro modello ha avuto prestazioni leggermente peggiori, con solo il 66% dei partecipanti che ha selezionato l’audio generato rispetto all’audio originale.

Prevost ha spiegato che AutoFoley potrebbe essere potenzialmente utilizzato per accelerare il processo di produzione di film, televisione e altri media. Prevost osserva che una traccia Foley realistica è importante per rendere i media coinvolgenti e credibili, ma che il processo di Foley spesso richiede una notevole quantità di tempo per essere completato. Avere un sistema automatizzato in grado di gestire la creazione di elementi Foley di base potrebbe rendere la produzione di supporti più economica e veloce.

Attualmente, AutoFoley ha alcune limitazioni notevoli. Per uno, mentre il modello sembra funzionare bene durante l’osservazione di eventi che hanno movimenti stabili e prevedibili, soffre quando si cerca di generare audio per eventi con variazioni nel tempo (come i temporali). Oltre a ciò, richiede anche che il soggetto della classificazione sia presente nell’intera clip e non esca dal fotogramma. Il team di ricerca mira ad affrontare questi problemi con le future versioni dell’applicazione.

Un’applicazione basata sull’intelligenza artificiale in grado di osservare le azioni che si svolgono in un video e creare effetti sonori artificiali per abbinare tali azioni

Diihal

Di ihal

Articoli correlati

You missed

Apple e il progetto ACDC per entrare nel settore del Cloud Computing

L’ascesa dell’AI nella ricerca: come ChatGPT sta trasformando il settore dell’informazione

Daniel Gross lascia SSI di Ilya Sutskever ed entra nel SuperIntelligence Lab di Meta

Le aziende europee chiedono un rinvio dell’AI Act: preoccupazioni per la competitività e l’innovazione