Immagine AI

Il Korea Advanced Institute of Science and Technology (KAIST), in collaborazione con POSTECH e Sony AI, ha sviluppato un nuovo sistema di generazione audio basato su intelligenza artificiale chiamato “PAVAS”, progettato per creare effetti sonori realistici comprendendo le proprietà fisiche implicite presenti nei video. Il progetto affronta uno dei problemi più complessi della generazione multimodale: produrre audio coerente non solo con ciò che appare visivamente, ma anche con la dinamica fisica reale degli oggetti coinvolti.

A differenza dei sistemi tradizionali di sound generation, che spesso associano semplicemente pattern visivi a campioni audio preesistenti, PAVAS cerca di inferire variabili fisiche non direttamente osservabili, come massa, velocità e intensità dell’impatto. Il modello analizza il contesto spaziale della scena, il movimento degli oggetti e le relazioni causali tra le interazioni fisiche per stimare parametri dinamici che influenzano il suono generato.

Il sistema utilizza un approccio multimodale in cui la componente visiva non viene interpretata soltanto come sequenza di immagini, ma come rappresentazione di eventi fisici. L’AI osserva collisioni, urti, cadute e deformazioni, cercando di dedurre proprietà meccaniche implicite degli oggetti presenti nel video. Queste stime vengono poi incorporate nel motore di generazione audio per modificare caratteristiche acustiche come volume, intensità, riverbero e timbro.

Uno degli aspetti più rilevanti emersi durante i test è la capacità del sistema di produrre variazioni sonore coerenti al cambiare delle condizioni fisiche. Quando un oggetto stimato come più pesante colpisce una superficie, il modello genera automaticamente suoni più profondi e intensi; al contrario, oggetti leggeri o movimenti più lenti producono effetti acustici più morbidi e attenuati. Questo comportamento rappresenta un’evoluzione significativa rispetto ai normali modelli generativi audio, che spesso producono risultati plausibili ma privi di reale consistenza fisica.

La ricerca si inserisce nel crescente filone della cosiddetta “physical AI”, cioè sistemi progettati per comprendere relazioni causali e proprietà del mondo reale invece di limitarsi alla correlazione statistica dei dati. Secondo il team del KAIST, il valore principale del progetto non risiede soltanto nella qualità sonora, ma nel fatto che il modello tenta di costruire una rappresentazione interna delle grandezze fisiche coinvolte nelle scene.

Le applicazioni potenziali sono estremamente ampie. Nel settore della produzione audiovisiva, tecnologie di questo tipo potrebbero automatizzare gran parte del lavoro di Foley e sound design per cinema, videogiochi e contenuti digitali. Nei sistemi XR, AR e metaverso, la generazione audio fisicamente coerente potrebbe migliorare drasticamente il realismo immersivo delle interazioni virtuali. Anche la robotica potrebbe beneficiare di modelli simili, utilizzando il suono come ulteriore segnale per comprendere interazioni materiali, collisioni e comportamento degli oggetti nell’ambiente.

Il progetto evidenzia inoltre una direzione molto importante per l’evoluzione dell’intelligenza artificiale generativa: il passaggio da modelli che apprendono soltanto correlazioni statistiche a sistemi che iniziano a incorporare nozioni di causalità, dinamica e struttura fisica del mondo reale. È un cambiamento cruciale perché molte limitazioni dell’AI moderna derivano proprio dalla difficoltà di comprendere relazioni fisiche implicite che per gli esseri umani risultano naturali e intuitive.

Di Fantasy