Un team di ricercatori dell’Università di Scienza e Tecnologia di Hong Kong e di Moonshot AI ha recentemente presentato AudioX, un innovativo modello di intelligenza artificiale progettato per generare audio e musica a partire da una vasta gamma di input multimodali. Questa tecnologia rappresenta un significativo passo avanti nel campo della generazione audio, offrendo una flessibilità senza precedenti nell’elaborazione di input come testo, video, immagini, musica e audio. ​

A differenza dei modelli tradizionali, spesso limitati a specifiche modalità o condizioni di input, AudioX adotta un approccio unificato che consente la generazione di audio e musica di alta qualità da vari tipi di input. Questo modello sfrutta una strategia di addestramento mascherato multimodale, che prevede la mascheratura degli input attraverso diverse modalità, costringendo il modello a imparare da questi input mascherati e sviluppare rappresentazioni cross-modali robuste e unificate. ​

Uno dei principali ostacoli nello sviluppo di sistemi versatili per la generazione audio è la mancanza di dati multimodali di alta qualità. Per superare questa sfida, i ricercatori hanno curato due dataset completi: vggsound-caps, contenente 190.000 didascalie audio basate sul dataset VGGSound, e V2M-caps, con 6 milioni di didascalie musicali derivate dal dataset V2M. Questi dataset forniscono una base solida per l’addestramento di AudioX, garantendo la capacità del modello di gestire una vasta gamma di input e compiti di generazione. ​

I risultati degli esperimenti indicano che AudioX non solo eguaglia o supera i modelli specializzati all’avanguardia, ma offre anche una notevole versatilità nella gestione di diverse modalità di input e compiti di generazione all’interno di un’unica architettura. Questo implica che AudioX può essere applicato in vari scenari, dalla generazione di suoni realistici per video alla creazione di composizioni musicali originali basate su descrizioni testuali. ​

L’introduzione di AudioX apre nuove possibilità nel campo della generazione audio assistita dall’intelligenza artificiale, potenzialmente rivoluzionando settori come l’intrattenimento, l’educazione e la produzione musicale. Attualmente, il codice per il modello non è ancora disponibile pubblicamente, ma i ricercatori hanno annunciato l’intenzione di renderlo accessibile sulla pagina GitHub del progetto, senza specificare una tempistica o dettagli sulla licenza.

Di Fantasy