I ricercatori della Johns Hopkins University e del Tencent AI Lab hanno sviluppato EzAudio, un innovativo modello di generazione audio che converte il testo in suono con una qualità eccezionale e un’efficienza senza precedenti. Questo progresso segna un importante passo avanti nel campo dell’intelligenza artificiale e dell’audio, affrontando sfide chiave legate alla produzione di suoni generati dall’IA.

EzAudio opera in uno spazio latente delle forme d’onda audio, abbandonando il metodo tradizionale basato sugli spettrogrammi. Questa innovazione consente di ottenere un’elevata risoluzione temporale senza la necessità di un vocoder neurale, rendendo il processo più diretto e efficace.

Il modello, chiamato EzAudio-DiT (Diffusion Transformer), utilizza tecniche avanzate come la normalizzazione adattiva dei livelli (AdaLN-SOLA) e il posizionamento rotatorio (RoPE), migliorando ulteriormente le sue prestazioni.

EzAudio ha dimostrato di superare modelli open source esistenti in vari test, ottenendo punteggi eccellenti in parametri come Frechet Distance (FD), Kullback-Leibler (KL) divergence e Inception Score (IS). Questo arriva in un momento in cui il mercato della generazione audio AI è in espansione, con aziende come ElevenLabs che lanciano nuove app e giganti come Microsoft e Google che investono nel settore.

Gartner prevede che entro il 2027, il 40% delle soluzioni di IA generativa sarà multimodale, combinando testo, immagini e audio. Modelli come EzAudio, che si concentrano sull’audio di alta qualità, potrebbero quindi diventare fondamentali in questo panorama.

Nonostante i progressi, ci sono preoccupazioni legate all’adozione dell’IA sul posto di lavoro. Un recente studio di Deloitte ha rilevato che quasi metà dei dipendenti teme di perdere il lavoro a causa dell’IA, e coloro che la utilizzano più frequentemente sono i più preoccupati per la sicurezza del posto di lavoro.

La crescente sofisticazione della generazione audio AI solleva anche importanti questioni etiche. La possibilità di creare audio realistico da testo porta con sé rischi di abuso, come la clonazione vocale non autorizzata e i deepfake.

Per affrontare queste sfide, il team di EzAudio ha reso pubblici i propri codici, dataset e modelli, promuovendo la trasparenza e incoraggiando ulteriori ricerche. Questo approccio aperto potrebbe facilitare progressi nella tecnologia audio AI e contribuire a un’analisi più approfondita dei rischi e benefici.

I ricercatori suggeriscono che EzAudio potrebbe trovare applicazioni non solo nella generazione di effetti sonori, ma anche nella produzione vocale e musicale. Con l’evoluzione della tecnologia, potrebbe essere utilizzato in vari settori, dall’intrattenimento ai servizi di accessibilità e agli assistenti virtuali.

Di Fantasy