I ricercatori propongono LEAF, un frontend per lo sviluppo di algoritmi di classificazione AI
Nell’apprendimento automatico, i banchi di filtri mel – rappresentazioni del suono fisse e ingegnerizzate a mano – vengono spesso utilizzati per addestrare algoritmi che classificano il suono. Decenni dopo la progettazione dei banchi di filtri mel, la ricerca mostra che esibiscono proprietà matematiche desiderabili per l’apprendimento della rappresentazione; in altre parole, rappresentano forti caratteristiche audio. Ma il design dei banchi di filtri mel è anche viziato da bias, e questi bias possono essere dannosi per le attività che richiedono una risoluzione a grana fine alle alte frequenze.
In un passo verso un’alternativa AI-forward, i ricercatori di Google hanno sviluppato LEAF , un frontend che scompone i banchi di filtri mel in diversi componenti – filtraggio, raggruppamento e compressione / normalizzazione – per creare modelli di classificazione audio apparentemente con pregiudizi minimi. I ricercatori affermano che LEAF può apprendere un singolo set di parametri che supera i banchi di filtri mel, suggerendo che può essere utilizzato per attività di classificazione audio di uso generale.
LEAF ha implicazioni nel mondo reale dato che il mercato globale del riconoscimento del suono è stato valutato a $ 66,5 milioni nel 2018, secondo Grand View Research . Oltre al riconoscimento vocale e vocale, il senso dell’udito è diventato essenziale nell’IA; il suono consente all’IA di comprendere il contesto e distinguere tra i vari eventi che si verificano in un ambiente. Ad esempio, in caso di intrusione, un sistema di gestione degli eventi con una tecnologia di rilevamento del suono alimentata dall’intelligenza artificiale potrebbe accendere le luci e riprodurre musica ad alto volume per scoraggiare una violazione, oltre a inviare avvisi ai proprietari di case. LEAF potrebbe semplificare la creazione di questo tipo di prodotti senza dover creare minuziosamente rappresentazioni sonore.
Negli esperimenti, i ricercatori hanno utilizzato LEAF per sviluppare modelli indipendenti con supervisione di un singolo compito su otto distinti problemi di classificazione, tra cui la classificazione delle scene acustiche, il rilevamento del canto degli uccelli, il riconoscimento delle emozioni, l’identificazione dei parlanti, il rilevamento degli strumenti musicali e del tono, l’individuazione di parole chiave e l’identificazione del linguaggio. Dicono che i modelli creati con LEAF hanno sovraperformato o quasi hanno sovraperformato tutte le alternative o hanno eguagliato la precisione di altri frontend.
Nel prossimo futuro, il team prevede di rilasciare il codice sorgente per i propri modelli e linee di base, nonché frontend pre-addestrati. “In questo lavoro, sosteniamo che un’alternativa credibile ai banchi di filtri mel per la classificazione dovrebbe essere valutata in molte attività e proponiamo il primo studio approfondito di frontend apprendibili per l’audio su una vasta e diversificata gamma di segnali audio, tra cui parlato, musica, eventi audio e versi di animali ”, hanno scritto in un articolo descrivendo il loro lavoro. “Suddividendo i banchi di filtri mel in tre componenti … proponiamo LEAF, un nuovo frontend che è completamente apprendibile in tutte le sue operazioni, pur essendo controllato da poche centinaia di parametri. [Questi] risultati vengono replicati durante l’addestramento di un modello diverso per ogni singola attività. Confermiamo questi risultati anche su un benchmark impegnativo e su larga scala. “