L’apprendimento automatico migliora il riconoscimento vocale umano


I ricercatori sviluppano un modello di riconoscimento vocale umano con reti neurali profonde
Il modello di riconoscimento vocale umano fornisce buone previsioni per gli ascoltatori con problemi di udito.

La perdita dell’udito è un’area in rapida crescita della ricerca scientifica poiché il numero di baby boomer che si occupano di perdita dell’udito continua ad aumentare con l’età.

Per capire in che modo la perdita dell’udito influisce sulle persone, i ricercatori studiano la capacità delle persone di riconoscere il parlato. È più difficile per le persone riconoscere il linguaggio umano se c’è riverbero, qualche problema di udito o rumore di fondo significativo, come il rumore del traffico o più altoparlanti.

Di conseguenza, gli algoritmi degli apparecchi acustici vengono spesso utilizzati per migliorare il riconoscimento vocale umano. Per valutare tali algoritmi, i ricercatori eseguono esperimenti che mirano a determinare il rapporto segnale-rumore al quale viene riconosciuto un numero specifico di parole (comunemente il 50%). Questi test, tuttavia, richiedono molto tempo e denaro.

In The Journal of the Acoustical Society of America , pubblicato dalla Acoustical Society of America tramite AIP Publishing, i ricercatori tedeschi esplorano un modello di riconoscimento vocale umano basato sull’apprendimento automatico e sulle reti neurali profonde.

“La novità del nostro modello è che fornisce buone previsioni per gli ascoltatori con problemi di udito per tipi di rumore con complessità molto diversa e mostra sia errori bassi che alte correlazioni con i dati misurati”, ha affermato l’autrice Jana Roßbach, della Carl Von Ossietzky University.

I ricercatori hanno calcolato quante parole per frase comprende un ascoltatore utilizzando il riconoscimento vocale automatico (ASR). La maggior parte delle persone ha familiarità con l’ASR attraverso strumenti di riconoscimento vocale come Alexa e Siri.

Lo studio consisteva in otto ascoltatori con problemi di udito e 20 con problemi di udito che sono stati esposti a una varietà di rumori complessi che mascherano il discorso. Gli ascoltatori con problemi di udito sono stati classificati in tre gruppi con diversi livelli di perdita dell’udito legata all’età.

Il modello ha consentito ai ricercatori di prevedere le prestazioni di riconoscimento vocale umano di ascoltatori con problemi di udito con diversi gradi di perdita dell’udito per una varietà di mascheratori di rumore con complessità crescente nella modulazione temporale e somiglianza con il parlato reale. La possibile perdita dell’udito di una persona potrebbe essere considerata individualmente.

“Siamo rimasti molto sorpresi dal fatto che le previsioni funzionassero bene per tutti i tipi di rumore. Ci aspettavamo che il modello avesse problemi quando si utilizzava un singolo oratore in competizione. Tuttavia, non era così”, ha affermato Roßbach.

Il modello ha creato previsioni per l’udito con un solo orecchio. Andando avanti, i ricercatori svilupperanno un modello binaurale poiché la comprensione del parlato è influenzata dall’udito a due orecchie.

Oltre a prevedere l’intelligibilità del parlato, il modello potrebbe anche essere potenzialmente utilizzato per prevedere lo sforzo di ascolto o la qualità del parlato poiché questi argomenti sono molto correlati.

###

L’articolo “Un modello di riconoscimento vocale per ascoltatori con problemi di udito basato sull’apprendimento profondo” è scritto da Jana Roßbach, Birger Kollmeier e Bernd T. Meyer. L’articolo apparirà su The Journal of the Acoustical Society of America il 1 marzo 2022 

 

Il Journal of the Acoustical Society of America (JASA) è pubblicato per conto della Acoustical Society of America. Dal 1929, la rivista è stata la principale fonte di risultati di ricerche teoriche e sperimentali nell’ampio argomento interdisciplinare del suono. JASA serve fisici, scienziati della vita, ingegneri, psicologi, fisiologi, architetti, musicisti e specialisti della comunicazione vocale. Vedi https://asa.scitation.org/journal/jas .

 

La Acoustical Society of America (ASA) è la principale società scientifica internazionale di acustica dedicata alla scienza e alla tecnologia del suono. I suoi 7.000 membri in tutto il mondo rappresentano un ampio spettro dello studio dell’acustica. Le pubblicazioni ASA includono The Journal of the Acoustical Society of America (la principale rivista mondiale di acustica), la rivista Acoustics Today, libri e standard sull’acustica. La società tiene anche due importanti incontri scientifici ogni anno. Vedi https://acouticalsociety.org/ .

Di ihal