Speechmatics, azienda leader nella tecnologia di riconoscimento vocale, ha lanciato il suo software “Autonomous Speech Recognition” che utilizza le più recenti tecniche di deep learning e innovativi modelli di auto-supervisione. Il sistema ha dimostrato la capacità di superare Amazon, Google e Microsoft.
I set di dati di Stanford
Speechmatics si basa su set di dati trovati nello studio ” Racial Disparities in Speech Recognition ” di Stanford e ha raggiunto una precisione complessiva dell’82,8% per le voci afroamericane. Per riferimento, Google ha raggiunto solo un tasso di precisione del 68,7%, mentre Amazon ha raggiunto il 68,6%.
Il livello di accuratezza equivale a una riduzione del 45% degli errori di riconoscimento vocale, che è l’equivalente di tre parole in una frase media. Non solo il nuovo sistema Speechmatics è accurato in questo senso, ma ha anche dimostrato miglioramenti nell’accuratezza attraverso accenti, età, dialetti e varie altre caratteristiche sociodemografiche.
C’è spesso incomprensione nel riconoscimento vocale a causa della quantità limitata di dati etichettati che gli algoritmi possono utilizzare per addestrarsi. I dati etichettati devono essere classificati manualmente dagli esseri umani, il che si traduce in una minore quantità di dati disponibili per questi sistemi. Ciò limita anche la rappresentazione di tutte le voci, il che crea una nuova serie di problemi.
Formazione su dati non etichettati
Speechmatics sta facendo grandi progressi in questo senso poiché la sua tecnologia è addestrata su enormi quantità di dati non etichettati provenienti direttamente da Internet. I dati provengono da cose come i contenuti dei social media e i podcast.
L’apprendimento autogestito ha consentito di addestrare il sistema su 1,1 milioni di ore di audio, in aumento rispetto alle precedenti 30.000 ore. Ciò gli consente di avere una gamma molto più ampia di rappresentazione delle voci e aiuta a ridurre i pregiudizi e gli errori dell’intelligenza artificiale nel riconoscimento vocale.
Per quanto riguarda le voci dei bambini, Speechmatics ha anche dimostrato la capacità di superare i concorrenti. Le voci dei bambini sono difficili da riconoscere attraverso la tecnologia di riconoscimento vocale legacy, ma Speechmatics è riuscita a registrare un tasso di precisione del 91,8%. Google potrebbe raggiungere solo l’83,4% e Deepgram l’82,3%.
Katy Wigdahl è CEO di Speechmatics.
“La nostra missione è fornire la prossima generazione di capacità di apprendimento automatico e, attraverso questa, offrire una tecnologia vocale più inclusiva e accessibile. Questo annuncio è un enorme passo avanti verso il raggiungimento di questa missione”.
“La nostra attenzione nell’affrontare i pregiudizi dell’intelligenza artificiale ha portato a questo monumentale balzo in avanti nel settore del riconoscimento vocale e l’effetto a catena porterà a cambiamenti in una moltitudine di scenari diversi”, ha continuato Wigdahl. “Pensa alle didascalie errate che vediamo sui social media, alle udienze in tribunale in cui le parole vengono trascritte male e alle piattaforme di eLearning che hanno lottato con le voci dei bambini durante la pandemia. Gli errori che le persone hanno dovuto accettare fino ad ora possono avere un impatto tangibile sulla loro vita quotidiana”.
Allison Zhu Koenecke è l’autore principale dello studio di Stanford sul riconoscimento vocale.
“È fondamentale studiare e migliorare l’equità nei sistemi di sintesi vocale, dato il potenziale di danni disparati agli individui attraverso i settori a valle che vanno dall’assistenza sanitaria alla giustizia penale”.