ASR2K: riconoscimento vocale per circa 2000 lingue senza audio
di Xinjian Li, Florian Metze, David R. Mortensen, Alan W Black, Shinji Watanabe


I modelli di riconoscimento vocale più recenti si basano su grandi set di dati supervisionati, che non sono disponibili per molte lingue con poche risorse. In questo lavoro, presentiamo una pipeline di riconoscimento vocale che non richiede alcun audio per la lingua di destinazione. L’unico presupposto è che abbiamo accesso a set di dati di testo non elaborati o a una serie di statistiche n-grammi. La nostra pipeline vocale è composta da tre componenti: acustica, pronuncia e modelli linguistici. A differenza della pipeline standard, i nostri modelli acustici e di pronuncia utilizzano modelli multilingue senza alcuna supervisione. Il modello linguistico viene creato utilizzando le statistiche n-grammi o il set di dati di testo non elaborato. Costruiamo il riconoscimento vocale per 1909 lingue combinandolo con Crubadan: un ampio database di n-grammi di lingue a rischio di estinzione. Inoltre, testiamo il nostro approccio su 129 lingue attraverso due set di dati: Set di dati Common Voice e CMU Wilderness. Raggiungiamo il 50% di CER e il 74% di WER sul set di dati Wilderness solo con le statistiche di Crubadan e le miglioriamo al 45% di CER e al 69% di WER quando utilizziamo solo 10.000 espressioni di testo non elaborato.

Un team di ricercatori della Carnegie Mellon University sta cercando di espandere il riconoscimento vocale automatico a 2.000 lingue. A partire da ora, solo una parte delle circa 7.000-8.000 lingue parlate in tutto il mondo trarrebbe vantaggio dalle moderne tecnologie linguistiche come la trascrizione da voce a testo o i sottotitoli automatici.

Xinjian Li è un dottorato di ricerca. studente presso l’Istituto di Tecnologie del Linguaggio (LTI) della Scuola di Informatica.

“Molte persone in questo mondo parlano lingue diverse, ma gli strumenti di tecnologia linguistica non vengono sviluppati per tutti”, ha affermato. “Sviluppare la tecnologia e un buon modello linguistico per tutte le persone è uno degli obiettivi di questa ricerca”.

Li fa parte di un team di esperti che cercano di semplificare i requisiti di dati necessari alle lingue per sviluppare un modello di riconoscimento vocale.

Il team comprende anche membri della facoltà LTI Shinji Watanabe, Florian Metze, David Mortensen e Alan Black.

La ricerca intitolata ” ASR2K: Riconoscimento vocale per circa 2.000 lingue senza audio ” è stata presentata a Interspeech 2022 in Corea del Sud.

La maggior parte dei modelli di riconoscimento vocale esistenti richiede set di dati di testo e audio. Sebbene i dati di testo esistano per migliaia di lingue, lo stesso non vale per l’audio. Il team vuole eliminare la necessità di dati audio concentrandosi su elementi linguistici comuni a molte lingue.

Le tecnologie di riconoscimento vocale normalmente si concentrano sui fonemi di una lingua, che sono suoni distinti che la distinguono dalle altre lingue. Questi sono unici per ogni lingua. Allo stesso tempo, le lingue hanno telefoni che descrivono come suona fisicamente una parola e più telefoni possono corrispondere a un singolo fonema. Mentre lingue separate possono avere fonemi diversi, i telefoni sottostanti potrebbero essere gli stessi.

Il team sta lavorando a un modello di riconoscimento vocale che si basa meno sui fonemi e più sulle informazioni su come i telefoni vengono condivisi tra le lingue. Questo aiuta a ridurre lo sforzo necessario per creare modelli separati per ogni singola lingua. Abbinando il modello a un albero filogenetico, che è un diagramma che mappa le relazioni tra le lingue, aiuta con le regole di pronuncia. Il modello del team e la struttura ad albero hanno permesso loro di approssimare il modello vocale per migliaia di lingue anche senza dati audio.

“Stiamo cercando di rimuovere questo requisito di dati audio, che ci aiuta a passare da 100 a 200 lingue a 2.000”, ha affermato Li. “Questa è la prima ricerca mirata a un numero così elevato di lingue e siamo il primo team che mira a espandere gli strumenti linguistici a questo scopo”.

La ricerca, pur essendo ancora in una fase iniziale, ha migliorato del 5% gli strumenti di approssimazione linguistica esistenti.

“Ogni lingua è un fattore molto importante nella sua cultura. Ogni lingua ha la sua storia, e se non provi a preservare le lingue, quelle storie potrebbero andare perdute”, ha detto Li. “Sviluppare questo tipo di sistema di riconoscimento vocale e questo strumento è un passo per cercare di preservare quelle lingue”.

da Unite.ai

Di ihal