Apple ha lanciato il Denoising Language Model (DLM), un modello di correzione degli errori su larga scala addestrato utilizzando dati sintetici avanzati. Questo modello ha superato i metodi precedenti e ha raggiunto prestazioni di punta nel riconoscimento vocale automatico (ASR).
Il processo coinvolge l’utilizzo di sistemi di sintesi vocale (TTS) per generare audio, che viene quindi inserito in un sistema ASR per creare ipotesi di testo. Queste ipotesi vengono poi accoppiate con il testo originale per formare il DLM.
Ci sono diversi elementi chiave in questo approccio, come l’uso di un modello e dati su larga scala, sistemi TTS multi-altoparlante, varie strategie di aumento del rumore e nuove tecniche di decodifica. Utilizzando un Transformer-CTC ASR, il DLM ha ottenuto un tasso di errore di parola (WER) dell’1,5% su test-clean e del 3,3% su test-other su LibriSpeech, risultati eccellenti senza l’uso di dati audio esterni.
Un singolo DLM può essere utilizzato con diversi ASR, superando i tradizionali metodi di rescoring di ricerca del fascio basati su LM. Questi risultati indicano che i modelli di correzione degli errori possono sostituire efficacemente i tradizionali LM, portando a una maggiore precisione nei sistemi ASR.
Una sfida importante per questi modelli è l’ottenimento di un numero sufficiente di esempi di addestramento supervisionato, ma il DLM affronta questo problema utilizzando dati sintetici generati dai sistemi TTS. Questo approccio permette di ampliare il set di dati di addestramento utilizzando una vasta gamma di contesti linguistici.
Contributi Principali:
- Prestazioni di punta nell’ASR: Il DLM ha ottenuto WER dell’1,4% su dev-clean e del 3,1% su dev-other, e dell’1,5% su test-clean e del 3,3% su test-other su LibriSpeech senza l’uso di dati audio esterni.
- Elementi chiave del DLM:
- Utilizzo di sistemi TTS multi-altoparlante per generare audio in stili diversi.
- Miscelazione di dati reali e sintetici durante l’allenamento.
- Utilizzo di strategie di aumento del rumore come il mascheramento della frequenza e la sostituzione casuale dei caratteri.
- Scalabilità ed Efficienza:
- Il DLM può essere applicato a diversi sistemi e set di dati ASR.
- Le prestazioni migliorano con l’aumento del numero di relatori, delle dimensioni del modello e del corpus di testi di training.
- Può abbinare i risultati dei tradizionali LM neurali senza la necessità di rescoring di ricerca.
Il DLM dimostra una grande scalabilità e funziona efficacemente anche con dati sintetici, dimostrando che non è necessario avere TTS di alta qualità per una correzione degli errori efficace.