Siri e Amazon Alexa usano i modelli ASR per il riconoscimento vocale i cinesi ora propongono un migliore ASR

I ricercatori propongono un modello nuovo e più efficace per il riconoscimento vocale automatico
Il nuovo framework incentrato sui consumatori migliora il riconoscimento vocale automatico includendo informazioni sul contesto, una soluzione migliorata per le videoconferenze e le interviste dal vivo

Assistenti vocali popolari come Siri e Amazon Alexa hanno introdotto il riconoscimento vocale automatico (ASR) al grande pubblico. Nonostante decenni di lavoro, i modelli ASR lottano con coerenza e affidabilità, specialmente in ambienti rumorosi. I ricercatori cinesi hanno sviluppato un framework che migliora efficacemente le prestazioni dell’ASR per il caos degli ambienti acustici quotidiani.

I ricercatori dell’Università di scienza e tecnologia di Hong Kong e WeBank hanno proposto un nuovo framework – il pre-training fonetico-semantico (PSP) e hanno dimostrato la robustezza del loro nuovo modello rispetto a set di dati vocali sintetici altamente rumorosi.

Il loro studio è stato pubblicato su CAAI Artificial Intelligence Research il 28 agosto.

“La robustezza è una sfida di lunga data per ASR”, ha affermato Xueyang Wu del Dipartimento di Informatica e Ingegneria dell’Università di Scienza e Tecnologia di Hong Kong. “Vogliamo aumentare la robustezza del sistema ASR cinese con un basso costo”.

ASR utilizza l’apprendimento automatico e altre tecniche di intelligenza artificiale per tradurre automaticamente il parlato in testo per usi come sistemi ad attivazione vocale e software di trascrizione. Ma le nuove applicazioni incentrate sui consumatori richiedono sempre più che il riconoscimento vocale funzioni meglio: gestisca più lingue e accenti e funzioni in modo più affidabile in situazioni di vita reale come le videoconferenze e le interviste dal vivo.

Tradizionalmente, l’addestramento dei modelli acustici e linguistici che compongono l’ASR richiede grandi quantità di dati specifici del rumore, che possono essere proibitivi in termini di tempo e costi.

Il modello acustico (AM) trasforma le parole in “telefoni”, che sono sequenze di suoni di base. Il modello linguistico (LM) decodifica i telefoni in frasi in linguaggio naturale, di solito con un processo in due fasi: un LM veloce ma relativamente debole genera una serie di frasi candidate e un LM potente ma computazionalmente costoso seleziona la frase migliore tra i candidati.

“I modelli di apprendimento tradizionali non sono robusti contro i rumorosi output dei modelli acustici, in particolare per le parole polifoniche cinesi con pronuncia identica”, ha affermato Wu. “Se il primo passaggio della decodifica del modello di apprendimento non è corretto, è estremamente difficile recuperare il secondo passaggio”.

Il quadro PSP recentemente proposto semplifica il recupero di parole classificate erroneamente. Pre-addestrando un modello che traduce gli output dell’AM direttamente in una frase insieme alle informazioni di contesto complete, i ricercatori possono aiutare il LM a riprendersi in modo efficiente dagli output rumorosi dell’AM.

Il framework PSP consente al modello di migliorare attraverso un regime di pre-formazione chiamato curriculum consapevole del rumore che introduce gradualmente nuove competenze, iniziando facilmente e passando gradualmente a compiti più complessi.

“La parte più cruciale del nostro metodo proposto, Noise-aware Curriculum Learning, simula il meccanismo con cui gli esseri umani riconoscono una frase da un discorso rumoroso”, ha detto Wu.

Il riscaldamento è la prima fase, in cui i ricercatori pre-addestrano un trasduttore da telefono a parola su una sequenza telefonica pulita, che viene tradotta solo da dati di testo senza etichetta, per ridurre il tempo di annotazione. Questa fase “riscalda” il modello, inizializzando i parametri di base per mappare le sequenze telefoniche alle parole.

Nella seconda fase, l’apprendimento auto-supervisionato, il trasduttore apprende da dati più complessi generati da tecniche e funzioni di addestramento auto-supervisionato. Infine, il risultante trasduttore da telefono a parola è messo a punto con i dati vocali del mondo reale.

I ricercatori hanno dimostrato sperimentalmente l’efficacia della loro struttura su due set di dati di vita reale raccolti da scenari industriali e rumore sintetico. I risultati hanno mostrato che il framework PSP migliora efficacemente la pipeline ASR tradizionale, riducendo i tassi di errore relativo dei caratteri del 28,63% per il primo set di dati e del 26,38% per il secondo.

Nelle fasi successive, i ricercatori studieranno metodi di pre-allenamento PSP più efficaci con set di dati spaiati più ampi, cercando di massimizzare l’efficacia del pre-allenamento per LM rumorosi.

Altri contributori includono Rongzhong Lian, Di Jiang, Yuanfeng Song, Weiwei Zhao e Qian Xu e Qiang Yang di WeBank Co. Ltd. Qian Xu e Qiang Yang sono anche affiliati all’Università di scienza e tecnologia di Hong Kong.

CAAI Artificial Intelligence Research è una nuova rivista sponsorizzata congiuntamente dall’Associazione cinese per l’intelligenza artificiale (CAAI) e dalla Tsinghua University. Questo è il primo articolo pubblicato sulla rivista.

Informazioni sulla ricerca sull’intelligenza artificiale CAAI

CAAI Artificial Intelligence Research è una rivista peer-reviewed sponsorizzata congiuntamente dall’Associazione cinese per l’intelligenza artificiale (CAAI) e dalla Tsinghua University. La rivista mira a riflettere i risultati all’avanguardia nel campo dell’intelligenza artificiale e della sua applicazione, inclusa l’intelligenza della conoscenza, l’intelligenza percettiva, l’apprendimento automatico, l’intelligenza comportamentale, il cervello e la cognizione, i chip e le applicazioni AI, ecc. Originale articoli di ricerca e revisione da tutto il mondo sono i benvenuti per una rigorosa revisione tra pari e un supporto editoriale professionale.

A proposito di SciOpen

SciOpen è una risorsa professionale ad accesso aperto per la scoperta di contenuti scientifici e tecnici pubblicata dalla Tsinghua University Press e dai suoi partner editoriali, fornendo alla comunità editoriale accademica tecnologia innovativa e capacità leader di mercato. SciOpen fornisce servizi end-to-end per l’invio di manoscritti, revisione tra pari, hosting di contenuti, analisi e gestione dell’identità e consulenza di esperti per garantire lo sviluppo di ogni rivista offrendo una gamma di opzioni in tutte le funzioni come Layout diario, Servizi di produzione, Servizi editoriali, Marketing e promozioni, funzionalità online, ecc. Digitalizzando il processo di pubblicazione, SciOpen amplia la portata, approfondisce l’impatto e accelera lo scambio di idee.

Siri e Amazon Alexa usano i modelli ASR per il riconoscimento vocale i cinesi ora propongono un migliore ASR

Diihal

Di ihal

Articoli correlati

NVIDIA porta il cinema in 4K sul visore di Apple con CloudXR

Siemens Fuse EDA AI Agent, un agente intelligente per progettare chip e circuiti

Nvidia presenta Vera Rubin, la piattaforma AI a sette chip progettata per la prossima generazione di modelli di OpenAI e Anthropic

Ultimi Post

Xiaomi presenta il nuovo modello MoE MiMo-V2-Pro che raggiunge la potenza di GPT-5 e Claude 4

MiniMax M2.7, il modello AI che si auto-evolve e automatizza fino al 50% della ricerca

Manus Desktop porta gli agenti AI direttamente sul computer

L’architettura a diffusione di NVIDIA Kimodo per la generazione di movimento 3D vincolato e fotorealistico