Nel corso degli anni, Meta ha contribuito attivamente alla comunità open source con i suoi documenti di ricerca di grande impatto. L’articolo più citato del 2022 è stato AlphaFold di Google DeepMind. Nello stesso anno, Meta si è assicurata la terza posizione con il suo articolo “A ConvNet for the 2020s”, uno sforzo di collaborazione con l’UC Berkeley, che ha ottenuto ben 835 citazioni.
Portando avanti l’eredità, Meta ha presentato più di 20 brillanti articoli alla prestigiosa conferenza dell’International Speech Communication Association (INTERSPEECH 2023) a Dublino. Diamo un’occhiata ai primi sei.
Modello di architettura multi-head state space (MH-SSM) per il riconoscimento vocale
L’articolo introduce un nuovo approccio chiamato architettura multi-head state space (MH-SSM), potenziata con meccanismi di gating specializzati che sfruttano le teste parallele per catturare modelli temporali sia locali che globali all’interno dei dati di sequenza. Questo modello MH-SSM funge da sostituto dell’attenzione multi-testa nei codificatori del trasformatore, superando le prestazioni del trasduttore del trasformatore sul set di dati di riconoscimento vocale LibriSpeech. Inoltre, il documento presenta Stateformer, un modello che incorpora strati MH-SSM nel blocco del trasformatore. Questo Stateformer raggiunge risultati all’avanguardia nell’attività LibriSpeech, ottenendo tassi di errore delle parole dell’1,76% e del 4,37% sui set di sviluppo e dell’1,91% e del 4,36% sui set di test, il tutto senza fare affidamento su un modello linguistico esterno.
Modalità di formazione consapevole sulla fiducia per una solida comprensione end-to-end della lingua parlata
Questo metodo utilizza un unico modello che combina dati audio e di testo provenienti da modelli di riconoscimento vocale pre-addestrati, surclassando i tradizionali sistemi SLU in scenari in tempo reale sul dispositivo. Tuttavia, questi sistemi di comprensione del linguaggio parlato (SLU) end-to-end (E2E) hanno difficoltà di fronte a rappresentazioni di testo inadeguate a causa di errori nel riconoscimento vocale automatico (ASR). Per risolvere questo problema, Meta propone un nuovo sistema E2E SLU che migliora la resilienza agli errori ASR unendo dati audio e di testo basati sui livelli di confidenza stimati delle ipotesi ASR attraverso due nuove tecniche: 1) un metodo per valutare la qualità delle ipotesi ASR e 2 ) un approccio per incorporarli efficacemente nei modelli SLU E2E. Il metodo dimostra una maggiore precisione sul set di dati STOP, supportato da un’analisi che ne dimostra l’efficacia.
EXPRESSO: un punto di riferimento e un’analisi della risintesi del parlato espressivo discreto
Meta ha ideato “Expresso”, un set di dati con parlato scritto e improvvisato in 26 stili per affrontare l’uso di unità a basso bitrate autoapprendimento per la sintesi vocale, catturando aspetti del parlato complessi anche se mancano set di dati espressivi. Usano il set di dati per un benchmark in cui l’input viene codificato in unità a basso bitrate e quindi risintetizzato in una voce di destinazione preservando contenuto e stile. La qualità della risintesi viene valutata utilizzando codificatori auto-supervisionati, considerando i compromessi tra qualità, bitrate e coerenza dello stile. Il set di dati, le metriche e i modelli sono open source per ulteriori ricerche.
Gestire l’allineamento per il rilevamento delle parole di attivazione: un confronto tra approcci basati sull’allineamento, senza allineamento e ibridi
L’articolo discute il rilevamento delle parole di attivazione nei dispositivi intelligenti, consentendo loro di attivarsi in modo efficiente quando sentono parole chiave specifiche. Esplora il ruolo dell’allineamento nella creazione di un sistema di parole-sveglia per frasi generali, confrontando tre approcci: formazione basata sull’allineamento con entropia incrociata frame-wise, formazione senza allineamento utilizzando la classificazione temporale connessionista (CTC) e un approccio ibrido che combina allineato e dati non allineati. I risultati mostrano che il sistema senza allineamento funziona meglio per il punto operativo target e il modello ibrido, addestrato con una piccola porzione di dati (20%), soddisfa efficacemente i criteri di prestazione.
MuAViC: un corpus audiovisivo multilingue per un efficace riconoscimento vocale e una efficace traduzione da parlato a testo
Meta ha presentato un nuovo benchmark chiamato MuAViC (Multilingual Audio-Visual Corpus) che incorpora l’apprendimento audiovisivo per ottenere una traduzione vocale altamente accurata, rinnovando la traduzione vocale. Sulla base dei loro precedenti modelli di intelligenza artificiale come i modelli AV-HuBERT e RAVen che utilizzano informazioni visive per migliorare il riconoscimento vocale in inglese, attraverso MuAViC, Meta AI ha addestrato il suo modello AV-HuBERT a fornire una traduzione vocale superiore in ambienti rumorosi difficili. Il modello può gestire senza sforzo il rumore, facendo più affidamento sulla modalità visiva se la modalità audio è distorta. I modelli sono stati testati in ambienti rumorosi e privi di rumore rispetto a un modello con le migliori prestazioni per il riconoscimento vocale e le attività di traduzione vocale X-En.
ESPnet-SE++: miglioramento vocale per un efficace riconoscimento vocale, traduzione e comprensione
Il documento discute i recenti progressi nell’integrazione della separazione e miglioramento del parlato (SSE) nel toolkit ESPnet. Vengono evidenziati notevoli miglioramenti rispetto al precedente lavoro di ESPnet-SE, incorporando modelli di miglioramento del parlato all’avanguardia con metodi di formazione e valutazione associati. È stata ideata una nuova interfaccia che consente la combinazione flessibile del miglioramento del parlato con altre attività come il riconoscimento vocale automatico (ASR), la traduzione del parlato (ST) e la comprensione della lingua parlata (SLU). Lo studio include esperimenti su set di dati sintetici appositamente curati per attività che coinvolgono ST e SLU multicanale rumorosi e riverberanti, che servono come set di dati di riferimento per la ricerca futura. Inoltre, i set di dati consolidati CHiME-4 e WSJ0-2Mix vengono utilizzati per valutare le tecniche SE multicanale e monocanale. I risultati sottolineano il potenziale promettente dell’integrazione dei front-end SE con vari compiti oltre l’ASR, in particolare in contesti multicanale. Inoltre, il documento introduce set di dati ST e SLU multicanale.