Meta afferma che la sua intelligenza artificiale migliora la qualità del riconoscimento vocale leggendo le labbra 

Le persone percepiscono il parlato sia ascoltandolo che osservando i movimenti delle labbra degli oratori. In effetti, gli studi dimostrano che i segnali visivi svolgono un ruolo chiave nell’apprendimento delle lingue. Al contrario, i sistemi di riconoscimento vocale AI sono costruiti principalmente, o interamente, sull’audio. E richiedono una notevole quantità di dati per l’addestramento, che in genere varia nelle decine di migliaia di ore di registrazioni.

Per indagare se le immagini, in particolare le riprese del movimento della bocca, possono migliorare le prestazioni dei sistemi di riconoscimento vocale, i ricercatori di Meta (ex Facebook) hanno sviluppato Audio-Visual Hidden Unit BERT (AV-HuBERT) , un framework che impara a comprendere il parlato sia guardando e sentire le persone parlare. Meta afferma che AV-HuBERT è il 75% più accurato dei migliori sistemi di riconoscimento vocale audiovisivo che utilizzano la stessa quantità di trascrizioni. Inoltre, afferma la società, AV-HuBERT supera il precedente miglior sistema di riconoscimento vocale audiovisivo utilizzando un decimo dei dati etichettati, rendendolo potenzialmente utile per le lingue con pochi dati audio.

 
“In futuro, i framework di intelligenza artificiale come AV-HuBERT potrebbero essere utilizzati per migliorare le prestazioni della tecnologia di riconoscimento vocale in condizioni quotidiane rumorose, ad esempio le interazioni a una festa o in un vivace mercato di strada”, ha detto a VentureBeat lo scienziato ricercatore Meta AI Abdelrahman Mohamed in un’intervista. “E anche gli assistenti in smartphone, occhiali per realtà aumentata e altoparlanti intelligenti dotati di fotocamera, ad esempio Alexa Echo Show, potrebbero trarre vantaggio da questa tecnologia”.

AV-HuBERT
Meta non è il primo ad applicare l’IA al problema della lettura labiale. Nel 2016, i ricercatori dell’Università di Oxford hanno creato un sistema che era quasi due volte più accurato dei lettori labiali esperti in determinati test e poteva elaborare video quasi in tempo reale. E nel 2017, DeepMind, di proprietà di Alphabet, ha addestrato un sistema su migliaia di ore di programmi TV per tradurre correttamente circa il 50% delle parole senza errori su un set di prova, molto meglio del 12,4% di un esperto umano.

 
Ma i modelli dell’Università di Oxford e DeepMind, come molti successivi modelli di lettura labiale, erano limitati nella gamma di vocaboli che potevano riconoscere. I modelli richiedevano anche set di dati abbinati a trascrizioni per l’addestramento e non potevano elaborare l’audio di alcun oratore nei video.

In qualche modo unico, AV-HuBERT sfrutta l’apprendimento non supervisionato o autocontrollato. Con l’apprendimento supervisionato, algoritmi come quello di DeepMind vengono addestrati su dati di esempio etichettati finché non riescono a rilevare le relazioni sottostanti tra gli esempi e output particolari. Ad esempio, un sistema potrebbe essere addestrato a scrivere la parola “cane” (l’output) quando viene mostrata l’immagine di un Corgi (l’esempio). Tuttavia, AV-HuBERT si insegna a classificare i dati senza etichetta, elaborandoli per imparare dalla sua struttura intrinseca.

 

AV-HuBERT è anche multimodale, nel senso che impara a percepire il linguaggio attraverso una serie di segnali audio e di movimento delle labbra. Combinando segnali come il movimento delle labbra e dei denti durante la conversazione, insieme a informazioni uditive, Meta afferma che AV-HuBERT può catturare “associazioni sfumate” tra i due tipi di dati.

 
Il modello AV-HuBERT iniziale è stato addestrato su 30 ore di video TED Talk in lingua inglese etichettati, sostanzialmente meno delle 31.000 ore su cui è stato addestrato il precedente modello all’avanguardia. Ma nonostante l’allenamento su meno dati, il tasso di errore di parola (WER) di AV-HuBERT, una misura delle prestazioni di riconoscimento vocale, era leggermente migliore del 32,5% rispetto al 33,6% del vecchio modello nei casi in cui un oratore poteva essere visto ma non sentito. (Il WER viene calcolato dividendo il numero di parole riconosciute in modo errato per il numero totale di parole; il 32,5% si traduce in circa un errore ogni 30 parole.) La formazione su 433 ore di TED Talks ha ulteriormente ridotto il WER di AV-HuBERT al 28,6%.

Una volta che AV-HuBERT ha appreso bene la struttura e la correlazione tra i dati, i ricercatori sono stati in grado di addestrarlo ulteriormente su dati senza etichetta: 2.442 ore di video in lingua inglese di celebrità caricati su YouTube. Non solo questo ha ridotto il WER al 26,9%, ma Meta afferma che dimostra che è necessaria solo una piccola quantità di dati etichettati per addestrare il framework per una particolare applicazione (ad esempio, quando più persone parlano contemporaneamente) o una lingua diversa .

In effetti, Meta afferma che AV-HuBERT è circa il 50% migliore rispetto ai modelli solo audio nel riconoscere il discorso di una persona mentre la musica ad alto volume o il rumore viene riprodotto in sottofondo. E quando il parlato e il rumore di fondo sono ugualmente forti, AV-HuBERT gestisce un WER del 3,2% rispetto al 25,5% del miglior modello multimodale precedente.

Potenziali carenze
In molti modi, AV-HuBERT è emblematico del crescente investimento di Meta nella tecnologia multimodale senza supervisione per compiti complessi. L’azienda ha recentemente dettagliato un nuovo sistema multimodale progettato per affrontare i contenuti dannosi sulle sue piattaforme, chiamato Few-Shot Learner , e ha rilasciato modelli in grado di imparare a riconoscere il parlato, segmentare immagini, copiare lo stile del testo e riconoscere oggetti da dati senza etichetta. A differenza dei sistemi supervisionati, i sistemi non supervisionati possono essere significativamente più flessibili ed economici da implementare; le etichette nei set di dati etichettati provengono da annotatori umani che devono aggiungerle faticosamente.

 
Poiché richiede dati meno etichettati per la formazione, Meta afferma che AV-HuBERT potrebbe aprire possibilità per lo sviluppo di modelli conversazionali per linguaggi “a poche risorse”, come Susu nella famiglia del Niger Congo. AV-HuBERT potrebbe anche essere utile nella creazione di sistemi di riconoscimento vocale per persone con disabilità del linguaggio, suggerisce la società, oltre a rilevare i deepfake e generare movimenti realistici delle labbra per avatar di realtà virtuale.

Ma Os Keyes, un esperto di etica dell’intelligenza artificiale presso l’Università di Washington, ha espresso preoccupazione per il fatto che AV-HuBERT abbia limitazioni relative alla classe e alla disabilità. funziona per le persone con modelli di linguaggio facciale distorti a causa della disabilità? “, hanno detto a VentureBeat via e-mail. “Sembra un po’ ironico riuscire a creare un software per il riconoscimento vocale che dipenda dalla lettura labiale, ed è probabile che abbia delle imprecisioni se puntato su… persone sorde”.

In un documento di Microsoft e Carnegie Mellon che propone una tabella di marcia della ricerca verso l’equità nell’IA, i coautori sottolineano che aspetti dei sistemi di analisi facciale simili a AV-HuBERT potrebbero non funzionare bene per le persone con sindrome di Down, acondroplasia (che compromette la crescita ossea) e “altre condizioni che si traducono in caratteristiche differenze facciali”. Tali sistemi potrebbero anche fallire per le persone che hanno avuto un ictus, osservano i ricercatori, o che hanno il morbo di Parkinson, la paralisi di Bell, l’autismo o la sindrome di Williams, che potrebbero non usare (o essere in grado di usare) le stesse espressioni facciali dei neurotipici persone.

In un’e-mail, Mohamed ha sottolineato che AV-HuBERT si concentra solo sulla regione delle labbra per catturare i movimenti delle labbra, non sull’intero viso. Simile alla maggior parte dei modelli di intelligenza artificiale, le prestazioni di AV-HuBERT saranno “proporzionali al numero di campioni rappresentativi di diverse popolazioni nei dati di addestramento”, ha aggiunto.

 
“Per valutare il nostro approccio, abbiamo utilizzato il set di dati LRS3 pubblicamente disponibile, che consiste in video TED Talk che sono stati resi pubblicamente disponibili nel 2018 dai ricercatori dell’Università di Oxford. Poiché questo set di dati non rappresenta gli oratori con disabilità, non abbiamo una percentuale specifica per il degrado delle prestazioni previsto”, ha affermato Mohamed. “[Ma questa] tecnologia recentemente proposta non è limitata dall’attuale distribuzione dei relatori nel set di dati di formazione. Prevediamo che set di dati di addestramento diversi con la copertura di popolazioni più ampie e diversificate porterebbero notevoli miglioramenti in termini di prestazioni”.

Meta afferma che “continuerà a confrontare e sviluppare approcci che migliorano i modelli di riconoscimento vocale audiovisivo negli scenari quotidiani in cui il rumore di fondo e la sovrapposizione degli altoparlanti sono all’ordine del giorno”. Oltre a ciò, prevede di estendere AV-HuBERT, che Meta non prevede di mettere in produzione, a benchmark multilingue oltre l’inglese.

Di ihal