Una nuova ricerca della School of Computer Engineering di Teheran offre un approccio migliore alla sfida di creare sistemi di apprendimento automatico in grado di leggere le labbra.
Il documento , intitolato Lip Reading Using Viseme Decoding , riporta che il nuovo sistema ottiene un miglioramento del 4% nel tasso di errore delle parole rispetto ai migliori modelli precedenti simili. Il sistema risolve la generale mancanza di dati utili sull’addestramento in questo settore mappando i visemi al contenuto di testo derivato dai sei milioni di campioni nel set di dati OpenSubtitles dei titoli dei film tradotti.
Un visema è l’equivalente visivo di un fonema, effettivamente una mappatura audio> immagine che può costituire una “caratteristica” in un modello di apprendimento automatico.
I ricercatori hanno iniziato stabilendo il tasso di errore più basso sui set di dati disponibili e sviluppando sequenze di visemi da procedure di mappatura stabilite. A poco a poco, questo processo sviluppa un lessico visivo di parole, sebbene sia necessario definire le probabilità di accuratezza per parole diverse che condividono un visema (come “cuore” e “arte”).
Quando due parole identiche danno come risultato lo stesso visema, viene selezionata la parola che ricorre più di frequente.
Il modello si basa sul tradizionale apprendimento da sequenza a sequenza aggiungendo una fase di elaborazione secondaria in cui i visemi vengono previsti dal testo e modellati in una pipeline dedicata:
Il modello è stato applicato senza contesto visivo rispetto al set di dati LRS3-TED , rilasciato dall’Università di Oxford nel 2018, con il peggior tasso di errore delle parole (WER) ottenuto un rispettabile 24,29%.
La ricerca di Teheran include anche l’uso di un convertitore da grafema a fonema .
In un test contro la ricerca di Oxford del 2017 Lip Reading Sentences In The Wild (vedi sotto), il metodo Video-To-Viseme ha raggiunto un tasso di errore di parole del 62,3%, rispetto al 69,5% del metodo Oxford.
I ricercatori concludono che l’uso di un volume maggiore di informazioni di testo, combinato con la mappatura grafema-fonema e visema, promette miglioramenti rispetto allo stato dell’arte nei sistemi automatici di lettura labiale, pur riconoscendo che i metodi utilizzati possono produrre anche risultati migliori se incorporati in framework attuali più sofisticati.
La lettura labiale guidata dalla macchina è stata un’area attiva e continua della visione artificiale e della ricerca sulla PNL negli ultimi due decenni. Tra molti altri esempi e progetti, nel 2006 l’uso di software di lettura labiale automatizzata ha catturato i titoli dei giornali quando è stato utilizzato per interpretare ciò che Adolf Hitler stava dicendo in alcuni dei famosi film muti girati nel suo ritiro bavarese, anche se l’applicazione sembra essere svanita nell’oscurità. da allora (dodici anni dopo, Sir Peter Jackson ricorse a lettori labiali umani per ripristinare le conversazioni dei filmati della prima guerra mondiale nel progetto di restauro They Shall Not Grow Old).
Nel 2017, Lip Reading Sentences in The Wild , una collaborazione tra l’Università di Oxford e la divisione di ricerca sull’intelligenza artificiale di Google ha prodotto un’IA di lettura labiale in grado di inferire correttamente il 48% del parlato in video senza suono, dove un lettore labiale umano poteva raggiungere solo un 12,4 % di precisione dallo stesso materiale. Il modello è stato addestrato su migliaia di ore di riprese televisive della BBC.
Questo lavoro è seguito da un’iniziativa separata Oxford / Google dell’anno precedente, intitolata LipNet , un’architettura di rete neurale che ha mappato sequenze video di lunghezza variabile a sequenze di testo utilizzando un Gated Recurrent Network (GRN), che aggiunge funzionalità all’architettura di base di una rete neurale ricorrente ( RNN ). Il modello ha ottenuto prestazioni migliorate di 4,1 volte rispetto ai lettori labiali umani.
Oltre al problema di ottenere una trascrizione accurata in tempo reale, la sfida di interpretare il discorso dal video si approfondisce man mano che si rimuovono contesti utili, come l’audio, le riprese “faccia a faccia” ben illuminate e una lingua / cultura in cui i fonemi / i visemi sono relativamente distinti.
Sebbene al momento non ci sia una comprensione empirica di quali lingue siano le più difficili da leggere in assenza di audio, il giapponese è uno dei principali contendenti . I diversi modi in cui i nativi giapponesi (così come alcuni altri nativi dell’Asia occidentale e orientale) sfruttano le espressioni facciali contro il contenuto del loro discorso li rendono già una sfida maggiore per i sistemi di analisi del sentiment.
Tuttavia, vale la pena notare che gran parte della letteratura scientifica sull’argomento è generalmente circospetta , anche perché anche una ricerca obiettiva ben intenzionata in questo campo rischia di passare alla profilazione razziale e alla diffusione di stereotipi esistenti.
Le lingue con un’elevata percentuale di componenti gutturali, come il ceceno e l’ olandese , sono particolarmente problematiche per le tecniche di estrazione vocale automatizzata, mentre le culture in cui l’oratore può esprimere emozioni o deferenza distogliendo lo sguardo (di nuovo, generalmente nelle culture asiatiche ) aggiungono un’altra dimensione in cui l’IA I ricercatori della lettura labiale dovranno sviluppare metodi aggiuntivi di “riempimento” da altri indizi contestuali.