Quando sono tornato in Gran Bretagna da alcuni anni nel Sud Italia, ci è voluto un po’ per smettere di gesticolare mentre parlavo. Nel Regno Unito, sostenere il tuo discorso con movimenti audaci delle mani ti fa sembrare spropositato di caffeina; in Italia, imparando la lingua, in realtà mi ha aiutato a farmi capire . Anche adesso, nelle più rare occasioni in cui parlo italiano, le ‘mani selvagge’ tornano in servizio. È quasi impossibile parlare italiano senza muoversi.

Negli ultimi anni, la comunicazione supportata dai gesti nella cultura italiana ed ebraica è arrivata all’attenzione del pubblico come più di un semplice tropo del lavoro di Martin Scorsese e dei primi film di Woody Allen. Nel 2013 il New York Times ha compilato una breve storia video dei gesti delle mani italiani; il mondo accademico sta iniziando a studiare le propensioni razziali per i gesti delle mani, piuttosto che liquidare l’argomento come uno stereotipo; e i nuovi emoji del Consorzio Unicode stanno colmando il deficit di gesti che deriva dalla comunicazione puramente digitale e basata sul testo.

Un approccio unificato alla parola e alla gesticolazione
Ora, una nuova ricerca del Dipartimento di parola, musica e udito presso il KTH Royal Institute of Technology svedese sta cercando di combinare il riconoscimento vocale e gestuale in un sistema unificato e multimodale che potrebbe potenzialmente aumentare la nostra comprensione della comunicazione basata sul linguaggio utilizzando il corpo lingua come un’aggiunta integrata al discorso, piuttosto che un campo di studio parallelo.

Immagini dalla pagina di prova del progetto discorso/gesto svedese. Fonte: https://swatsw.github.io/isg_icmi21/
La ricerca propone un nuovo modello chiamato sintesi integrata di discorso e gesto (ISG) e riunisce una serie di modelli neurali all’avanguardia dalla ricerca sul linguaggio e sui gesti.

Il nuovo approccio abbandona il modello di pipeline lineare (in cui le informazioni gestuali sono derivate sequenzialmente dal parlato come fase di elaborazione secondaria) per un approccio più integrato, che valuta allo stesso modo dei sistemi esistenti secondo gli utenti finali e che ottiene tempi di sintesi più rapidi e un conteggio dei parametri ridotto .

 
Il nuovo sistema multimodale incorpora un sintetizzatore di sintesi vocale spontaneo e un generatore di gesti audio-guidato, entrambi addestrati sul set di dati Trinity Speech Gesture esistente . Il set di dati contiene 244 minuti di registrazione audio e corporea di un uomo che parla su diversi argomenti e gesticola liberamente.

Il lavoro è un equivalente nuovo e tangenziale del progetto DurIAN , che genera espressioni facciali e linguaggio, piuttosto che gesti e parole, e che rientra più nel regno del riconoscimento e della sintesi delle espressioni.

Architetture
Le componenti vocali e visive (gestuali) del progetto sono sbilanciate in termini di dati; il testo è scarso e la gestualità è ricca e ad alta intensità di dati: una sfida in termini di definizione di obiettivi e metriche. Pertanto i ricercatori hanno valutato il sistema principalmente in base alla risposta umana all’output, piuttosto che ad approcci meccanicistici più ovvi come l’errore quadratico medio (MSE).

I due principali modelli ISG sono stati sviluppati attorno alla seconda iterazione del progetto di sintesi vocale end-to-end Tacotron 2017 di Google e all’iniziativa sudcoreana Glow-TTS pubblicata nel 2020. Tacotron utilizza un’architettura LSTM autoregressiva , mentre Glow-TTS agisce in parallelo tramite operatori di convoluzione, con prestazioni GPU più veloci e senza i problemi di stabilità che possono assistere ai modelli autoregressivi.

I ricercatori hanno testato tre efficaci sistemi vocali/gestuali durante il progetto: una versione modificata di una generazione multimodale di linguaggio e gesti pubblicata nel 2021 da alcuni degli stessi ricercatori del nuovo progetto; una versione ISG dedicata e modificata dell’open source Tacotron 2; e una versione ISG altamente modificata di Glow-TTS.

Per valutare i sistemi, i ricercatori hanno creato un ambiente di feedback basato sul web con persone articolate in 3D che parlano e si spostano su segmenti di testo predefiniti (l’aspetto generale dell’ambiente può essere visto nella pagina pubblica del progetto ).

L’ambiente di prova.
Ai soggetti del test è stato chiesto di valutare le prestazioni del sistema in base a parole e gesti, solo parole e solo gesti. I risultati hanno mostrato un leggero miglioramento nella nuova versione ISG rispetto alla versione precedente della pipeline, sebbene il nuovo sistema funzioni più rapidamente e con risorse ridotte.

Alla domanda “Quanto è umano il gesto?”, il modello ISG completamente integrato termina leggermente in anticipo rispetto al modello a pipeline più lento, con i modelli basati su Tacotron e Glow più indietro.
Scrollata di spalle incorporata
Il modello Tacotron2-ISG, il più riuscito dei tre approcci, dimostra un livello di apprendimento “subliminale” correlato ad alcune delle frasi più comuni nel set di dati, come “Non lo so” – nonostante la mancanza di dati espliciti che lo farebbe generare un’alzata di spalle per accompagnare questa frase, i ricercatori hanno scoperto che il generatore fa davvero spallucce.

I ricercatori fanno notare che la natura molto specifica di questo nuovo progetto significa inevitabilmente una scarsità di risorse generali, come set di dati dedicati che incorporano dati vocali e gestuali in un modo adatto per l’addestramento di un tale sistema. Tuttavia, nonostante la natura all’avanguardia della ricerca, la considerano una strada promettente e poco esplorata nel linguaggio, nella linguistica e nel riconoscimento dei gesti.

Di ihal