Perché la traduzione vocale è così importante per Google?
La conversazione interlinguistica assistita dall’intelligenza artificiale è un problema impegnativo. A tal fine, Google ha introdotto Translatotron nel 2019.
Google ha appena rilasciato una versione aggiornata di uno dei suoi progetti più ambiti: Translatotron, che fa un passo avanti verso la traduzione universale. Sviluppare la tecnologia in grado di rompere la barriera linguistica per comunicare con quasi chiunque è il sogno finale per i ricercatori di intelligenza artificiale e machine learning di tutto il mondo. Chiamata Universal Translation e dimostrata molte volte in film e libri di fantascienza, questa tecnologia è stata elencata come una delle dieci più apprezzate nel prossimo futuro da un rapporto del MIT Technology Review.
Sono state condotte molte ricerche per facilitare una traduzione fluida da parlato a parlato per raggiungere questo obiettivo tanto ambito. I componenti principali di un tale sistema sono il riconoscimento vocale automatico per trascrivere il discorso di origine come testo, la traduzione automatica per tradurre il testo trascritto nella lingua scelta e la sintesi vocale per generare il parlato nella lingua di destinazione.
La conversazione interlinguistica assistita dall’intelligenza artificiale è un problema impegnativo. A tal fine, Google ha introdotto Translatotron nel 2019. Translatotron è una traduzione vocale diretta con un modello da sequenza a sequenza. Questo modello non si basa sulla rappresentazione del testo intermedio (come è avvenuto con i sistemi tradizionali). Translatotron offre vantaggi come una maggiore velocità di inferenza, che a sua volta evita di combinare errori tra riconoscimento e traduzione. Ciò significa che la traduzione è semplice per mantenere la voce dell’oratore originale e gestisce le parole che non devono essere tradotte.
Detto questo, nonostante la capacità di Translatotron di produrre traduzioni vocali ad alta fedeltà dal suono naturale, il modello ha prestazioni inferiori rispetto ai potenti sistemi di traduzione vocale a cascata di base.
Per rimediare, Google ha rilasciato Translatotron 2 a luglio di quest’anno. La nuova versione che applica un nuovo metodo di trasferimento della voce dell’oratore di origine al discorso tradotto, è un miglioramento rispetto all’originale. Supera Translatotron di un margine in termini di qualità della traduzione e naturalezza del parlato prevista. Ha anche migliorato la robustezza del discorso in uscita riducendo il balbettio e le lunghe pause.
Translatotron 2
Il Translatotron originale potrebbe essere potenzialmente utilizzato in modo improprio per falsificare l’audio con contenuti arbitrari, come si vede con i video falsi profondi. Translatotron 2 supera questa sfida utilizzando un solo codificatore vocale responsabile sia della comprensione linguistica che dell’acquisizione della voce. Con questo, i modelli addestrati non possono riprodurre voci non di origine.
Google e Babel Fish
In “Guida galattica per autostoppisti”, l’autore Douglas Adam ha scritto di Babel Fish, una piccola creatura gialla simile a una sanguisuga che si nutriva dell’energia delle onde cerebrali ricevuta dall’ambiente circostante. Il risultato pratico di Babel Fish è che quando lo infili nell’orecchio, puoi capire il discorso in qualsiasi lingua.
I ricercatori lavorano da tempo per portare a compimento dispositivi simili a Babel Fish. Il vincitore del premio Turing, il professor Raj Reddy, ha affermato all’inizio di quest’anno che tra dieci anni avremo un Babel Fish digitale in grado di tradurre tutte le lingue del mondo. Per chi non lo sapesse, il Prof Reddy è un pioniere nel campo dei sistemi di riconoscimento vocale. Il suo lavoro di ricerca ha portato allo sviluppo di numerose innovazioni rivoluzionarie, tra cui Apple Siri. La previsione di Babel Fish del prof Reddy è stata rapidamente stroncata da diversi critici, definendola il suo “tecno-ottimismo stravagante”.
Mentre potremmo dover aspettare altri dieci anni per sapere se la previsione del professor Reddy è vera o meno, non è detto che non ci siano stati sforzi per raggiungere questo obiettivo.
Parlando in particolare di Google, nel 2017 il gigante della tecnologia ha annunciato un set di auricolari Bluetooth chiamati Pixel Buds. La caratteristica più notevole di questo è che può fare traduzioni istantanee tra 40 lingue diverse utilizzando uno smartphone Pixel. Adam Champy , l’allora product manager di Google, ha scritto in un blog aziendale: “È come se avessi il tuo traduttore personale con te ovunque tu vada. Diciamo che sei a Little Italy e vuoi ordinare la tua pasta come un professionista. Tutto quello che devi fare è tenere premuto l’auricolare destro e dire “Aiutami a parlare italiano”.
Google Pixel Bud
Non solo questi auricolari Bluetooth, anche la traduzione vocale è una parte importante di Google Translate. Non sarà sbagliato presumere che con Translatotron, Google voglia spingersi oltre i limiti anche in questo campo. Questa tecnologia avrebbe un grande impatto su individui e aziende che fanno molto affidamento sulla traduzione o sulla sintesi vocale. Secondo l’azienda, Google Translate è migliorato di 1 punto BLEU all’anno dal 2010, ma la traduzione automatica è ancora una sfida importante. Anche i modelli più avanzati vacillano quando si tratta di diversi dialetti di una lingua, producendo traduzioni molto letterali e scarse prestazioni quando si tratta di lingua informale o parlata.