Google aggiorna Translatotron, il suo modello di traduzione vocale
 
Google afferma che la versione rivista può trasferire con successo la voce anche quando il discorso di input è composto da più oratori.
 
Google AI ha introdotto la seconda versione di Translatotron, il loro modello S2ST in grado di tradurre direttamente il parlato tra due lingue diverse senza la necessità di molti sottosistemi intermedi. 

I sistemi S2ST generati automaticamente sono costituiti da sottosistemi di riconoscimento vocale, traduzione automatica e sintesi vocale. Detto questo, i sistemi a cascata subiscono la sfida della potenziale latenza più lunga, della perdita di informazioni e degli errori composti tra i sottosistemi.

 
Per questo, Google ha rilasciato Translatotron nel 2019, un modello di traduzione vocale end-to-end che il gigante della tecnologia ha affermato essere il primo framework end-to-end a tradurre direttamente il parlato da una lingua in un discorso in un’altra lingua.

Il sistema di modello singolo da sequenza a sequenza è stato utilizzato per creare traduzioni sintetizzate di voci per garantire che il suono dell’altoparlante originale fosse intatto. Ma nonostante la sua capacità di produrre automaticamente un discorso simile a quello umano, ha prestazioni inferiori rispetto a un potente sistema S2ST a cascata di base. 

Translatotron 2
In risposta, Google ha introdotto ” Translatotron 2 “, una versione del modello aggiornata con prestazioni migliorate e un nuovo metodo per trasferire la voce al discorso tradotto. Inoltre, Google afferma che la versione rivista può trasferire con successo la voce anche quando il discorso di input è composto da più oratori. I test lo hanno confermato su tre corpora che hanno convalidato che Translatotron 2 supera significativamente le prestazioni del Translatotron originale in termini di qualità della traduzione, naturalezza del parlato e robustezza del parlato.

Il modello si allinea anche meglio con i principi dell’IA ed è sicuro, prevenendo potenziali abusi. Ad esempio, in risposta ai falsi profondi creati con Translatotron, l’articolo di Google afferma : “Il modello addestrato è limitato a conservare la voce dell’oratore di origine e, a differenza del Translatotron originale, non è in grado di generare un discorso con la voce di un parlante diverso, rendendo il modello più robusto per l’implementazione in produzione, mitigando il potenziale uso improprio per la creazione di artefatti audio di spoofing. 

Architettura
Componenti principali di Translatotron 2:

Un codificatore vocale
Un decodificatore di fonemi di destinazione
Un sintetizzatore vocale mirato
Un modulo di attenzione: collegare tutti i componenti
L’architettura segue quella di un modello di traduzione diretta da parlato a testo con l’encoder, il modulo di attenzione e il decoder. Inoltre, qui, il sintetizzatore è condizionato dall’uscita generata dal modulo di attenzione e dal decodificatore. 


L’architettura del modello di Google .

In cosa differiscono i due modelli?
La differenza di condizionamento: nel Translatotron 2, l’uscita dal decodificatore del fonema di destinazione è un ingresso al sintetizzatore dello spettrogramma che rende il modello più facile da addestrare e offre prestazioni migliori. Il modello precedente utilizza l’uscita solo come perdita ausiliaria. 
Sintetizzatore di spettrogrammi: nel Translatotron 2, il sintetizzatore di spettrogrammi è “basato sulla durata”, migliorando la robustezza del parlato. Il modello precedente ha un sintetizzatore di spettrogrammi “basato sull’attenzione” che è noto per soffrire di problemi di robustezza. 
Guida dell’attenzione: mentre entrambi i modelli utilizzano una connessione basata sull’attenzione per la codifica del parlato sorgente, in Translatotron 2, questa è guidata dal decodificatore del fonema. Ciò assicura che le informazioni acustiche viste dal sintetizzatore spettrogramma siano allineate con il contenuto tradotto in fase di sintesi e mantenga la voce di ciascun oratore. 
Per garantire che il modello non possa creare falsi profondi come attraverso il Translatotron originale, il 2.0 utilizza solo un singolo codificatore vocale per mantenere la voce di chi parla. Questo funziona sia per la comprensione linguistica che per l’acquisizione della voce, impedendo la riproduzione di voci non di origine. Inoltre, il team ha utilizzato una versione modificata di PnG NAT per addestrare il modello a conservare le voci dei parlanti durante la traduzione. PnG NAT è un modello TTS in grado di trasferire la voce interlinguistica per sintetizzare gli obiettivi di allenamento. Inoltre, la versione modificata di Google PnG NAT include un codificatore di altoparlanti addestrato separatamente per garantire che Translatotron 2 possa trasferire la voce a zero.

ConcatAug
ConcatAug è proposto di dati concatenazione-based di Google tecnica di aumento per consentire al modello di mantenere la voce di ciascun altoparlante nel discorso tradotto nel caso di più altoparlanti nel discorso di ingresso.

ConcatAug “aumenta i dati di addestramento al volo campionando casualmente coppie di esempi di addestramento e concatenando il discorso di origine, il discorso di destinazione e le sequenze di fonemi di destinazione in nuovi esempi di addestramento”, secondo il team. I risultati contengono quindi le voci di due oratori sia nel discorso sorgente che in quello di destinazione e il modello apprende ulteriormente sulla base di questi esempi. 

 

Prestazione 
I test delle prestazioni hanno verificato che Translatotron 2 supera di gran lunga le prestazioni del Translatotron originale in termini di qualità di traduzione superiore, naturalezza del parlato e robustezza del parlato. Principalmente, il modello eccelleva anche sul Fisher corpus , un complesso test di traduzione spagnolo-inglese. La qualità della traduzione e del parlato del modello si avvicina a quella di un solido sistema a cascata di base. 

 Inoltre, insieme all’S2ST dallo spagnolo all’inglese, il modello è stato valutato su una configurazione multilingue. Qui, il discorso di input consisteva in quattro lingue diverse senza l’input di quale lingua fosse. Il modello li ha rilevati e tradotti con successo in inglese. 

Il team di ricerca è convinto che questo renda Translatotron 2 più applicabile per l’implementazione in produzione dopo la mitigazione di potenziali abusi. 

Di ihal