Meta AI annuncia il primo sistema di traduzione vocale basato sull’intelligenza artificiale per una lingua non scritta
La traduzione artificiale del parlato è una tecnologia di intelligenza artificiale (AI) in rapida evoluzione . Inizialmente creata per favorire la comunicazione tra persone che parlano lingue diverse, questa tecnologia di traduzione vocale (S2ST) ha trovato la sua strada in diversi domini. Ad esempio, i conglomerati tecnologici globali stanno ora utilizzando S2ST per tradurre direttamente documenti condivisi e conversazioni audio nel metaverso .
Al Cloud Next ’22 della scorsa settimana, Google ha annunciato il proprio modello di traduzione di intelligenza artificiale vocale, “Hub di traduzione”, utilizzando API di traduzione cloud e traduzione AutoML. Ora, Meta non è molto indietro.
Tavola rotonda dall’alfabetizzazione ai dati alla competenza: un viaggio per intrecciare dati e apprendimento nella cultura aziendale
Meta AI ha annunciato oggi il lancio del progetto Universal Speech Translator (UST), che mira a creare sistemi di intelligenza artificiale che consentano la traduzione vocale in tempo reale in tutte le lingue, anche quelle parlate ma non comunemente scritte.
“Meta AI ha creato il primo traduttore vocale che funziona per lingue principalmente parlate anziché scritte. Lo stiamo rendendo open source in modo che le persone possano usarlo per più lingue”, ha affermato Mark Zuckerberg, cofondatore e CEO di Meta.
Secondo Meta, il modello è il primo sistema di traduzione vocale basato sull’intelligenza artificiale per la lingua non scritta Hokkien, una lingua cinese parlata nel sud-est della Cina e a Taiwan e da molti nella diaspora cinese in tutto il mondo. Il sistema consente ai parlanti hokkien di tenere conversazioni con gli anglofoni, un passo significativo verso l’abbattimento della barriera linguistica globale e l’unione delle persone ovunque si trovino, anche nel metaverso.
Questo è un compito difficile poiché, a differenza del mandarino, dell’inglese e dello spagnolo, che sono sia scritti che orali, l’hokkien è prevalentemente verbale.
Come l’IA può affrontare la traduzione vocale
Meta afferma che i modelli di traduzione dell’IA di oggi si concentrano su lingue scritte ampiamente parlate e che oltre il 40% delle lingue principalmente orali non è coperto da tali tecnologie di traduzione. Il progetto UST si basa sui progressi condivisi da Zuckerberg durante l’evento AI Inside the Lab dell’azienda tenutosi a febbraio, sulla ricerca di traduzione vocale universale di Meta AI per lingue non comuni online. Quell’evento si è concentrato sull’utilizzo di tecnologie di intelligenza artificiale così coinvolgenti per la costruzione del metaverso.
Per creare UST, Meta AI si è concentrata sul superamento di tre sfide critiche del sistema di traduzione. Ha affrontato la scarsità di dati acquisendo più dati di formazione in più lingue e trovando nuovi modi per sfruttare i dati già disponibili. Ha affrontato le sfide di modellazione che sorgono man mano che i modelli crescono per servire molti più linguaggi. E ha cercato nuovi modi per valutare e migliorare i suoi risultati.
Il team di ricerca di Meta AI ha lavorato su Hokkien come caso di studio per una soluzione end-to-end, dalla raccolta dei dati di addestramento e dalle scelte di modellazione ai set di dati di benchmarking. Il team si è concentrato sulla creazione di dati con annotazioni umane, sull’estrazione automatica di dati da grandi set di dati vocali senza etichetta e sull’adozione di pseudo-etichettature per produrre dati debolmente supervisionati.
“Il nostro team ha prima tradotto il discorso dall’inglese o dall’hokkien al testo mandarino, quindi lo ha tradotto in hokkien o inglese”, ha affermato Juan Pino, ricercatore di Meta. “Hanno quindi aggiunto le frasi accoppiate ai dati utilizzati per addestrare il modello di intelligenza artificiale”.
Mark Zuckerberg di Meta AI mostra il modello di traduzione dell’IA da sintesi vocale dell’azienda.
Per la modellazione, Meta AI ha applicato i recenti progressi nell’utilizzo di rappresentazioni discrete auto-supervisionate come obiettivi per la previsione nella traduzione vocale e vocale e ha dimostrato l’efficacia di sfruttare la supervisione del testo aggiuntiva dal mandarino, una lingua simile all’hokkien, nell’addestramento del modello. Meta AI afferma che rilascerà anche un benchmark di traduzione vocale impostato per facilitare la ricerca futura in questo campo.
William Falcon, ricercatore di intelligenza artificiale e CEO/cofondatore di Lightning AI , ha affermato che la traduzione artificiale del parlato potrebbe svolgere un ruolo significativo nel metaverso in quanto aiuta a stimolare le interazioni e la creazione di contenuti.
“Per le interazioni, consentirà alle persone di tutto il mondo di comunicare tra loro in modo più fluido, rendendo il grafico sociale più interconnesso. Inoltre, l’utilizzo della traduzione vocale artificiale per i contenuti consente di localizzare facilmente i contenuti per il consumo in più lingue”, ha detto Falcon a VentureBeat.
Falcon ritiene che una confluenza di fattori, come la pandemia che ha notevolmente aumentato la quantità di lavoro a distanza, nonché la dipendenza da strumenti di lavoro a distanza, abbiano portato alla crescita in quest’area. Questi strumenti possono trarre vantaggio in modo significativo dalle capacità di traduzione vocale.
“Presto, non vediamo l’ora di ospitare podcast, Reddit AMA o esperienze simili a Clubhouse all’interno del metaverso. Consentire a quelli di essere multicast in più lingue espande il pubblico potenziale su vasta scala”, ha affermato.
Come funziona il traduttore vocale universale (UST) di Meta
Il modello utilizza S2UT per convertire il parlato in ingresso in una sequenza di unità acustiche direttamente nel percorso, un’implementazione precedentemente sperimentata da Meta. L’output generato è costituito da forme d’onda dalle unità di input. Inoltre, Meta AI ha adottato UnitY per un meccanismo di decodifica a due passaggi in cui il decodificatore di primo passaggio genera testo in una lingua correlata (mandarino) e il decodificatore di secondo passaggio crea unità.
Per consentire la valutazione automatica dell’hokkien, Meta AI ha sviluppato un sistema che trascrive il parlato in hokkien in una notazione fonetica standardizzata chiamata “Tâi-lô”. Ciò ha consentito al team di scienza dei dati di calcolare i punteggi BLEU (una metrica standard di traduzione automatica) a livello di sillaba e confrontare rapidamente la qualità della traduzione di diversi approcci.
L’architettura del modello di UST con decoder single-pass e two-pass. I blocchi in ombra illustrano i moduli che sono stati preaddestrati. Fonte immagine: Meta AI .
Oltre a sviluppare un metodo per valutare le traduzioni vocali hokkien-inglese, il team ha creato il primo set di dati benchmark di traduzione vocale hokkien-inglese bidirezionale, basato su un corpus vocale hokkien chiamato Taiwanese Across Taiwan.
ANNUNCIO
Meta AI afferma che le tecniche sperimentate con l’hokkien possono essere estese a molte altre lingue non scritte e alla fine funzionare in tempo reale. A tale scopo, Meta sta rilasciando Speech Matrix, un ampio corpus di traduzioni di sintesi vocale estratte con l’innovativa tecnica di data mining di Meta chiamata LASER. Ciò consentirà ad altri gruppi di ricerca di creare i propri sistemi S2ST.
LASER converte frasi di varie lingue in un’unica rappresentazione multimodale e multilingue. Il modello utilizza una ricerca di similarità multilingue su larga scala per identificare frasi simili nello spazio semantico, cioè quelle che possono avere lo stesso significato in lingue diverse.
I dati estratti da Speech Matrix forniscono 418.000 ore di discorso parallelo per addestrare il modello di traduzione, coprendo 272 direzioni linguistiche. Finora sono state estratte più di 8.000 ore di discorsi hokkien insieme alle corrispondenti traduzioni inglesi.
Un futuro di opportunità e sfide nella traduzione vocale
L’obiettivo attuale di Meta AI è lo sviluppo di un sistema di traduzione vocale che non si basa sulla generazione di una rappresentazione testuale intermedia durante l’inferenza. Questo approccio ha dimostrato di essere più veloce di un tradizionale sistema a cascata che combina modelli separati di riconoscimento vocale, traduzione automatica e sintesi vocale.
Yashar Behzadi, CEO e fondatore di Synthesis AI , ritiene che la tecnologia debba consentire esperienze più coinvolgenti e naturali se il metaverso ha successo.
Ha affermato che una delle sfide attuali per i modelli UST è la formazione computazionalmente costosa necessaria a causa dell’ampiezza, della complessità e delle sfumature dei linguaggi.
“Per addestrare modelli di intelligenza artificiale robusti sono necessarie grandi quantità di dati rappresentativi. Un collo di bottiglia significativo per la costruzione di questi modelli di intelligenza artificiale nel prossimo futuro sarà la raccolta, la cura e l’etichettatura dei dati di formazione conformi alla privacy”, ha affermato. “L’incapacità di acquisire dati sufficientemente diversificati può portare a pregiudizi, con un impatto differenziato su gruppi di persone. Le tecnologie vocali e NLP emergenti possono svolgere un ruolo importante nell’abilitazione di modelli più capaci”.
Secondo Meta, con una maggiore efficienza e architetture più semplici, la sintesi vocale diretta potrebbe sbloccare una traduzione in tempo reale di qualità quasi umana per dispositivi futuri come gli occhiali AR. Inoltre, i recenti progressi dell’azienda nel riconoscimento vocale non supervisionato (wav2vec-U) e nella traduzione automatica non supervisionata (mBART) aiuteranno il futuro lavoro di traduzione di più lingue parlate all’interno del metaverso.
Con tali progressi nell’apprendimento non supervisionato, Meta mira ad abbattere le barriere linguistiche sia nel mondo reale che nel metaverso per tutte le lingue, scritte o non scritte.