NLLB-200 supera il precedente stato dell’arte in media del 44%.
 
E se non avessi bisogno dell’inglese per tradurre? Il nuovo e migliorato modello di intelligenza artificiale open source di Meta “NLLB-200” è in grado di tradurre 200 lingue senza inglese!  

“Comunicare tra le lingue è un superpotere che l’IA fornisce, ma mentre continuiamo a far progredire il nostro lavoro sull’IA, sta migliorando tutto ciò che facciamo, dalla visualizzazione dei contenuti più interessanti su Facebook e Instagram, alla raccomandazione di annunci più pertinenti, alla sicurezza dei nostri servizi per tutti” , afferma Mark Zuckerberg, CEO, Meta. 

 
L’accessibilità attraverso la lingua garantisce che i vantaggi del progresso della tecnologia raggiungano tutti, indipendentemente dalla lingua che parlano. 

Le aziende tecnologiche stanno assumendo un ruolo proattivo nel tentativo di colmare questo divario. Ad esempio, la traduzione automatica è un’area della ricerca sull’IA su cui si concentra Meta. Dopo l’annuncio che sta costruendo il suo “traduttore vocale universale”, Meta ha presentato il suo modello di intelligenza artificiale open source: ” N o L anguage Left B ehind ” ( NLLB-200 ) in grado di fornire traduzioni di alta qualità in 200 lingue diverse, validato attraverso valutazioni approfondite. 

Il gigante della tecnologia ha anche creato un set di dati, “FLORES-200”, per valutare le prestazioni di NLLB-200 e dimostrare che vengono fornite traduzioni di alta qualità.


In termini di qualità, Meta afferma che NLLB-200 fornisce una media del 44% di traduzioni migliori rispetto al suo modello precedente. Questo modello è stato addestrato utilizzando il nuovo supercomputer AI di Meta, Research SuperCluster.

In una dimostrazione della sua portata, Meta afferma che alcune lingue che NLLB-200 traduce, come Kamba e Lao, non sono supportate da nessuno strumento di traduzione attualmente in uso. 

NLLB-200 supporta 55 lingue africane con risultati di alta qualità, aggiunge Meta.

Confronto con altri modelli

Attualmente, Meta è attivamente coinvolta nella traduzione automatica. Nel 2018 ha reso open source il toolkit SEntence Representations (LASER) indipendente dalla lingua, che ospita 90 lingue scritte in 28 diversi alfabeti. 

Nel 2020, Meta ha presentato una serie di modelli nella traduzione automatica. 

M2M-100 è stata una pietra miliare

M2M-100, il primo modello di traduzione automatica multilingue (MMT) di Meta che traduceva tra due lingue qualsiasi su 100 lingue senza utilizzare l’inglese come intermediario ed era anche open source. Secondo Meta, il modello MMT è addestrato su un totale di 2.200 direzioni linguistiche, dieci volte di più rispetto ai suoi modelli multilingue incentrati sull’inglese. Questa iniziativa migliora la qualità delle traduzioni per i parlanti di lingue con risorse limitate e, di conseguenza, la loro accessibilità alle informazioni e ad altri contenuti.

FLORES-101 è stata una precedente iniziativa di Meta sulla traduzione di linguaggi a risorse limitate. È un set di dati di valutazione molti-a-molti che ospita 101 lingue a livello globale. FLORES-101 si concentra su lingue a basso contenuto di risorse, come amarico, mongolo e urdu, che mancano di set di dati per una ricerca più ampia della PNL.

 

Meta ha affermato che i ricercatori potrebbero misurare la qualità delle traduzioni in modo affidabile attraverso 10.100 diverse direzioni di traduzione all’interno di FLORES-101.

Google Translate

Google Translate esiste dal 2006. Inizialmente, ha iniziato con 2 lingue e ora è in grado di ospitare 133 lingue diverse. In effetti, Google ha aggiunto di recente altre 24 lingue a Translate . Nel documento intitolato ” Costruire sistemi di traduzione automatica per le prossime mille lingue “, i ricercatori hanno descritto di aver costruito set di dati monolingui di alta qualità per oltre 1.000 lingue che non hanno set di dati di traduzione disponibili e hanno dimostrato come i dati monolingui da soli potrebbero essere utilizzati per addestrare MT Modelli. Per queste lingue aggiunte di recente, Google ha creato set di dati monolingui sviluppando e utilizzando modelli di identificazione del linguaggio neurale specializzati combinati con nuovi approcci di filtraggio.

Google ha anche rivelato che l’aggiunta di queste nuove lingue è una pietra miliare tecnica per l’azienda. Queste sono le prime lingue aggiunte utilizzando la traduzione automatica Zero-Shot, in cui un modello di apprendimento automatico vede solo testo monolingue. Nel marzo del 2021, Google Translate su Android ha raggiunto un miliardo di download dal Google Play Store.

Microsoft Translator

Microsoft è sempre stata un precursore in termini di tecnologia nuova e in arrivo. I sistemi di traduzione automatica sono stati sviluppati per la prima volta dalla ricerca Microsoft due decenni fa . Allora, il sistema poteva tradurre l’intera Microsoft Knowledge Base dall’inglese allo spagnolo, al francese, al tedesco e al giapponese. Questa versione tradotta è stata quindi pubblicata, “rendendola all’epoca la più grande applicazione pubblica di traduzione automatica grezza su Internet”, afferma Microsoft. 

Attualmente, Microsoft Translator supporta 103 lingue.

Con il progresso della ricerca sull’intelligenza artificiale, il mammut tecnologico ha adottato la tecnologia di traduzione automatica neurale (NMT) e ha migrato i sistemi di traduzione automatica su modelli neurali basati sulla tecnologia dei trasformatori. Successivamente, utilizzando l’architettura del trasformatore multilingue, l’azienda potrebbe aumentare i dati di addestramento con materiale di altre lingue, spesso nella stessa famiglia linguistica o in una famiglia correlata, per produrre modelli per lingue con piccole quantità di dati o, come la intendiamo, risorse limitate le lingue.

Amazon Translate

Amazon Translate è anche un servizio di traduzione automatica neurale. 

Nel 2019 ha aggiunto il supporto per 22 nuove lingue, aumentando il numero di lingue ospitate a 54 lingue e dialetti. Nel 2020 ha aggiunto altre 16 lingue e il numero di lingue che è in grado di supportare è ora fino a 71 lingue e varianti, oltre al supporto per 4.970 combinazioni di traduzione.

Di ihal