Facebook crea un modello di traduzione automatica in grado di tradurre direttamente tra 100 lingue diverse
Facebook ha recentemente sviluppato un nuovo modello di traduzione automatica in grado di tradurre il testo tra una data coppia di lingue su un set di 100 lingue. Sebbene esistano altri sistemi di traduzione automatica, la maggior parte degli altri sistemi di traduzione AI funziona traducendo prima il testo in inglese e poi convertendo il testo da lì. Come riportato da Engadget , il traduttore AI di Facebook opera senza utilizzare la lingua inglese come intermediario e, secondo quanto riferito, è in grado di raggiungere una precisione di circa il 90%.
I dati di addestramento di Facebook per il modello AI erano composti da circa 7,5 miliardi di paia di frasi, distribuite in 100 lingue diverse. I dati sono stati compilati dal web utilizzando una serie di web crawler e le lingue presenti nei dati raccolti sono state identificate utilizzando un modello di linguaggio chiamato FastText. Una volta raccolti i dati, è stato eseguito uno strumento chiamato LASER 2.0 per estrarre il significato dei diversi campioni di frasi e abbinare le frasi in diverse lingue insieme in base al loro significato. LASER 2.0 è stato sviluppato da Facebook e utilizza l’apprendimento senza supervisionealgoritmi per creare incorporamenti. Gli incorporamenti di frasi contengono informazioni sulle relazioni tra frasi diverse in base a caratteristiche come la frequenza di utilizzo e quanto le frasi si avvicinano l’una all’altra. LASER 2.0 è quindi in grado di creare pais di frasi che hanno significati molto simili.
I dati di addestramento non erano solo accoppiati in base al significato delle frasi. Le lingue stesse erano raggruppate insieme. L’obiettivo era progettare un sistema che non richiedesse l’uso dell’inglese come mezzo tra due lingue, con Angela Fan di Facebook, che ha guidato il progetto, osservando che molte regioni del mondo parlano due lingue che non sono l’inglese. Gli ingegneri di Facebook hanno svolto la formazione concentrandosi sull’accoppiamento di lingue comunemente tradotte l’una dall’altra. Sono stati creati quattordici diversi gruppi linguistici, basati su variabili come cultura, somiglianze linguistiche e geografia. Ad esempio, uno dei gruppi linguistici creati dai ricercatori conteneva le lingue più comuni in tutta l’India, che includono le lingue urdu, tamil, hindi e bengalese.
Il metodo di formazione focalizzato sul gruppo linguistico ha portato ad alcuni risultati interessanti. È stato riscontrato che il modello di traduzione risultante aveva una maggiore precisione rispetto ai modelli attualmente esistenti per determinati abbinamenti linguistici. Durante la traduzione tra inglese e bielorusso, ad esempio, l’IA è stata in grado di applicare alcuni modelli che aveva imparato durante la traduzione in russo perché il bielorusso ha somiglianze linguistiche con il russo. Allo stesso modo, gli sforzi di traduzione tra spagnolo e portoghese sono migliorati poiché lo spagnolo è la seconda lingua più parlata e c’era un volume sostanziale di dati di formazione per l’attività.
Ci sono circa sessanta lingue che il sistema di traduzione non copre ancora e l’accuratezza del modello su lingue senza molti dati di addestramento deve essere migliorata prima che sia pronto per l’uso. Molte lingue nel sud-est asiatico e in Africa non dispongono del volume di dati necessario per formare un modello affidabile. Il team di ricerca dovrà determinare un modo per compensare questa mancanza di dati. Il team di ricerca deve anche determinare come controllare eventuali schemi razzisti, sessisti o altrimenti profani che il modello potrebbe aver imparato. Sebbene il team di ricerca abbia fatto uso di un filtro volgarità, il filtro funziona principalmente sui dati in inglese.
Il sistema di traduzione automatica non è stato ancora utilizzato sulla piattaforma di social media di Facebook. Il modello attuale è solo a scopo di ricerca. Tuttavia, Facebook si sta preparando a progettare modelli simili e far sì che gestiscano i circa 20 miliardi di richieste di traduzione che il sito riceve ogni giorno.