Il capo della traduzione di Google in materia di pregiudizi nella lingua e perché l’IA ama i testi religiosi

Google continua a espandere le sue offerte di traduzione, inclusa una nuova modalità Interprete nell’Assistente Google. Credito: Google
Parte del numero AI di Real-World
Potresti ricordare una serie di notizie l’anno scorso su Google Translate che sputava frammenti minacciosi di profezia religiosa quando veniva presentato con parole senza senso e frasi da tradurre. I siti di Clickbait hanno suggerito che potrebbe essere una cospirazione, ma no, sono stati solo i sistemi di machine learning di Google a confondersi e a ricadere sui dati su cui erano stati formati: testi religiosi.

Ma come ha detto il capo di Google Translate, Macduff Hughes, l’ apprendimento automatico è ciò che rende davvero utili gli strumenti di traduzione sempre utili di Google. La traduzione libera, facile e istantanea è uno di quei vantaggi della vita del 21 ° secolo che molti di noi danno per scontato, ma non sarebbe possibile senza AI.

LA TRADUZIONE GRATUITA, FACILE E ISTANTANEA È UN VANTAGGIO PER LA VITA DEL 21 ° SECOLO
Nel 2016, Translate è passato da un metodo noto come traduzione automatica statistica a uno che ha fatto leva sull’apprendimento automatico, che Google ha definito “traduzione di macchine neurali”. Il vecchio modello ha tradotto il testo una parola alla volta, portando a molti errori, come il sistema non ha tenuto conto di fattori grammaticali come il tempo verbale e l’ordine delle parole. Ma il nuovo traduce frase per frase, il che significa che è un fattore in questo contesto verbale.

Il risultato è un linguaggio “più naturale e più fluido”, dice Hughes, che promette ulteriori miglioramenti, come la traduzione che tiene conto di sottigliezze di tono (l’interlocutore è formale o slangato?) E offre molteplici opzioni per la formulazione .

Tradurre è anche un progetto inequivocabilmente positivo per Google, qualcosa che, come altri hanno notato , fornisce un po ‘di copertura per gli sforzi di IA più controversi della società, come il suo lavoro con i militari . Hughes spiega perché Google continua a sostenere Traduci, così come la società vuole affrontare il pregiudizio nei suoi dati di addestramento AI.

Questa intervista è stata modificata per chiarezza

Un grande aggiornamento che hai apportato di recente a Translate offriva traduzioni specifiche per genere . Cosa ti ha spinto a farlo?

Sono due le motivazioni che si uniscono. Uno è una preoccupazione per il pregiudizio sociale in tutti i tipi di apprendimento automatico e prodotti di intelligenza artificiale. Questo è qualcosa su cui Google e l’intero settore si sono preoccupati; i servizi e i prodotti di machine learning riflettono le distorsioni dei dati sui quali sono addestrati, il che riflette i pregiudizi della società, che rafforzano e forse addirittura amplificano tali pregiudizi. Vogliamo, come azienda, essere leader nell’affrontare questi problemi e sappiamo che Tradurre è un servizio che ha questo problema, in particolare quando si tratta di pregiudizi maschili / femminili.

I MODELLI DI TRADUZIONE POSSONO APPRENDERE (E REPLICARE) I PREGIUDIZI PRESENTI NELLA LINGUA
L’esempio classico del linguaggio è che un medico è un maschio e un’infermiera è una femmina. Se questi pregiudizi esistono in una lingua, allora un modello di traduzione lo imparerà e lo amplificherà. Se un’occupazione è [riferita a un maschio] dal 60 al 70 percento del tempo, ad esempio, un sistema di traduzione potrebbe apprenderlo e presentarlo come maschio al 100 percento. Dobbiamo combattere questo.

E molti utenti stanno imparando le lingue; vogliono capire i diversi modi in cui possono esprimere le cose e le sfumature disponibili. Quindi sappiamo da molto tempo che dobbiamo essere in grado di mostrare più opzioni di traduzione e altri dettagli. Tutto questo si è riunito nel progetto di genere.

Perché, se osservi il problema del bias, non c’è una risposta chiara a ciò che puoi fare al riguardo. La risposta non deve essere 50/50 o casuale [quando si assegnano i sessi nella traduzione], ma per dare alle persone maggiori informazioni. Per dire semplicemente alle persone c’è più di un modo per dire questa cosa in questa lingua, e qui ci sono le differenze tra loro. Ci sono molte sfide culturali e sfide linguistiche nella traduzione, e volevamo fare qualcosa riguardo al problema di bias rendendo la traduzione stessa più utile.

Un esempio di opzioni di traduzione di genere in Google Translate.
Quali problemi hai intenzione di affrontare successivamente, in termini sia di pregiudizi e sfumature?

Sulla questione dell’equità e dei pregiudizi, ci sono tre grandi iniziative. Uno sta semplicemente facendo più di ciò che abbiamo appena lanciato. Abbiamo una traduzione a frase completa con i sessi, ma solo con il turco in inglese. Vogliamo migliorare la qualità di questo ed espanderci in più lingue. Abbiamo fatto una sola parola per alcune lingue …

Una seconda area è la traduzione di documenti. Questo è dove c’è pregiudizio, ma richiede una risposta molto diversa. Ad esempio, se si prende un articolo di Wikipedia su una donna in un’altra lingua e si traduce in inglese, molto probabilmente vedrete molti pronomi in inglese con lui e lui. Ciò accade perché otterrai una frase che viene tradotta separatamente e la lingua di partenza non chiarirà il genere, e quindi più spesso ti verrà aggiunto come predefinito. Ora, è una cosa particolarmente offensiva quando ci si sbaglia, ma il modo di affrontarlo è completamente diverso da quello che abbiamo lanciato l’anno scorso. In questo esempio è possibile ottenere la risposta giusta semplicemente dal contesto [del resto del documento]. Quindi questo è un problema di ricerca e ingegneria per risolverlo.

“LA TERZA AREA SI OCCUPA DI MODELLI LINGUISTICI DI GENERE NEUTRO”.
La terza area riguarda i modelli linguistici di genere neutro. Siamo nel mezzo di molte turbolenze culturali in questo momento, non solo in inglese ma in molte, molte lingue che sono di genere. Ci sono movimenti emergenti in tutto il mondo per creare un linguaggio neutrale rispetto al genere, e riceviamo molte richieste dagli utenti riguardo a quando ci occuperemo di questo. L’esempio spesso citato è l’uso singolare di “loro” in inglese. È sempre più comune anche se non è effettivamente accettato nei libri di testo e nelle guide di stile, riferendosi a qualcuno dicendo “sono” invece di “lui è” o “lei è”. Questo sta accadendo anche in spagnolo, francese, in molte altre lingue. In realtà, le regole stanno cambiando così velocemente che persino gli esperti non possono tenere il passo.

Qualcosa di curioso che è successo l’anno scorso con Google Translate è stato scoprire che se immettevi parole senza senso , sputavi frammenti di testo religioso. È diventato un fenomeno un po ‘virale, con persone che proiettano ogni sorta di interpretazioni bizzarre su di esso. Cosa ne pensi di tutto questo?

Non ero sorpreso che fosse successo, ma ero al livello di interesse per la risposta della gente. [E al] tipo di cospirazione, su Google che codifica misteriosi messaggi su religioni segrete, alieni spaziali e cos’hai. Ciò che realmente illustra, tuttavia, è un problema generale con i modelli di apprendimento automatico, che quando ricevono input inaspettati si comportano in modi imprevisti. Questo è un problema che stiamo affrontando, in modo che se hai un input non sensato, non produrrà input sensoriali .

Ma perché è successo? Non credo che tu abbia mai offerto una spiegazione sul disco .

Di solito è perché la lingua che stai traducendo aveva un sacco di testo religioso nei dati di addestramento. Per ogni coppia linguistica che abbiamo, ci alleniamo usando tutto ciò che possiamo trovare sul world wide web. Quindi, il comportamento tipico di questi modelli è che, se diventa ingannevole, individua qualcosa che è comune nei dati di allenamento sul lato obiettivo e per molti di questi linguaggi a bassa risorsa – dove non c’è molto testo tradotto sul web per noi da attingere – ciò che viene prodotto spesso capita di essere religioso.

SPREMI GOOGLE TRANSLATE TROPPO DURO E I DATI DI ADDESTRAMENTO SI ESPANDONO
Alcune lingue, il primo materiale tradotto che abbiamo trovato erano traduzioni della Bibbia. Prendiamo tutto ciò che possiamo ottenere e di solito va bene, ma nel caso in cui entri in chat senza senso, spesso questo è il risultato. Se i dati di traduzione sottostanti fossero stati documenti legali, il modello avrebbe prodotto legalese; se si trattasse di manuali di istruzioni di volo degli aerei, avrebbe prodotto le istruzioni di volo degli aerei.

È affascinante. Mi ricorda l’influenza della Bibbia di Re Giacomo sull’inglese; come questa traduzione dal 17 ° secolo è la fonte di tante frasi che usiamo oggi. Succedono cose simili con Google Traduttore? Ci sono strane fonti di fraseggio nelle tue banche di formazione?

Bene, a volte riceviamo cose strane provenienti da forum su Internet; come, a volte gergo da forum di giochi o siti di giochi. Questo può succedere! Con le lingue più grandi abbiamo dati di allenamento più diversificati, ma sì, a volte si ottiene un gergo piuttosto interessante da tutti gli angoli di Internet. Purtroppo non mi vengono in mente esempi specifici in questo momento …

Gemme di pixel
Google ha spinto le sue funzionalità di traduzione in molti prodotti e servizi, inclusi i Pixel Buds. Amelia Holowaty Krales / The Verge
Quindi, Google Translate è particolarmente interessante in quanto, in un momento in cui l’intelligenza artificiale si trova nei guai a causa di come e dove viene distribuito, tutti concordano sul fatto che la traduzione è vantaggiosa e relativamente non problematica. È utopico, anche. Cosa pensi che sia la motivazione di Google per il finanziamento della traduzione?

Siamo una società piuttosto idealista e penso che il team di traduzione abbia più della sua giusta dose di idealisti. Lavoriamo duramente per assicurarci che ciò che hai detto rimanga vero, ed è per questo che è importante combattere i pregiudizi e cercare traduzioni tradotte che potrebbero essere dannose.

Ma perché Google investe in questo? Ci viene chiesto molto e la risposta è facile. Diciamo che la nostra missione è quella di organizzare le informazioni del mondo e renderlo universalmente accessibile, e che la parte “universalmente accessibile” è molto, molto lontana dall’essere raggiunta. Finché la maggior parte del mondo non può leggere le informazioni online, non è universalmente accessibile. Google, per raggiungere la sua missione principale, ha bisogno di risolvere la traduzione, e penso che i fondatori abbiano riconosciuto questo più di un decennio fa.

Pensi che sia possibile, tuttavia, risolvere la traduzione? C’era un recente articolo in The Atlantic del famoso professore di cognizione, Douglas Hofstadter, sottolineando la “superficialità” di Google Translate. Cosa ne pensi delle sue critiche?

Era giusto e vero quello che ha sottolineato. Ci sono questi problemi Ma non sono realmente in prima linea nella nostra preoccupazione, perché in realtà si verificano solo una piccola percentuale del tempo nelle traduzioni che vediamo. Quando guardiamo a testi tipici che le persone provano a tradurre, quelli non sono i grandi problemi in questo momento. Ma ha certamente ragione che per risolvere veramente la traduzione ed essere in grado di tradurre a livello di un abile professionista la cui conoscenza di un dominio e il suo problema linguistico, sono necessari alcuni importanti passi avanti. Solo imparare da esempi di testo parallelo non ti porterà a quelle ultime percentuali di casi d’uso.

È stato detto per molto tempo che la traduzione è un problema completo dell’IA, il che significa che per risolvere completamente la traduzione è necessario risolvere completamente l’intelligenza artificiale. E penso sia vero. Ma puoi raggiungere una percentuale molto alta di problemi risolti e stiamo compilando lo spazio in questo momento.

Di ihal

Lascia un commento