Apple ha collaborato con l’Università della California del Sud (USC) per sviluppare un nuovo metodo di traduzione che offre agli utenti di iOS 18 una maggiore flessibilità nella scelta del genere durante la traduzione. Con il nuovo sistema, gli utenti possono selezionare suggerimenti di genere alternativi nell’app nativa di traduzione.
Sebbene questo lavoro tocchi temi attuali sulle definizioni di genere, affronta una questione più antica: il fatto che 84 delle 229 lingue conosciute al mondo utilizzino sistemi di genere basati sul sesso. La lingua inglese, ad esempio, usa pronomi maschili o femminili. Al contrario, molte lingue romanze, come lo spagnolo, richiedono un accordo di genere, il che complica la traduzione automatica.
Nel nuovo documento, Apple e USC analizzano come tradurre correttamente frasi che contengono riferimenti al genere. Un esempio presentato è la traduzione della frase “La segretaria era arrabbiata con il capo” dallo spagnolo all’inglese. Le traduzioni semplici spesso non sono sufficienti, poiché il contesto di genere deve essere mantenuto per tutta la lunghezza del testo. I sistemi di traduzione devono pertanto garantire che tutte le parti della frase concordino con il genere assegnato, altrimenti si rischiano errori.
Il documento, intitolato Generating Gender Alternatives in Machine Translation, propone un metodo semi-supervisionato per generare alternative di genere per entità con genere ambiguo. Questo metodo utilizza modelli linguistici avanzati e modelli di traduzione automatica pre-addestrati. Le traduzioni sono strutturate in modo da includere frasi con diverse forme di sostantivi di genere che rappresentano la stessa entità.
Il documento evidenzia anche che i pregiudizi di genere nei dati di addestramento possono influenzare i sistemi di traduzione, portando a errori come tradurre “medico” come “médico” (maschile) invece di “médica” (femminile) in spagnolo. Per evitare queste assegnazioni errate, i sistemi di traduzione devono interpretare il contesto e, quando non è possibile determinare il genere corretto, fornire più opzioni di traduzione.
Apple e USC hanno sviluppato un algoritmo di aumento dei dati e utilizzato set di dati come Europarl, WikiTitles e WikiMatrix per migliorare le traduzioni. I ricercatori hanno creato un nuovo corpus contenente ambiguità di genere e analizzato come queste influenzano le traduzioni.
Il modello sviluppato è stato testato utilizzando i set di test GATE e MT-GenEval, che hanno fornito frasi con entità ambigue. I ricercatori hanno esplorato due approcci: perfezionare modelli di traduzione pre-addestrati e utilizzare modelli di linguaggio di grandi dimensioni (LLM) per generare assegnazioni di genere.
I risultati mostrano che i modelli sviluppati da Apple e USC superano metodi precedenti, migliorando notevolmente la precisione delle traduzioni. Gli autori concludono affermando che, sebbene il lavoro non raggiunga completamente l’obiettivo di traduzioni completamente neutrali rispetto al genere, rappresenta un passo significativo verso una traduzione più equa e precisa.