Più dell’inglese: i set di dati NLP presentano un problema di overfitting della lingua
Sebbene vi sia stato un netto miglioramento nei modelli linguistici di pre-formazione, vi è una scarsità di enormi quantità di dati non etichettati per molte lingue diverse dall’inglese.
Fino a pochi anni fa, la ricerca sulla NLP si concentrava prevalentemente sull’inglese. Con il tempo, tuttavia, si è capito che i vantaggi dell’inclusione di lingue diverse dall’inglese nei set di dati della NLP superano le sfide nel loro sviluppo. L’argomentazione spesso avanzata contro l’avere set di dati multilingue nella NLP era che l’inglese era la lingua di Internet. Dopo l’inglese, la seconda lingua più parlata è il cinese mandarino, c’è ancora una differenza di 300 milioni di utenti tra i due.
Necessità di set di dati multilingue nella NLP
Le cose sono cambiate enormemente ora. I clienti e i marchi aziendali hanno iniziato a riconoscere i vantaggi economici che derivano dalla ristorazione in mercati che potrebbero non parlare la stessa lingua. Il numero di questi marchi sta crescendo solo con il tempo. Queste grandi aziende tecnologiche di solito servono consumatori che coprono più di 20 lingue, concentrandosi principalmente sulle regioni nordiche, l’America Latina e l’Asia-Pacifico. E questo è semplicemente un crollo globale: paesi come l’India parlano 22 lingue che possono quindi essere divise in sottogruppi di dialetti diversi.
Un ovvio vantaggio da un punto di vista sociale è quello di rendere la tecnologia accessibile ai gruppi minoritari che di solito sono ignorati e privi di rappresentanza online. L’accesso di un utente alla tecnologia è normalmente limitato dalla sua conoscenza dell’inglese. A volte, anche quando l’utente parla inglese, algoritmi distorti discriminano gli utenti con accenti diversi. Il motivo alla base di questa divisione linguistica è che le aziende precedenti non erano disposte a spendere per il supporto per le lingue con risorse limitate, nemmeno per il controllo ortografico e il supporto della tastiera.
In che modo i set di dati della PNL sono diventati sovradimensionati in inglese?
A parte il virtuosismo, ci sono altri vantaggi nell’includere più set di dati non in inglese dal punto di vista del ML, il primo dei quali è evitare l’ overfitting . Le architetture del modello sono codificate con le ipotesi basate sui dati su cui vengono applicate. Nonostante il fatto che questi modelli affermino di essere generalizzati, un sacco di pregiudizi induttivi che hanno sono molto specifici dell’inglese. Questo approccio unilaterale diventerà sempre più evidente man mano che la NLP cresce per impegnarsi con processi destinati a una base di utenti globale.
Il sistema ML di Quora è un atto di classe
L’inglese e altre lingue simili all’inglese non sono rappresentative delle altre cosiddette lingue straniere con strutture e grammatica uniche che sono pertinenti solo ad esse. Il supporto ripetuto per l’inglese, ha portato a un pregiudizio normativo che lo ha reso la lingua predefinita per le tecnologie. Una sufficiente ricerca passata conclude che un modello non è esattamente agnostico dal linguaggio solo perché non ha informazioni codificate in modo esplicito.
Il documento di ricerca del 2011 intitolato “On Achieving and Evaluating Language-Independence in NLP” di Emily M. Bender fornisce l’esempio di modelli linguistici di n-grammi che hanno ottenuto risultati leggermente peggiori nello studio di lingue che erano “più complesse” o avevano un livello relativamente più libero ordine delle parole rispetto all’inglese.
Un’altra ricerca di Reut Tsarfaty pubblicata nel 2020, intitolata “From SPMRL to NMRL: What Did We Learn (and Unlearn) in a Decade of Parsing Morphologically-Rich Languages (MRLs)?” discusso di come le reti neurali tendano a trascurare le complessità dei linguaggi ricchi.
Secondo uno studio del 2017 condotto da Claria Vania e Adam Lopez , intitolato “Dai personaggi alle parole a in mezzo: catturiamo la morfologia?” i modelli sono scadenti nel processo di tokenizzazione delle sottoparole per le lingue con riduplicazione. Un altro studio , “Che tipo di linguaggio è difficile da modellare?” scritto da Sabrina J. Mielke, uscito nel 2019, ha notato che le lingue che hanno vocabolari più ampi sono intrinsecamente più difficili da elaborare per i modelli linguistici.
Fonte: documento di ricerca Meta AI
Come migliorare la ricerca vocale multilingue?
A causa del vario livello di complicazioni che queste sfide nella strutturazione dei modelli hanno posto, i ricercatori sono costretti a cambiare il loro approccio per abbracciare le qualità multilingue. Si trattava di un duplice approccio: modificare il processo di pre-formazione per i modelli NLP costruendo set di dati più grandi per più lingue.
Il documento “Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning”, pubblicato nel 2021, ha determinato questa debolezza e ha introdotto un processo chiamato “multilingual contrastive pre-training” o MCP. MCP ha svolto il compito di selezionare l’asserzione apt in un insieme di “N” asserzioni contrastanti tra “N” lingue diverse.
Sebbene vi sia stato un netto miglioramento nei modelli linguistici di pre-formazione, vi è una scarsità di enormi quantità di dati non etichettati per molte lingue diverse dall’inglese. Le aziende ora hanno preso atto di questo baratro.
Rilascio di dataset multilingue
All’inizio di quest’anno, a gennaio, Meta AI ha rilasciato Multilingual LibriSpeech o MLS , un set di dati open source con oltre 50.000 ore di audio per otto lingue tra cui inglese, tedesco, olandese, francese, spagnolo, italiano, portoghese e polacco. MLS è progettato per aiutare il lavoro della comunità di ricerca vocale in lingue oltre all’inglese, in modo che le persone in tutto il mondo possano beneficiare dei miglioramenti in un’ampia gamma di servizi basati sull’intelligenza artificiale.
La ricerca conteneva anche i set di dati e i modelli linguistici pre-addestrati insieme ai risultati di base che i ricercatori potevano confrontare tra diversi sistemi di riconoscimento vocale automatico (ASR). Questi sono stati solo i primi piccoli passi compiuti da Meta .
Come parte del loro progetto ” No Model Left Behind “, ad agosto, Meta AI ha aperto NLLB-200 , un enorme modello di AI che ha tradotto tra più di 200 lingue. Il modello contiene 54,5 miliardi di parametri che sono stati addestrati su un set di dati con oltre 18 miliardi di coppie di frasi.
Amazon rilascia il set di dati multilingue MASSIVE
Da allora sono intervenute anche altre gigantesche organizzazioni tecnologiche che possono permettersi gli investimenti necessari per costruire questi set di dati. Ad aprile di quest’anno, Amazon ha reso open source un nuovo set di dati multilingue chiamato MASSIVE che comprende un milione di note vocali etichettate che coprono 51 lingue. La ricerca ha anche fornito esempi di come utilizzare il set di dati per la modellazione consentendo ai ricercatori di ricreare i risultati di base prodotti nel documento.