Il set di dati di addestramento da 450 GB “No Language Left Behind” di Meta è stato riprodotto e rilasciato online
 
I ricercatori Meta e AllenNLP hanno rilasciato dati di addestramento bitext estratti per i modelli No Language Left Behind NLLB-200 di Meta AI . L’azienda mira a facilitare l’analisi e la documentazione, consentendo ad altri di formarsi sugli stessi dati per fare confronti equi. 

Questi dati appena rilasciati erano il pezzo mancante per poter ricreare completamente il set di dati utilizzato per addestrare NLLB-200. I ricercatori di IA possono ora accedere al set di dati completo.

 

I ricercatori dietro questo progetto sono Jesse Dodge, Akshita Bhagia e Kenneth Heafield, insieme ad altri ricercatori di Meta per informazioni sull’open source per questa riproduzione. 

Il nuovo set di dati contiene bitext per 148 coppie linguistiche incentrate sull’inglese e 1.465 non incentrate sull’inglese utilizzando la libreria di mining stopes e gli encoder LASER3. Il set di dati completo è stimato in 450 GB di testo. 

La struttura del set di dati è composta da file di testo delimitati da tabulazioni compressi con gzip per ciascuna direzione, con ogni file di testo contenente righe con frasi parallele. I dati sono stati filtrati in base all’identificazione della lingua, al filtraggio basato su emoji e ai modelli linguistici implementati per alcune lingue ad alta risorsa. 

Inoltre, è possibile accedere al set di dati anche sulla piattaforma di data science Hugging Face . 

Con sede a Seattle, AI2 è un istituto di ricerca senza scopo di lucro fondato nel 2014 che conduce servizi di ricerca e ingegneria di intelligenza artificiale ad alto impatto, adottando un approccio orientato ai risultati a sfide complesse.

Di ihal