L’intelligenza artificiale di Facebook rilascia XLS-R, modello auto-supervisionato per attività vocali
CRUBN sostenuto da IIT Kanpur per assistere il governo del Karnataka nello sviluppo di una rete blockchain chiave in tutto il paese
Facebook ha recentemente annunciato il rilascio di XLS-R , un nuovo modello auto-supervisionato per una varietà di attività vocali. XLS-R migliora sostanzialmente i precedenti modelli multilingue addestrando su quasi dieci volte più dati pubblici in più del doppio delle lingue.
Formato su oltre 436.000 ore di registrazioni vocali disponibili pubblicamente, XLS-R si basa su wav2vec 2.0 , l’approccio di Facebook AI all’apprendimento auto-supervisionato delle rappresentazioni vocali e quasi dieci volte più ore di discorso rispetto al miglior modello precedente rilasciato lo scorso anno , XLSR-53 .
Utilizzando dati vocali provenienti da diverse fonti, che vanno dagli atti parlamentari agli audiolibri, è stato ampliato a 128 lingue diverse, coprendo quasi due volte e mezzo più lingue rispetto al suo predecessore.
XLS-R è stato valutato su quattro principali benchmark di riconoscimento vocale multilingue , dove ha superato il lavoro precedente sulla maggior parte delle 37 lingue testate; nello specifico, è stato provato con cinque lingue di BABEL, dieci lingue di CommonVoice, otto lingue di MLS e le 14 lingue di VoxPopuli .
Il modello è stato valutato anche per la traduzione vocale , in cui le registrazioni audio sono state tradotte direttamente in un’altra lingua. Facebook è sempre stato interessato a modelli in grado di eseguire più attività, quindi ha messo a punto contemporaneamente XLS-R su diverse direzioni di traduzione del benchmark CoVoST-2 . Il risultato è un unico modello che può tradurre tra l’inglese e fino a 21 altre lingue.
Il modello porta a miglioramenti molto ampi nelle direzioni linguistiche a bassa risorsa, come la traduzione dall’indonesiano all’inglese, dove l’accuratezza in termini di BLEU raddoppia in media, un passo avanti molto grande nel miglioramento della traduzione della lingua parlata. Un aumento della metrica BLEU significa che le traduzioni automatiche hanno una maggiore sovrapposizione con le traduzioni prodotte da un essere umano che affronta lo stesso compito.
XLS-R dimostra che il ridimensionamento del pre-addestramento interlinguistico può migliorare ulteriormente le prestazioni per le lingue con poche risorse. Migliora le prestazioni per il riconoscimento vocale e più che raddoppia la precisione della traduzione vocale dall’estero all’inglese. XLS-R è un passo importante verso un modello unico in grado di comprendere il parlato in molte lingue diverse ed è lo sforzo più grande che conosciamo per sfruttare i dati pubblici per la formazione preliminare multilingue.