Appen Limited , fornitore leader di dati di formazione di alta qualità per le aziende che desiderano creare sistemi di intelligenza artificiale su larga scala, sta lanciando nuovi set di dati di formazione diversificati per iniziative di elaborazione del linguaggio naturale (PNL). Questi set di dati consentiranno agli utenti finali di ricevere la stessa esperienza indipendentemente dalla varietà di lingua, dialetto, etnoletto, accento, razza o sesso.
Secondo un rapporto di PNAS del marzo 2020, i più diffusi sistemi di riconoscimento vocale automatizzato (ASR), in particolare quelli utilizzati per assistenti virtuali, sottotitoli chiusi e elaborazione a mani libere, mostrano spesso disparità razziali nelle prestazioni. Molto di questo ha a che fare con i sistemi basati su dati distorti o incompleti, ed è per questo che è così cruciale sviluppare diversi set di addestramento.
Con il nuovo lancio, Appen mira a ridurre le differenze di prestazioni e creare un ambiente più inclusivo per la tecnologia di riconoscimento vocale. Gli stessi tipi di sfide sono presenti nell’interpretazione linguistica e nei sistemi PNL.
“La qualità e la diversità dei dati di addestramento influiscono direttamente sulle prestazioni e sui pregiudizi presenti nei modelli di intelligenza artificiale”, ha affermato Brayan. “In qualità di partner di dati, possiamo fornire dati di formazione completi per molti casi d’uso per garantire che i modelli di intelligenza artificiale funzionino per tutti. È fondamentale coinvolgere un gruppo eterogeneo di individui per produrre, etichettare e convalidare i dati per garantire che il modello da addestrare non sia solo equo, ma anche costruito in modo responsabile “.
Partnership con Translators Without Borders (TWB): Appen ha collaborato con TWB, Amazon, Carnegie Mellon University, Facebook, Google, Johns Hopkins University, Microsoft e Translated. La partnership ha aderito alla Translation Initiative for COVID-19 (TICO-19), che ha tentato di espandere l’accesso alle informazioni COVID-19 supportando lo sviluppo della tecnologia linguistica in più lingue. Questi includono paesi in via di sviluppo come lo swahili congolese, il tigrino e il nigeriano Fulfulde.
Progetto di traduzione in francese canadese : Appen ha aiutato Microsoft ad aggiungere “francese canadese” come opzione di lingua in Microsoft Translator dopo essersi coordinato con consulenti madrelingua.
Progetto di traduzione Inuktitut : Appen ha collaborato con il governo Nunavut che ha contribuito a portare Microsoft ad aggiungere Inuktitut a Microsoft Translator. La lingua indigena è parlata nell’Artico canadese.
Set di dati standard in inglese vernacolare afroamericano (AAVE): lavorando con relatori AAVE e raccogliendo dati per un set di dati OTS basato su conversazioni su vari argomenti, Appen tenta di creare nuovi set di dati di formazione che rappresentino AAVE.
La dott.ssa Judith Bishop è Senior Director of AI Specialists presso Appen.
“I dati di intelligenza artificiale di parte portano a progetti che possono non riuscire a fornire i risultati di business attesi e danneggiare le persone di cui dovrebbero trarre vantaggio”, ha affermato il dott. Bishop. “La scala e la complessità dei progetti di IA rendono impossibile per la maggior parte delle aziende acquisire dati sufficienti e imparziali di alta qualità senza la collaborazione di un esperto di dati di IA. L’impegno di Appen per lo sviluppo del gruppo più diversificato ed esperto di annotatori di dati fornisce al settore una risorsa chiaramente differenziata per la costruzione di progetti di IA equi ed etici “.
Appen è assistito dalla formazione di annotatori di dati provenienti da oltre 170 paesi e le rappresentazioni linguistiche includono 235 lingue uniche e 395 dialetti. Offre anche set di dati standard (OTS), che consentono alle aziende di acquisire dati di formazione di alta qualità più rapidamente per i loro progetti di intelligenza artificiale.