Sarvam AI insieme ad AI4Bharat e IIT Madras ha presentato IndicVoices , un set di dati vocale completo che aderisce a una lista dei desideri di diversità inclusiva con un’equa rappresentazione di dati demografici, domini, lingue e applicazioni. Il set di dati IndicVoices comprende 7348 ore di parlato naturale e spontaneo di 16237 parlanti in 145 distretti indiani e 22 lingue.
Il set di dati, risultato di un colossale sforzo a livello nazionale che ha coinvolto 1893 dipendenti in vari ruoli, include segmenti audio letti (9%), estemporanei (74%) e conversazionali (17%). Sono già state trascritte ben 1639 ore, con una media di 73 ore per lingua.
Utilizzando INDICVOICES, hanno creato IndicASR, il primo modello ASR a supportare tutte le 22 lingue elencate nell’ottavo programma della Costituzione dell’India. Tutti i dati, gli strumenti, le linee guida, i modelli e gli altri materiali sviluppati come parte di questo lavoro saranno resi pubblici.
Il progetto, generosamente finanziato da BHASHINI, Ministero dell’elettronica e dell’informatica, governo indiano e sostenuto da sovvenzioni di Nilekani Philanthropies e EkStep Foundation, mira a fungere da risorsa completa per la raccolta di dati nelle regioni multilingue a livello globale.
I materiali sviluppati nell’ambito di questa iniziativa includono suggerimenti per interazioni digitali, domande da vari domini, scenari di giochi di ruolo conversazionali, linee guida elaborate per la trascrizione, un’applicazione Android per la raccolta e la verifica dei dati sul campo e una piattaforma basata sul web per la gestione del flusso di lavoro di trascrizione .
Questi strumenti e il set di dati verranno rilasciati rispettivamente con una licenza MIT e una licenza CC-BY-4.0, consentendo un ampio utilizzo commerciale.