Sarvam AI, AI4Bharat e IIT Madras Presentano IndicVoices, set di dati vocali inclusivi

DiFantasy

Mar 6, 2024

Sarvam AI insieme ad AI4Bharat e IIT Madras ha presentato IndicVoices , un set di dati vocale completo che aderisce a una lista dei desideri di diversità inclusiva con un’equa rappresentazione di dati demografici, domini, lingue e applicazioni. Il set di dati IndicVoices comprende 7348 ore di parlato naturale e spontaneo di 16237 parlanti in 145 distretti indiani e 22 lingue.

Il set di dati, risultato di un colossale sforzo a livello nazionale che ha coinvolto 1893 dipendenti in vari ruoli, include segmenti audio letti (9%), estemporanei (74%) e conversazionali (17%). Sono già state trascritte ben 1639 ore, con una media di 73 ore per lingua.

Utilizzando INDICVOICES, hanno creato IndicASR, il primo modello ASR a supportare tutte le 22 lingue elencate nell’ottavo programma della Costituzione dell’India. Tutti i dati, gli strumenti, le linee guida, i modelli e gli altri materiali sviluppati come parte di questo lavoro saranno resi pubblici.

Il progetto, generosamente finanziato da BHASHINI, Ministero dell’elettronica e dell’informatica, governo indiano e sostenuto da sovvenzioni di Nilekani Philanthropies e EkStep Foundation, mira a fungere da risorsa completa per la raccolta di dati nelle regioni multilingue a livello globale.

I materiali sviluppati nell’ambito di questa iniziativa includono suggerimenti per interazioni digitali, domande da vari domini, scenari di giochi di ruolo conversazionali, linee guida elaborate per la trascrizione, un’applicazione Android per la raccolta e la verifica dei dati sul campo e una piattaforma basata sul web per la gestione del flusso di lavoro di trascrizione .

Questi strumenti e il set di dati verranno rilasciati rispettivamente con una licenza MIT e una licenza CC-BY-4.0, consentendo un ampio utilizzo commerciale.

Sarvam AI, AI4Bharat e IIT Madras Presentano IndicVoices, set di dati vocali inclusivi

DiFantasy

Di Fantasy

Articoli correlati

Meta presenta Muse Image con ricerca web e anticipa il modello Muse Video

OpenAI introduce GPT-Live per rendere la voce di ChatGPT più continua e naturale

Microsoft porta i modelli MAI dentro Excel e Outlook per ridurre la dipendenza dai fornitori esterni

Ultimi Post

Meta presenta Muse Image con ricerca web e anticipa il modello Muse Video

OpenAI introduce GPT-Live per rendere la voce di ChatGPT più continua e naturale

Microsoft porta i modelli MAI dentro Excel e Outlook per ridurre la dipendenza dai fornitori esterni

Perplexity prepara l’assistente AI Teammate per lo sviluppo software in concorrenza con Claude Code e Cursor