Le lingue indigene sono a rischio di scomparire; secondo l’UNESCO, quasi 3.000 lingue potrebbero estinguersi prima della fine del secolo. Te Hiku Media, un’emittente televisiva neozelandese specializzata nella lingua Maori, sta utilizzando l’intelligenza artificiale per aiutare nella conservazione e rivitalizzazione di questa lingua.
Te Hiku Media sta sviluppando modelli ASR (Automatic Speech Recognition) per la lingua te reo Maori, utilizzando tecniche aperte ed etiche per la raccolta e l’analisi dei dati vocali. Questi modelli sono stati costruiti con l’ausilio delle GPU NVIDIA A100 Tensor Core e del software NVIDIA NeMo, raggiungendo un’accuratezza del 92% nella trascrizione di te reo e dell’82% nel bilinguismo inglese-te reo.
L’obiettivo di Te Hiku Media, fondata oltre 30 anni fa, è quello di dare voce alla lingua te reo attraverso la radio. Con l’avvento di Internet, l’azienda ha scelto di creare una propria piattaforma di distribuzione dei contenuti anziché utilizzare piattaforme globali che avrebbero potuto richiedere la cessione di diritti sul contenuto.
Il sito web di Te Hiku Media, chiamato “Whare Kōrero” (casa della parola), contiene oltre 1.000 ore di registrazione in lingua te reo, inclusi contributi di madrelingua e parlanti bilingui. Circa venti stazioni radio Maori utilizzano questa piattaforma per trasmettere i loro programmi.
Te Hiku Media ha riconosciuto l’importanza di queste registrazioni per la rivitalizzazione della lingua, ma la trascrizione manuale era troppo onerosa. Hanno quindi iniziato a utilizzare l’ASR nel 2016 per velocizzare il lavoro. Per raccogliere dati vocali, Te Hiku Media ha collaborato con gli anziani della comunità e ha lanciato l’iniziativa di crowdsourcing “Kōrero Māori”, raccogliendo oltre 300 ore di dati vocali da più di 2.500 persone.
I modelli ASR te reo Māori sono stati sviluppati con questi dati e ora alimentano “Kaituhi”, un servizio online di trascrizione di te reo Māori. Questo progetto ha ispirato iniziative simili tra i nativi hawaiani e i Mohawk del Canada sudorientale.