Shunya Labs ha annunciato la pubblicazione del suo sistema di traduzione automatica in tempo reale denominato Vāķ, un modello di intelligenza artificiale vocale che supporta 55 lingue indiane e tutti i 2 970 possibili abbinamenti di traduzione tra di esse. La presentazione è avvenuta in contemporanea al India AI Impact Summit 2026 a Nuova Delhi, nell’ambito di un evento che ha richiamato l’attenzione sulle sfide e le opportunità di tecnologie linguistiche AI in un paese caratterizzato da una straordinaria diversità linguistica. Vāķ è concepito come un sistema “Any-to-Any Translation”, capace di prendere in ingresso un flusso vocale parlato in una lingua e restituire l’equivalente in un’altra lingua indiana con una latenza end-to-end inferiore a 1,5 secondi, preservando non solo le parole ma anche la voce del parlante, il tono e le sfumature emotive.
Le soluzioni AI vocali sviluppate fino ad oggi spesso coprivano solo un numero limitato di lingue indiane, tipicamente tra cinque e dieci, lasciando fuori da ogni vera inclusione linguistica comunità di parlanti che usano lingue come Bhojpuri, Rajasthani, Chhattisgarhi e Magahi, ciascuna delle quali è parlata da decine di milioni di persone. Questa limitazione ha costretto sviluppatori, istituzioni e fornitori di servizi a dipendere da API straniere ospitate su server esteri, con implicazioni rilevanti per la sovranità dei dati vocali degli utenti. Il modello Vāķ nasce proprio per colmare questa lacuna strutturale, offrendo una copertura completa e sovrana dell’intero panorama linguistico di oltre un miliardo di persone attraverso modelli open-weight scaricabili e utilizzabili localmente senza che i dati debbano lasciare l’ambiente di esecuzione dell’organizzazione che lo implementa.
L’architettura alla base di Vāķ include tre famiglie di modelli rilasciate simultaneamente. Il modello di riconoscimento vocale automatico Pingala ASR ha ottenuto il primo posto nella classifica mondiale dell’OpenASR Leaderboard con un Word Error Rate (WER) di 3,10 %, il valore più basso mai registrato su questa metrica di riferimento, e presenta una struttura ottimizzata per l’esecuzione su CPU con una latenza inferiore a 250 ms, rendendolo adatto anche all’uso edge o offline. La componente di Text-to-Speech (TTS) offre generazione vocale naturale in tutte le 55 lingue coperte, con capacità di streaming, creazione di voci personalizzate, clonazione vocale zero-shot, controllo prosodico e espressivo. Infine, la traduzione vocale real-time abilita l’interoperabilità tra tutte le coppie linguistiche previste, con una trasformazione bidirezionale che mantiene le caratteristiche paralinguistiche dell’input, come il tono emotivo e le qualità individuali della voce.
Dal punto di vista tecnico, l’implementazione di un traduttore vocale multi-lingua di questa portata richiede non solo modelli di riconoscimento e generazione avanzati, ma anche un vasto lavoro di raccolta e annotazione di dati vocali e testuali per rappresentare accenti, pronunce e strutture sintattiche specifiche di ciascuna lingua. Inoltre, il supporto di cosiddetti modelli zero-shot di clonazione vocale permette a Vāķ di replicare la voce di un parlante senza una fase di addestramento specifica, semplificando l’adozione in scenari in cui non sono disponibili registrazioni vocali preliminari. La scelta di rendere disponibili pubblicamente i pesi completi dei modelli favorisce un’adozione più ampia da parte di organizzazioni governative, sanitari, enti educativi e operatori della giustizia che necessitano di traduzione vocale in contesti multilingue, permettendo esecuzioni locali senza dipendenze da servizi cloud esterni e senza costi ricorrenti per API.
L’impatto potenziale di Vāķ va oltre la mera traduzione linguistica: la possibilità di offrire servizi vocale-linguistici interoperabili in tempo reale rappresenta un passo importante verso l’accessibilità e l’inclusione digitale. In un paese dove molte comunità sono avvezze a parlare in lingue locali piuttosto che in un’unica lingua franca, strumenti come Vāķ possono abilitare l’offerta di servizi pubblici, assistenza sanitaria, istruzione e sistemi giudiziari in lingue che prima erano trascurate dai principali provider tecnologici. Questa prospettiva di inclusione sociale ed efficacia comunicativa alimenta l’interesse delle istituzioni tecnologiche e pubbliche verso modelli di AI linguistica da implementare in modo sovrano, rafforzando la capacità dell’ecosistema indiano di sviluppare e mantenere tecnologie avanzate per la propria popolazione.
La copertura linguistica di Vāķ include 43 lingue appartenenti al gruppo indo-ario come Hindi, Bengali, Marathi, Gujarati e Urdu, sette lingue dravidiche come Telugu, Tamil, Kannada e Malayalam, tre lingue sino-tibetane quali Meitei (Manipuri), Bodo e Garo, una lingua austroasiatica, il Santali, e l’inglese indiano, raggiungendo complessivamente oltre 1,17 miliardi di parlanti nelle popolazioni native. Una tale estensione, combinata alla disponibilità open-weight e alla possibilità di esecuzione locale, fa di Vāķ un’iniziativa tecnologica di rilevanza nazionale e internazionale nello spazio dell’intelligenza artificiale vocale applicata alla traduzione, con potenziali implicazioni su come i sistemi di AI possono gestire la complessità culturale e linguistica in contesti multi-lingui su larga scala.
