All’India AI Impact Summit 2026 a Nuova Delhi, l’iniziativa BharatGen ha ulteriormente ampliato la propria proposta tecnologica rilasciando tre nuovi modelli di intelligenza artificiale — Patram, Sooktam e Shrutam — che vanno ad affiancare il modello fondamentale Param-2, parte di una strategia nazionale mirata a sviluppare un ecosistema AI sovrano, multimodale e profondamente radicato nelle esigenze linguistiche e culturali dell’India. Questo programma, guidato da un consorzio di istituzioni accademiche e supportato da investimenti governativi ingenti, si situa all’interno di un più ampio sforzo per ridurre la dipendenza da modelli stranieri, promuovere la sovranità digitale e costruire tecnologie AI adatte all’ecosistema linguistico e socio-culturale del paese.
La presentazione al summit ha messo in evidenza come Shrutam, Sooktam e Patram non siano semplici varianti del modello linguistico di base, ma componenti specializzati che estendono le capacità dell’intero stack BharatGen attraverso la gestione di tre modalità chiave dell’interazione con l’informazione. Shrutam è progettato come un sistema automatic speech recognition (ASR) in grado di trascrivere parlato in testo in numerose lingue indiane, rispondendo alla necessità di rendere accessibili le applicazioni AI anche in contesti dove l’input vocale è la forma dominante di interazione. Questo tipo di modello è particolarmente impegnativo dal punto di vista tecnico perché richiede raccolta, normalizzazione e annotazione di set di dati vocali diversificati per catturare le variazioni di accento, pronuncia e prosodia presenti nelle molteplici comunità linguistiche del paese.
Complementare a Shrutam è Sooktam, che si concentra su text-to-speech (TTS), ovvero la generazione di voce sintetica da testo scritto. Sviluppare un modello TTS di qualità implica affrontare sfide sofisticate di modellazione vocale, tra cui la produzione di intonazione naturale, segmentazione corretta del linguaggio e mantenimento della comprensibilità attraverso lingue con strutture fonetiche e fonologiche molto differenti tra loro. Sooktam è progettato per operare in almeno una dozzina di lingue indiane, con l’obiettivo di fornire output vocali che risultino fluidi e intelligibili per utenti finali in contesti di assistenza vocale, lettura di contenuti o interazione conversazionale.
Patram, a differenza dei modelli orientati esclusivamente a testo o voce, rappresenta un modello di visione-linguaggio per la comprensione di documenti. Questo tipo di architettura combina capacità di analisi visiva con comprensione semantica del testo, rendendo possibile estrarre informazioni strutturate da immagini di documenti, identificare entità importanti, categorizzare contenuti e comprendere relazioni logiche tra sezioni testuali e visive. Le tecnologie vision-language sono tra le più complesse da progettare perché devono integrare due domini di elaborazione dell’informazione – visivo e testuale – in modo coerente, consentendo ad esempio a un sistema di rispondere a domande su contenuti presenti in un documento scansionato o di classificare automaticamente documenti basandosi su criteri semantici avanzati.
Questi tre modelli, insieme a Param-2, illustrano l’approccio multimodale di BharatGen: Param-2 funge da modello di linguaggio fondamentale con 17 miliardi di parametri addestrato su un corpus multilingue che supporta tutte le 22 lingue programmate ufficialmente dallo stato indiano, perseguendo una base di comprensione linguistica cruciale per tutte le altre applicazioni AI. Il modello Param-2 utilizza una architettura di tipo “Mixture of Experts” (MoE) e, secondo chi lo ha sviluppato, non solo gestisce compiti di generazione e comprensione del testo, ma può essere fine-tuned per un ampio spettro di applicazioni settoriali, dalla governance alla salute, passando per l’agricoltura e l’educazione.
Dal punto di vista dell’infrastruttura e del processo di sviluppo, questa suite fa leva sul Bharat Data Sagar, un repository di dati multi-linguistici e multimodali costruito per alimentare l’addestramento di questi sistemi con contenuti rappresentativi dei contesti indiani. La disponibilità di dataset robusti e diversificati è ingrediente fondamentale per realizzare modelli AI che non solo “parlino” le lingue locali, ma che siano anche sensibili alle sfumature culturali, ai significati contestuali specifici e ai bisogni operativi delle comunità utilizzatrici.
La presentazione ufficiale al summit ha sottolineato che lo sviluppo di questi modelli non è solo un esercizio tecnico isolato, ma parte di una politica nazionale di sovranità e inclusione digitale. Le tecnologie integrate in Shrutam, Sooktam e Patram estendono l’utilità di BharatGen oltre il semplice chatbot o strumento di generazione di testo, consentendo interazioni vocali, comprensione di documenti e servizi intelligenti in molteplici lingue, un requisito critico in un paese con centinaia di lingue e dialetti.
Nella visione presentata dai promotori, questa suite di modelli AI aprirà la strada a nuove applicazioni in servizi pubblici, assistenza sanitaria, agricoltura, educazione e automazione documentale, con un’impronta di lungo termine verso l’inclusività tecnologica e la riduzione delle barriere linguistiche nell’adozione dell’intelligenza artificiale a livello nazionale. L’obiettivo, secondo i sostenitori del progetto, è trasformare l’IA da una tecnologia di élite a uno strumento effettivamente fruibile e adattato alle condizioni socio-linguistiche dell’India, segnando un passo avanti significativo nella capacità del paese di sviluppare e governare le proprie soluzioni di intelligenza artificiale.
