Qualche settimana fa Tech Mahindra ha annunciato il lancio del Progetto Indus, un modello fondamentale per le lingue indiane basato sull’India, che potrebbe diventare il progetto più significativo mai realizzato dall’azienda. Sebbene i modelli linguistici di grandi dimensioni (LLM) come i modelli GPT di OpenAI abbiano capacità multilingue, sono stati principalmente addestrati su dati in lingua inglese, limitando la loro competenza nella comprensione e generazione di contenuti nelle lingue indiane. Pertanto, un LLM indiano open source avrebbe un enorme valore per l’India.
Secondo CP Gurnani, il CEO di Tech Mahindra, il modello sarà il più grande LLM indiano e potrebbe servire il 25% della popolazione mondiale. Anche se i dettagli sui costi e sulla data di lancio non sono stati rivelati, l’obiettivo è creare un modello iniziale con 7 miliardi di parametri. Nikhil Malhotra, responsabile globale del Makers Lab di Tech Mahindra, ha spiegato che il modello supporterà inizialmente 40 dialetti hindi diversi e si prevede che verranno aggiunte ulteriori lingue e dialetti in futuro.
Il principale obiettivo di Tech Mahindra è sviluppare prima un LLM per il completamento del testo e poi per la generazione di dialoghi. Una volta confermata l’efficacia del modello, verrà rilasciato come open source. Uno sviluppo simile può essere di grande vantaggio per l’India per diversi motivi. La comprensione delle sfumature culturali e contestuali è essenziale per una comunicazione efficace, e un LLM indiano potrebbe prioritizzare la sensibilità culturale, rispettando usanze e norme locali. Inoltre, un tale modello potrebbe democratizzare l’uso dell’intelligenza artificiale per un pubblico più ampio di persone non anglofone nel paese.
Un LLM offre versatilità poiché può svolgere diverse attività, come rispondere a domande, completare testi, ecc., utilizzando lo stesso modello. Questo approccio può essere utile in settori come la sanità, il commercio al dettaglio e il turismo. Un vantaggio chiave di un LLM indiano è anche la sua convenienza in termini di costo dei token, risolvendo la sfida dei costi elevati per le lingue indiane nei modelli GPT in lingua inglese.
L’efficacia di un modello di intelligenza artificiale dipende dalla qualità dei dati di addestramento. Mentre ci sono ampi dati in inglese, mancano dati sufficienti per le lingue e i dialetti indiani. Questa carenza sta spingendo varie parti interessate, compreso il governo indiano, a creare set di dati appropriati. Il progetto Bhashini, lanciato dal primo ministro Narendra Modi, mira a sviluppare tecnologie di traduzione e a raccogliere dati vocali in lingue indiane per migliorare i servizi digitali locali.
L’azienda sta collaborando con diverse istituzioni educative e altre parti interessate per raccogliere dati per il Progetto Indus. Tech Mahindra sta sfruttando diverse fonti, tra cui Common Crawl, giornali, Wikipedia e descrizioni di YouTube. Tuttavia, è importante affrontare i pregiudizi nei dati di addestramento per evitare che si riflettano nei modelli. L’azienda sta implementando misure per pulire i dati e prevenire pregiudizi razziali, etnici o di genere.
In sintesi, il Progetto Indus di Tech Mahindra rappresenta un passo significativo per sviluppare un modello linguistico indiano che possa contribuire alla comunicazione efficace, alla sensibilità culturale e all’accessibilità dell’intelligenza artificiale per le lingue indiane. Affrontando sfide come la raccolta di dati, l’azienda mira a realizzare un LLM che possa avere un impatto positivo su una vasta gamma di settori e sulla società nel suo complesso.