Sarvam AI, una startup indiana specializzata in intelligenza artificiale, ha recentemente annunciato il lancio di Sarvam-1, un modello linguistico di grandi dimensioni (LLM) ottimizzato per le lingue indiane. Questo modello, sviluppato con 2 miliardi di parametri, supporta dieci principali lingue indiane: bengalese, gujarati, hindi, kannada, malayalam, marathi, oriya, punjabi, tamil e telugu, oltre all’inglese. Sarvam-1 rappresenta un importante passo avanti nell’elaborazione del linguaggio naturale (NLP) per le lingue indiane, superando modelli più grandi come Gemma-2 e Llama-3.2 in benchmark rilevanti come MMLU, ARC-Challenge e IndicGenBench.
Nonostante le sue dimensioni relativamente più ridotte, Sarvam-1 si distingue per le sue prestazioni nei compiti in lingua indiana. Nei test di benchmarking, ha dimostrato una velocità di inferenza da quattro a sei volte più rapida rispetto ai modelli più grandi, rendendolo ideale per l’implementazione su dispositivi edge. Ad esempio, nel benchmark TriviaQA, Sarvam-1 ha raggiunto un’accuratezza di 86,11% in tutte le lingue indiane, superando significativamente il punteggio di 61,47 ottenuto da Llama-3.1 8B.
Un aspetto chiave di Sarvam-1 è la sua efficienza nella gestione delle scritture indiane. La maggior parte dei modelli multilingue richiede più token per rappresentare una parola nelle lingue indiane rispetto all’inglese, una sfida nota come “elevata fertilità di token”. Sarvam-1 riesce a ridurre significativamente questa inefficienza, ottenendo un tasso di fertilità di 1,4-2,1 token per parola, molto più vicino ai 1,4 token necessari per l’inglese, migliorando così le prestazioni del modello in queste lingue.
Sarvam-1 è stato addestrato utilizzando il corpus di dati Sarvam-2T, composto da circa 2 trilioni di token, con un’ampia rappresentazione delle lingue indiane e dell’inglese, oltre a linguaggi di programmazione. Questo dataset è stato progettato per affrontare le limitazioni dei dataset esistenti, spesso scarsi in termini di qualità e diversità, includendo contenuti più lunghi e tecnici per migliorare le capacità del modello nelle attività di ragionamento complesso.
Un’altra caratteristica fondamentale di Sarvam-1 è la sua efficienza computazionale. Il modello è stato addestrato nell’arco di cinque giorni utilizzando 1.024 GPU sul cluster Shakti di Yotta, sfruttando il framework NeMo di NVIDIA per ottimizzare l’addestramento. Questa infrastruttura avanzata ha permesso di ottenere un modello ad alte prestazioni con una capacità di inferenza rapida, mantenendo però un’efficienza computazionale adatta anche a contesti di produzione su dispositivi con risorse limitate.
Sarvam-1 è disponibile per il download sull’hub di modelli Hugging Face, dove gli sviluppatori possono esplorarne le funzionalità per una vasta gamma di applicazioni, dalla traduzione all’intelligenza artificiale conversazionale. Questo modello rappresenta un passo importante verso la democratizzazione dell’accesso alle tecnologie di intelligenza artificiale per le lingue indiane, fornendo funzionalità avanzate di NLP in un contesto che storicamente si è concentrato principalmente sull’inglese e su altre lingue ad alto contenuto di risorse.
Con il lancio di Sarvam-1, Sarvam AI mira a colmare il divario per i parlanti delle lingue indiane, offrendo strumenti più efficienti e adattati alle necessità locali, contribuendo al progresso dell’intelligenza artificiale nei contesti multilingue e valorizzando la diversità linguistica dell’India.