Telugu LLM Labs ha recentemente annunciato il lancio di Navarasa 2.0, un modello Gemma 7B/2B ottimizzato per le istruzioni, in grado di elaborare contenuti in 15 lingue indiane, oltre all’inglese. Questa nuova versione rappresenta un notevole progresso rispetto alle precedenti iterazioni, in quanto amplia la capacità generativa del modello per comprendere un vasto spettro di lingue indiane, tra cui marathi, urdu, konkani, assamese, nepalese e sindhi.
Navarasa 2.0 è stato addestrato utilizzando GPU NVIDIA A100 su un singolo con E2E Networks Limited. Il processo di addestramento ha richiesto circa 44 ore per il modello da 7 miliardi e 18 ore per il modello da 2 miliardi. Questo risultato è stato ottenuto attraverso la traduzione di un set di dati filtrato e ripulito dagli alpaca in queste lingue aggiuntive, ampliando così il repertorio linguistico del modello.
Le 15 lingue supportate da Navarasa 2.0 includono hindi, telugu, tamil, kannada, malayalam, marathi, gujarati, bengalese, punjabi, odia, urdu, konkani, assamese, nepalese, sindhi e inglese.
L’introduzione di Telugu LLM Labs è stata un passo significativo nel miglioramento dello spazio di elaborazione del linguaggio naturale (PNL) del Telugu. Ravi Theja Desetty di LlamaIndex e Ramsri Goutham Golla hanno collaborato per avviare Telugu LLM Labs, contribuendo alla crescita del PNL del Telugu.
Inoltre, Telugu LLM Labs si è impegnato nella traduzione del set di dati filtrato e pulito dagli alpaca in altre sei lingue indiane, dando vita alla raccolta Indic Alpaca Datasets. Questo ha permesso di consolidare tutti i set di dati rilevanti in un unico archivio accessibile. Il modello è stato allenato utilizzando circa 630.000 campioni di istruzioni.
Navarasa 2.0 condivide le stesse capacità del suo predecessore, consentendo un’interazione fluida in vari contesti linguistici. Tra le sue caratteristiche più significative vi è la capacità di elaborare istruzioni e input nelle lingue native, rispondere nella stessa lingua e gestire interazioni multilingue che coinvolgono l’inglese.