Ravi Theja Desetty di LlamaIndex e Ramsri Goutham Golla hanno collaborato per lanciare Telugu LLM Labs, un’iniziativa dedicata al miglioramento del trattamento del linguaggio naturale (NLP) nel telugu. Questa iniziativa mira a offrire un’esperienza arricchita di intelligenza artificiale alla vasta comunità di oltre 100 milioni di parlanti telugu in tutto il mondo, rappresentando un passo significativo nel campo della tecnologia linguistica.
Telugu LLM Labs si impegna principalmente a contribuire a set di dati aperti focalizzati sul telugu, che include sia la scrittura nativa che le versioni romanizzate del linguaggio. Questa iniziativa ha l’obiettivo di condividere i propri esperimenti, compresi modelli e incorporamenti, concentrando gli sforzi sui LLM personalizzati per il telugu.
Uno dei principali contributi di Telugu LLM Labs è il set di dati “uonlp_culturaX_telugu_romanized_100k”, che si concentra sulla versione romanizzata del telugu. Questo set di dati è stato creato considerando l’ampio utilizzo del telugu romanizzato nelle conversazioni online, come su WhatsApp o nei commenti su YouTube. È composto dalle prime 108.000 righe del set di dati “culturaX_telugu” nella versione romanizzata, colmando così una lacuna nei set di dati disponibili per la formazione preliminare dei modelli, in particolare per il telugu romanizzato.
Inoltre, Telugu LLM Labs ha introdotto due set di dati per il telugu (nativo + romanizzato) per il finetuning supervisionato, affrontando la mancanza di set di dati di istruzioni nelle lingue indiane.
Questi set di dati sono accessibili tramite HuggingFace Hub e contengono righe tradotte e traslitterate in telugu, sottoposte a filtraggio mediante sistemi di classificazione NLP per rimuovere contenuti considerati specifici per la lingua inglese o relativi alla codifica.
Telugu LLM Labs è attivamente coinvolto nella messa a punto e nella formazione di modelli open source, tra cui Llama 2, Mistral e TinyLlama, utilizzando i nuovi set di dati di traduzione e traslitterazione telugu appena rilasciati.