Abhinand Balachandran, il creatore di Tamil LLaMA, ha recentemente migliorato il suo modello aggiungendo supporto per le lingue Telugu e Malayalam. Queste aggiunte hanno migliorato le prestazioni del modello rispetto a LLaMA 2 di Meta, come dimostrato da vari test di valutazione. Tamil LLaMA, originariamente lanciato su GitHub nel novembre 2023, è stato sviluppato ulteriormente nella versione Tamil LLaMA v0.2, che ora funziona bene sia in inglese che in tamil.
Il team di Abhinand ha ricevuto supporto da JarvisLabs.ai per le risorse GPU, facilitando lo sviluppo dei modelli LLaMA in Telugu e Malayalam. Questi modelli sono ora disponibili su HuggingFace Hub.
Lo sviluppo dei nuovi modelli ha incluso fasi di preformazione, messa a punto e allineamento. La preformazione ha ampliato il vocabolario e migliorato la generazione del linguaggio. La messa a punto ha coinvolto l’addestramento su molte coppie istruzione-risposta. L’allineamento si è concentrato sul garantire risposte preferite dagli umani, usando tecniche come RLHF e DPO.
Ispirato da OpenHathi di Sarvam AI, Abhinand ha seguito un approccio tecnico diverso. Ha apportato miglioramenti al tokenizzatore Tamil LLaMA e ha confrontato le prestazioni con altri LLM in lingue indiane su benchmark in inglese. I nuovi modelli hanno ottenuto valutazioni positive rispetto a LLaMA 2 e OpenHathi.
L’obiettivo era raggiungere o superare le prestazioni in inglese di LLaMA 2, migliorando al contempo le capacità in tamil, telugu e malayalam. Questo ha incluso l’addestramento su un ampio corpus di istruzioni, la creazione di set di dati sintetici per la conoscenza regionale e l’uso del DPO per miglioramenti ulteriori. Il risultato è che Tamil LLaMA v0.2 supera leggermente LLaMA 2 Chat in vari test, mostrando un avanzamento nelle capacità linguistiche.
Il progetto Tamil LLaMA, iniziato nel settembre 2023, mirava a adattare le funzionalità di LLaMA 2 per la lingua tamil. Il suo successo ha portato al rilascio di varianti del modello con parametri 7B e 13B e all’espansione a lingue indiane come hindi, odia e kannada. Il progetto è open source, facilitando la collaborazione e l’adattamento.
In un’intervista con AIM, Balachandran ha condiviso l’ispirazione per il progetto Tamil LLaMA, citando il modello cinese LLaMA Alpaca. Ha spiegato che, vedendo il successo del modello per una lingua complessa come il cinese, è stato motivato a sviluppare qualcosa di simile per le lingue indiane.