Tamil LLaMA v0.2 per l’IA Multilingue

DiFantasy

Gen 23, 2024

Abhinand Balachandran, il creatore di Tamil LLaMA, ha recentemente migliorato il suo modello aggiungendo supporto per le lingue Telugu e Malayalam. Queste aggiunte hanno migliorato le prestazioni del modello rispetto a LLaMA 2 di Meta, come dimostrato da vari test di valutazione. Tamil LLaMA, originariamente lanciato su GitHub nel novembre 2023, è stato sviluppato ulteriormente nella versione Tamil LLaMA v0.2, che ora funziona bene sia in inglese che in tamil.

Il team di Abhinand ha ricevuto supporto da JarvisLabs.ai per le risorse GPU, facilitando lo sviluppo dei modelli LLaMA in Telugu e Malayalam. Questi modelli sono ora disponibili su HuggingFace Hub.

Lo sviluppo dei nuovi modelli ha incluso fasi di preformazione, messa a punto e allineamento. La preformazione ha ampliato il vocabolario e migliorato la generazione del linguaggio. La messa a punto ha coinvolto l’addestramento su molte coppie istruzione-risposta. L’allineamento si è concentrato sul garantire risposte preferite dagli umani, usando tecniche come RLHF e DPO.

Ispirato da OpenHathi di Sarvam AI, Abhinand ha seguito un approccio tecnico diverso. Ha apportato miglioramenti al tokenizzatore Tamil LLaMA e ha confrontato le prestazioni con altri LLM in lingue indiane su benchmark in inglese. I nuovi modelli hanno ottenuto valutazioni positive rispetto a LLaMA 2 e OpenHathi.

L’obiettivo era raggiungere o superare le prestazioni in inglese di LLaMA 2, migliorando al contempo le capacità in tamil, telugu e malayalam. Questo ha incluso l’addestramento su un ampio corpus di istruzioni, la creazione di set di dati sintetici per la conoscenza regionale e l’uso del DPO per miglioramenti ulteriori. Il risultato è che Tamil LLaMA v0.2 supera leggermente LLaMA 2 Chat in vari test, mostrando un avanzamento nelle capacità linguistiche.

Il progetto Tamil LLaMA, iniziato nel settembre 2023, mirava a adattare le funzionalità di LLaMA 2 per la lingua tamil. Il suo successo ha portato al rilascio di varianti del modello con parametri 7B e 13B e all’espansione a lingue indiane come hindi, odia e kannada. Il progetto è open source, facilitando la collaborazione e l’adattamento.

In un’intervista con AIM, Balachandran ha condiviso l’ispirazione per il progetto Tamil LLaMA, citando il modello cinese LLaMA Alpaca. Ha spiegato che, vedendo il successo del modello per una lingua complessa come il cinese, è stato motivato a sviluppare qualcosa di simile per le lingue indiane.

Tamil LLaMA v0.2 per l’IA Multilingue

DiFantasy

Di Fantasy

Articoli correlati

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3