CognitiveLab ha recentemente lanciato Ambari, un innovativo Large Language Model (LLM) bilingue Kannada-Inglese open source. Questo progetto mira a superare le difficoltà incontrate nell’evoluzione degli LLM, con un focus particolare sul colmare il divario linguistico tra il Kannada e l’inglese.
Attraverso un post sul loro blog, CognitiveLab fornisce dettagli approfonditi sugli obiettivi di Ambari e sulla metodologia scrupolosa impiegata nella sua realizzazione. Il progetto si concentra sull’importanza di promuovere la flessibilità linguistica negli LLM, spingendo i limiti dell’efficienza attraverso la raccolta e la raffinazione di un dataset consistente in 1 miliardo di token.
Ambari è stato sviluppato attraverso diverse fasi di formazione, che includono la pre-formazione, la previsione/traduzione bilingue dei token successivi, la messa a punto basata su istruzioni e altre tecniche. Una delle caratteristiche chiave del modello è l’efficace tokenizzazione, realizzata con un approccio specializzato che utilizza SentencePiece, per affrontare le sfide del testo in Kannada negli LLM open source.
Il blog sottolinea l’importanza della pre-formazione continua, avvalendosi di un dataset attentamente selezionato di 500 milioni di token. Questo enfatizza l’impegno di CognitiveLab nella condivisione della conoscenza, con la disponibilità di pesi di modello ottimizzati su Hugging Face.
Un elemento cruciale della strategia di addestramento di Ambari è la fase di previsione bilingue del token successivo, ispirata alla serie Hathi. Il post riconosce le difficoltà incontrate nella traduzione e nel perfezionamento, ribadendo l’impegno a migliorare le capacità bilingui di Ambari.
Il blog dettaglia anche la messa a punto del modello, con un adattamento mirato e l’introduzione di una struttura di modello di chat per l’istruzione bilingue. L’ultima fase del processo esamina l’ottimizzazione delle Preferenze Dirette (DPO) attraverso l’utilizzo del dataset Anthropic/hh-rlhf, attualmente in valutazione per il suo impatto sulle prestazioni del modello.
Tra gli apprendimenti e le osservazioni emerse, si annoverano episodi di allucinazioni linguistiche, sfide nella traduzione e questioni legate alla messa a punto completa del modello. Il futuro di Ambari prevede l’aggiunta di Kannada romanizzato, il perfezionamento delle pipeline di dati e l’ampliamento del dataset di addestramento per un apprendimento continuo e un ulteriore miglioramento del modello.
Da segnalare è che Ambari rappresenta il secondo LLM basato sul Kannada. Di recente, la software house Tensoic di Mumbai ha introdotto Kannada Llama, noto anche come Kan-LLaMA [ಕನ್-LLama], un modello Llama-2 da 7B, pre-addestrato e raffinato su token in Kannada.