Il gigante tecnologico Rakuten ha recentemente reso disponibile la sua suite di Language Model (LLM) in lingua giapponese, denominata RakutenAI-7B, alla comunità open source. La suite include modelli di base, istruzioni e chat, tutti accessibili gratuitamente.
RakutenAI-7B è un modello da 7 miliardi di parametri addestrato su una vasta gamma di dati di testo in inglese e giapponese. I ricercatori hanno dichiarato che il modello è stato sviluppato continuando ad addestrare i pesi di Mistral AI, un modello open source di una startup di intelligenza artificiale con sede in Francia.
Per gestire i caratteri giapponesi, è stata estesa la dimensione del vocabolario del tokeniser da 32.000 a 48.000 token, migliorando le prestazioni rispetto a Mistral 7B-v0.1.
RakutenAI-7B ha ottenuto punteggi medi superiori agli altri modelli di base della lingua giapponese nei benchmark del modello di valutazione della lingua giapponese, con una media di 62,83.
Inoltre, ottimizzando le istruzioni sul modello di base, RakutenAI-7B-instruct ha superato Youri-7B di quasi 2 punti, ottenendo un punteggio medio di 68,74 su Hugging Face, il secondo miglior modello.
Oltre ai modelli di intelligenza artificiale di Rakuten, anche NEC e Mitsui hanno compiuto progressi significativi. NEC ha sviluppato un modello linguistico giapponese da 13 miliardi di parametri con un focus sull’efficienza e sulla profonda comprensione della lingua giapponese. Mitsui, in collaborazione con NVIDIA, ha lanciato Tokyo-1, un supercomputer dedicato all’accelerazione della scoperta di farmaci utilizzando modelli di intelligenza artificiale. Entrambi i modelli sono stati adattati per applicazioni specifiche, con il modello di NEC per scopi generali e Tokyo-1 di Mitsui per l’industria farmaceutica.