Un gruppo di ricercatori in Giappone ha recentemente sviluppato Fugaku-LLM, un enorme modello linguistico con funzionalità avanzate per la lingua giapponese. Hanno utilizzato il supercomputer RIKEN Fugaku per questo progetto ambizioso. Il team è composto da esperti provenienti da istituzioni accademiche come il Tokyo Institute of Technology e la Tohoku University, oltre a professionisti dell’industria di aziende come Fujitsu, CyberAgent e Kotoba Technologies. Questo progetto è stato reso possibile grazie al sostegno della proposta di Fugaku per lo sviluppo di modelli linguistici di grandi dimensioni.
Per addestrare un modello così grande, i ricercatori hanno dovuto sviluppare metodi di formazione distribuiti e ottimizzare le prestazioni del supercomputer per gestire al meglio i complessi calcoli richiesti. Il risultato è Fugaku-LLM, un modello con ben 13 miliardi di parametri, più grande di molti altri modelli già sviluppati in Giappone. Questo modello ha dimostrato eccezionali capacità linguistiche, con un punteggio medio di 5,5 sul MT-Bench giapponese, il più alto tra i modelli disponibili. In particolare, ha ottenuto un impressionante punteggio di 9,18 nei compiti delle scienze umane e sociali.
Fugaku-LLM è stato addestrato utilizzando una vasta quantità di dati giapponesi, oltre a dati in altre lingue come l’inglese. Il codice sorgente del modello è disponibile pubblicamente su GitHub, mentre il modello stesso può essere trovato su Hugging Face. È importante notare che Fugaku-LLM può essere utilizzato per scopi commerciali e di ricerca, ma è necessario rispettare la licenza.
Questo progetto non è solo un risultato impressionante di ricerca, ma anche un importante passo avanti per il Giappone nel campo dell’intelligenza artificiale. Utilizzando la potenza computazionale di Fugaku, il modello dimostra che è possibile addestrare modelli linguistici di grandi dimensioni utilizzando CPU anziché GPU, aprendo nuove possibilità per la ricerca nel campo dell’IA.
Il successo di Fugaku-LLM è il risultato della collaborazione tra diverse istituzioni e aziende, ognuna con il proprio ruolo nella ricerca e nello sviluppo del modello. Oltre a migliorare la ricerca e l’innovazione nel campo dell’IA, questo progetto dimostra l’importanza della cooperazione tra settori pubblici e privati per il progresso scientifico.