Il 4 luglio, KT, guidata dal CEO Kim Young-seop, ha comunicato tramite la piattaforma Hugging Face l’intenzione di rendere open source il suo modello linguistico di grandi dimensioni (Large Language Model, LLM) chiamato “Believe:um 2.0”. Questo nuovo modello rappresenta un’evoluzione rispetto alla versione 1.0, già pubblicata nel 2023.
Per quest’anno, KT prevede di lanciare due varianti del modello: una versione Base e una versione Mini. Il modello Base, progettato per un’ampia gamma di servizi, supporta sia l’inglese che il coreano ed è composto da 11,5 miliardi di parametri, garantendo così una capacità di elaborazione e comprensione del linguaggio molto sofisticata. La versione Mini, invece, è una derivazione più compatta del modello Base, con 2,3 miliardi di parametri, pensata per l’utilizzo diretto sui dispositivi (on-device), offrendo così maggiore efficienza e flessibilità.
Un aspetto particolarmente rilevante di “Believe:um 2.0” è l’utilizzo di dati di altissima qualità in lingua coreana, rigorosamente protetti da copyright. Per costruire il modello, KT ha raccolto dati specifici provenienti da numerosi settori rilevanti per la Corea, inclusi testi scolastici, opere letterarie nazionali, pubblicazioni scientifiche, documenti legali e brevettuali, oltre a diversi dizionari. L’azienda ha sottolineato il suo impegno nell’aderire ai principi di “IA responsabile”, dedicandosi con cura alla selezione e alla pulizia dei dati, eliminando qualsiasi contenuto che potesse presentare problemi di copyright o di altra natura.
Inoltre, KT ha sviluppato un tokenizzatore proprietario, uno strumento che suddivide il testo in unità di significato, appositamente progettato per riflettere le peculiarità linguistiche e strutturali della lingua coreana. Per ottimizzare ulteriormente le prestazioni del modello, è stata applicata una metodologia di sintesi e filtraggio dei dati, che ha permesso di ridurre la dimensione complessiva del dataset mantenendo però un’elevata qualità informativa.
Parallelamente a questo progetto, KT ha annunciato anche il rilascio di un altro modello sviluppato in collaborazione con Microsoft. Questo nuovo modello si basa su GPT-4 e incorpora un “ulteriore apprendimento del pensiero coreano”, suggerendo una personalizzazione che integra caratteristiche culturali e linguistiche specifiche della Corea.