KRAFTON ha presentato un nuovo brand di modelli AI denominato “Raon”, accompagnato dal rilascio open source di quattro modelli fondamentali progettati per gestire voce, linguaggio e visione. L’operazione rappresenta un passaggio significativo verso la costruzione di un ecosistema AI proprietario, con l’obiettivo di rafforzare le capacità di sviluppo di modelli multimodali e contribuire alla crescita dell’ecosistema di ricerca.
Il progetto “Raon” nasce come piattaforma di modelli fondazionali sviluppati internamente, con un approccio che copre l’intero ciclo di vita: raccolta dati, addestramento, valutazione e distribuzione. Secondo quanto dichiarato dall’azienda, il rilascio open source dei primi modelli dimostra la capacità tecnica di gestire autonomamente tutte le fasi di sviluppo dei foundation model, un elemento strategico in un mercato dominato da pochi attori globali. L’iniziativa si colloca inoltre in una strategia più ampia che punta a utilizzare l’intelligenza artificiale per ampliare l’esperienza interattiva nei contenuti digitali e nei sistemi conversazionali.
I modelli presentati coprono diverse componenti della multimodalità. Il primo, Raon-Speech, è un modello linguistico esteso alla gestione dell’audio, capace di comprendere e generare contenuti vocali oltre al testo. Il modello conta circa nove miliardi di parametri e, secondo l’azienda, ha raggiunto risultati di vertice tra i modelli open sotto i dieci miliardi di parametri nelle prestazioni bilingue inglese-coreano, valutate su molteplici benchmark e task di riconoscimento e generazione vocale. Questo tipo di architettura mira a integrare in modo nativo le capacità di speech-to-text, text-to-speech e interrogazione vocale, riducendo la necessità di pipeline separate.
Accanto a questo, Raon-SpeechChat introduce una componente di dialogo vocale in tempo reale basata su comunicazione full-duplex, cioè bidirezionale simultanea. Questa caratteristica consente all’utente e al sistema di interrompersi e interagire in modo più naturale, replicando la dinamica delle conversazioni umane. Il modello è stato valutato su benchmark specifici che analizzano tempi di risposta, gestione delle interruzioni e qualità dell’interazione, mostrando prestazioni di alto livello. L’obiettivo è supportare interfacce vocali più naturali, applicabili a assistenti conversazionali avanzati e ambienti interattivi.
Il terzo componente, Raon-OpenTTS, è un modello di sintesi vocale addestrato esclusivamente su dati pubblici. L’azienda ha inoltre reso disponibili dataset e procedure di addestramento, permettendo la riproducibilità del processo. Questo approccio risponde a una crescente richiesta di trasparenza nello sviluppo dei modelli e riduce la dipendenza da dataset proprietari difficili da condividere. Nei test comparativi basati su valutazioni umane, il modello ha mostrato qualità competitiva rispetto ad altri sistemi TTS sviluppati con dati non pubblici.
Completa la serie Raon-VisionEncoder, un modulo dedicato alla comprensione delle immagini. Il modello trasforma contenuti visivi in rappresentazioni compatibili con i modelli linguistici, permettendo la costruzione di sistemi multimodali. Il sistema è stato addestrato interamente su dati pubblici e, in alcune attività di riconoscimento visivo, ha mostrato prestazioni superiori a modelli di riferimento come SigLIP2, mantenendo livelli di performance competitivi anche in altri benchmark. Questo componente è pensato per essere integrato in architetture multimodali che combinano testo, voce e immagini.
L’iniziativa evidenzia una tendenza crescente verso la costruzione di stack multimodali modulari. Invece di sviluppare un singolo modello monolitico, l’azienda ha scelto di rilasciare componenti specializzati che possono essere combinati in pipeline più complesse. Questo approccio favorisce la flessibilità e consente a ricercatori e sviluppatori di adattare i modelli a diversi scenari applicativi, dalle interfacce vocali ai sistemi di analisi visiva.
