Kakao ha annunciato il rilascio open source di due modelli linguistici avanzati: Kanana-1.5-v-3b, un modello linguistico multimodale compatto, e Kanana-1.5-15.7b-a3b, un modello basato sull’architettura Mixture of Experts (MoE). Questi modelli rappresentano un passo significativo nell’evoluzione dell’intelligenza artificiale, combinando prestazioni elevate con efficienza computazionale e accessibilità.

Kanana-1.5-v-3b è un modello linguistico multimodale da 3,6 miliardi di parametri, progettato per comprendere e generare testo a partire da input sia testuali che visivi. Questo modello è stato sviluppato utilizzando tecniche avanzate come l’apprendimento adattivo alle preferenze umane (HPAT) e la distillazione della conoscenza, garantendo prestazioni elevate in compiti di comprensione e generazione multimodale.

Rispetto ad altri modelli simili, Kanana-1.5-v-3b ha mostrato superiorità in vari benchmark, tra cui:

  • MIA-Bench: Eccelle nelle capacità di ragionamento multimodale.
  • MM-IFEval: Mostra elevate capacità di esecuzione delle istruzioni multimodali.
  • MM-OmniAlign: Ottiene punteggi elevati nella preferenza umana multimodale.
  • KoOCRBench: Riconosce caratteri coreani con una precisione superiore rispetto a modelli concorrenti.

Queste prestazioni sono particolarmente significative in contesti di servizio reali, dove la comprensione accurata delle immagini e dei testi è cruciale.

Il modello Kanana-1.5-15.7b-a3b adotta l’architettura Mixture of Experts (MoE), che consente di attivare solo una parte dei parametri durante l’inferenza, migliorando l’efficienza computazionale. Con un totale di 15,7 miliardi di parametri, il modello attiva solo circa 3 miliardi durante l’elaborazione, riducendo significativamente i costi computazionali.

Nonostante l’efficienza, le prestazioni di Kanana-1.5-15.7b-a3b sono comparabili a quelle di modelli più grandi, come Kanana-1.5-8B. Questo risultato è stato ottenuto attraverso l’uso di tecniche avanzate di post-addestramento, tra cui la distillazione on-policy e l’apprendimento per rinforzo, che hanno ottimizzato ulteriormente le capacità del modello.

Il rilascio open source di questi modelli da parte di Kakao rappresenta un passo importante verso la democratizzazione dell’intelligenza artificiale. Fornendo accesso gratuito a modelli avanzati, Kakao consente a sviluppatori, ricercatori e aziende di integrare facilmente l’IA nelle loro applicazioni e servizi.

Inoltre, l’adozione di architetture efficienti come MoE permette di ridurre i costi associati all’addestramento e all’inferenza, rendendo l’IA più accessibile anche a realtà con risorse limitate. Questa strategia supporta l’obiettivo di Kakao di contribuire all’indipendenza tecnologica e alla competitività dell’ecosistema IA nazionale.

Di Fantasy