Immagine AI

Kakao ha annunciato il rilascio open source della versione aggiornata del proprio modello linguistico su larga scala Kanana-2, rendendolo disponibile sulla piattaforma Hugging Face. La notizia segna un passaggio importante non solo per l’ecosistema tecnologico coreano, ma anche per la comunità globale di sviluppatori e ricercatori che guardano con crescente interesse ai modelli open source come alternativa concreta ai grandi LLM proprietari.

La nuova release coinvolge l’intera famiglia Kanana-2, che comprende le versioni Base, Instruct e Thinking già pubblicate il mese precedente, ora aggiornate, a cui si aggiunge anche un nuovo modello Mid-training. L’obiettivo dichiarato di Kakao è quello di migliorare l’efficienza computazionale e la stabilità dell’apprendimento, rendendo questi modelli più accessibili e più adatti a essere utilizzati in contesti applicativi reali, senza la necessità di infrastrutture estremamente costose.

Uno degli aspetti più rilevanti dell’aggiornamento è l’adozione di un’architettura Mixed-Experts, o MoE. Sebbene Kanana-2 presenti un totale di 32 miliardi di parametri, durante la fase di inferenza ne vengono attivati solo 3 miliardi. Questo approccio consente di ridurre in modo significativo i costi computazionali, permettendo al modello di funzionare in maniera efficiente anche su GPU di fascia alta ma diffuse, come le A100. In pratica, Kakao ha puntato su un equilibrio tra potenza e sostenibilità, cercando di superare la logica secondo cui prestazioni elevate richiedono necessariamente un utilizzo massiccio e continuo di risorse hardware.

Accanto all’architettura, è stato profondamente rivisto anche il processo di addestramento. Kakao ha introdotto una fase intermedia di mid-training tra il pre-training e il post-training, con l’obiettivo di consolidare le conoscenze apprese e ridurre il rischio di “catastrophic forgetting”, un problema noto nei modelli linguistici quando vengono esposti a nuovi dati. A questo si affianca l’uso di una tecnica di replay, che consente al modello di mantenere in modo più stabile le informazioni già acquisite mentre incorpora nuove competenze. Questo tipo di approccio indica una crescente maturità nella progettazione dei pipeline di addestramento, sempre più orientati alla continuità e alla robustezza del sapere del modello.

Un altro elemento centrale dell’annuncio riguarda il rafforzamento delle capacità agentive di Kanana-2. Kakao ha dichiarato di aver implementato un ambiente di intelligenza artificiale in grado di eseguire compiti concreti, migliorando aspetti chiave come la chiamata di strumenti in più turni, la precisione nell’esecuzione delle istruzioni e, in particolare, la competenza linguistica in coreano. Questo punto è strategico, perché evidenzia la volontà di sviluppare modelli fortemente radicati nella lingua e nel contesto culturale locale, senza rinunciare a una competitività internazionale.

Dal punto di vista delle prestazioni, Kakao ha comunicato che Kanana-2 ha mostrato risultati superiori rispetto a modelli della stessa classe, come Qwen-30B-A3B-Instruct-2507, confermando la validità delle scelte architetturali e di addestramento adottate. Questi risultati rafforzano l’idea che l’efficienza non sia necessariamente in contrasto con la qualità, ma possa anzi diventare un fattore distintivo in un panorama sempre più affollato di modelli di grandi dimensioni.

L’azienda ha inoltre condiviso alcuni dati preliminari su un modello ancora in fase di sviluppo, Kanana-2-155B-A17B, con 155 miliardi di parametri. Nonostante sia stato addestrato utilizzando solo il 40% dei dati impiegati per il modello GLM-4.5-Air-Base di Zhipu AI, questo sistema ha già raggiunto prestazioni comparabili o superiori in diversi benchmark, tra cui le risposte a domande in coreano, i test matematici MATH e la valutazione delle competenze linguistiche complete MMLU. Questi risultati suggeriscono che Kakao stia lavorando su strategie di addestramento sempre più mirate, capaci di massimizzare il valore dei dati disponibili.

Kim Byeong-hak, responsabile delle prestazioni di Kakao Kanana, ha sottolineato come il valore principale di questa release open source risieda nella possibilità, per chiunque, di implementare un’AI agentiva pratica ed efficiente senza dover disporre di infrastrutture costose. È una dichiarazione che riflette una visione precisa: rendere l’intelligenza artificiale avanzata non solo più potente, ma anche più democratica e utilizzabile in contesti reali, industriali e di ricerca.

Di Fantasy