Tencent ha recentemente presentato Hunyuan-Large, un modello di intelligenza artificiale open-source con 389 miliardi di parametri, di cui 52 miliardi attivi. Questo modello supporta una lunghezza di contesto di 256.000 token, posizionandosi come uno dei più avanzati nella sua categoria. In confronto, i modelli Llama 3.1 da 70B e 405B supportano una lunghezza di contesto di 128.000 token.
Hunyuan-Large ha dimostrato prestazioni superiori rispetto al modello Llama 3.1 da 70B in vari benchmark sia in inglese che in cinese. Le sue capacità sono paragonabili a quelle del modello di punta Llama 3.1 da 405B in compiti che includono comprensione del linguaggio, codifica, matematica e ragionamento logico.
A differenza del modello Llama 3.1 da 405B, Hunyuan-Large non è un modello “denso”; utilizza una tecnica chiamata Mixture of Experts (MoE), attivando solo un sottoinsieme di parametri in base all’input. Questo approccio migliora l’efficienza, poiché utilizza solo una parte della capacità del modello per ogni input. Inoltre, Hunyuan-Large è stato addestrato su 1,5 trilioni di token di dati sintetici di alta qualità, parte dei 7 trilioni di parametri su cui è stato formato. Sono state implementate diverse tecniche per ridurre l’uso della memoria, aumentare le prestazioni e bilanciare l’uso dei token.
Il lancio di Hunyuan-Large rappresenta un passo significativo per Tencent nel campo dell’intelligenza artificiale, offrendo una potente alternativa open-source ai modelli esistenti. Questo sviluppo potrebbe stimolare ulteriori dibattiti e ricerche su tecniche promettenti per i modelli di linguaggio di grandi dimensioni, contribuendo al progresso verso un’intelligenza artificiale generale più utile in futuro.