Il team Qwen di Alibaba ha annunciato il rilascio di Qwen2, una versione avanzata del loro precedente modello LLM, Qwen1.5, segnando un notevole passo avanti nell’intelligenza artificiale open source.
Qwen2 introduce cinque nuovi modelli ottimizzati per ottenere prestazioni all’avanguardia in una serie di benchmark. Questi modelli offrono miglioramenti sostanziali, inclusa una formazione su dati di 27 lingue aggiuntive oltre all’inglese e al cinese, come hindi, bengalese e urdu. Questo amplia le capacità di Qwen2 in contesti linguistici diversi, affrontando sfide come il code-switching con maggiore competenza.
Inoltre, Qwen2 eccelle nella codifica e nella matematica, mostrando notevoli miglioramenti in queste aree. Un’altra caratteristica distintiva è il supporto esteso per la lunghezza del contesto, con alcuni modelli in grado di gestire fino a 128.000 token, rendendoli particolarmente adatti per l’elaborazione di lunghe sequenze di testo.
La versione di Qwen2 include anche miglioramenti tecnici come Group Query Attention (GQA) per una maggiore velocità e una minore utilizzazione della memoria, oltre a incorporamenti ottimizzati per modelli più piccoli.
Le valutazioni delle prestazioni mostrano che il modello più grande della serie, Qwen2-72B, supera i principali concorrenti come Llama-3-70B nella comprensione del linguaggio naturale, nella codifica, nelle abilità matematiche e multilingue.
La sicurezza e la responsabilità sono una priorità, con il modello Qwen2-72B-Instruct che offre prestazioni paragonabili a GPT-4 in termini di sicurezza in varie categorie di query dannose.
I modelli Qwen2, rilasciati con licenze Apache 2.0 e Qianwen, mirano ad accelerare l’applicazione e l’uso commerciale delle tecnologie AI in tutto il mondo. I piani futuri includono la formazione di modelli più grandi e l’estensione di Qwen2 a capacità multimodali, integrando visione e comprensione dell’audio.