Nel panorama in continua evoluzione dell’intelligenza artificiale, Alibaba Cloud ha recentemente introdotto la serie Qwen2.5, un insieme di modelli avanzati progettati per rivoluzionare il mondo del coding. Questa nuova famiglia di modelli, denominata Qwen2.5-Coder, rappresenta un significativo avanzamento rispetto al precedente CodeQwen1.5, offrendo strumenti potenti e versatili per sviluppatori e aziende.
La serie Qwen2.5-Coder si distingue per la sua architettura diversificata, comprendente sei modelli con dimensioni variabili: 0,5 miliardi, 1,5 miliardi, 3 miliardi, 7 miliardi, 14 miliardi e 32 miliardi di parametri. Questa varietà consente agli utenti di scegliere il modello più adatto alle proprie esigenze specifiche, bilanciando potenza computazionale e requisiti di memoria.
Per garantire prestazioni ottimali, il team di Qwen ha sviluppato un dataset denominato Qwen2.5-Coder-Data, che include cinque tipologie principali di dati: codice sorgente, dati di grounding testo-codice, dati sintetici, dati matematici e dati testuali. Questa vasta raccolta di informazioni permette ai modelli di apprendere in modo approfondito e diversificato, migliorando la loro capacità di generare e comprendere codice.
Dopo una fase iniziale di pre-training a livello di file, i modelli sono stati sottoposti a un pre-training a livello di repository, estendendo la lunghezza del contesto da 8.192 a 32.768 token. Questo ampliamento consente ai modelli di gestire contesti più lunghi e complessi, migliorando la coerenza e la precisione nella generazione del codice.
Il modello di punta della serie, Qwen2.5-Coder-32B-Instruct, ha stabilito nuovi standard nel campo dei modelli open-source per il coding. Ha dimostrato prestazioni paragonabili a GPT-4o in benchmark come EvalPlus, LiveCodeBench e BigCodeBench, evidenziando la sua capacità di generare codice di alta qualità.
Oltre alla generazione di codice, Qwen2.5-Coder-32B-Instruct eccelle nella riparazione del codice, aiutando gli sviluppatori a identificare e correggere errori in modo efficiente. Nel benchmark Aider, ha raggiunto un punteggio di 73,7, comparabile a quello di GPT-4o. Inoltre, supporta oltre 40 linguaggi di programmazione, ottenendo un punteggio di 65,9 nel benchmark McEval e distinguendosi nei compiti di riparazione del codice con un punteggio di 75,2 nel benchmark MdEval.
Per valutare quanto Qwen2.5-Coder-32B-Instruct sia in linea con le preferenze umane nel coding, è stato condotto un test denominato Code Arena. Confrontando direttamente le prestazioni del modello con quelle di GPT-4o, i risultati hanno mostrato che Qwen2.5-Coder-32B-Instruct è fortemente allineato con le aspettative e le preferenze degli sviluppatori, offrendo soluzioni che rispecchiano le migliori pratiche nel coding.
Nonostante l’ampia diffusione degli assistenti per il coding, molti di essi si basano ancora su modelli closed-source. Alibaba e il team di Qwen mirano a integrare Qwen2.5-Coder con Cursor, una piattaforma di sviluppo che facilita la scrittura e la revisione del codice. Questa collaborazione promette di offrire agli sviluppatori strumenti più aperti e flessibili, promuovendo l’innovazione e la collaborazione nella comunità del software.