I ricercatori di Together AI e Agentica hanno presentato DeepCoder-14B, un modello di codifica che offre prestazioni eccezionali con soli 14 miliardi di parametri, posizionandosi tra i più performanti nel suo settore. Questo risultato è particolarmente significativo considerando che modelli simili, come o3-mini di OpenAI, richiedono un numero significativamente maggiore di parametri per ottenere performance comparabili.
DeepCoder-14B ha dimostrato un’eccellente capacità di risolvere compiti complessi in vari benchmark di programmazione, tra cui LiveCodeBench (LCB), Codeforces e HumanEval+. Nonostante le sue dimensioni contenute, il modello ha raggiunto un punteggio del 73,8% nel benchmark AIME 2024, segnando un miglioramento del 4,1% rispetto al suo predecessore, DeepSeek-R1-Distill-Qwen-14B. Questo suggerisce che le competenze di ragionamento sviluppate attraverso l’apprendimento per rinforzo (RL) nel dominio della programmazione possono essere efficacemente generalizzate ad altri ambiti.
La creazione di DeepCoder-14B ha affrontato e superato diverse sfide tecniche. Una delle principali difficoltà è stata la curazione dei dati di addestramento. A differenza di altri domini come la matematica, dove i dati verificabili sono facilmente reperibili, il dominio della programmazione presenta una scarsità relativa di tali dati. Per ovviare a questo problema, il team ha implementato una pipeline rigorosa che raccoglie esempi da diversi set di dati, filtrandoli per validità, complessità e duplicazione, ottenendo così 24.000 problemi di alta qualità per un addestramento efficace.
Inoltre, è stata progettata una funzione di ricompensa semplice ma efficace, che fornisce un segnale positivo solo se il codice generato supera tutti i test unitari campionati per il problema entro un limite di tempo specifico. Questo sistema orientato al risultato impedisce al modello di apprendere trucchi come stampare risposte memorizzate per test pubblici o ottimizzare per casi limite semplici senza risolvere il problema centrale.
L’addestramento di modelli di grandi dimensioni con RL, specialmente per compiti che richiedono sequenze lunghe come la programmazione o il ragionamento complesso, è intensivo dal punto di vista computazionale e lento. Un collo di bottiglia significativo è rappresentato dalla fase di “sampling”, in cui il modello genera potenzialmente migliaia di token per esempio nel batch. Le variazioni nella lunghezza delle risposte significano che alcune risposte terminano molto più tardi di altre, lasciando le GPU inattive e rallentando l’intero ciclo di addestramento.
Per accelerare questo processo, il team ha sviluppato verl-pipeline, un’estensione ottimizzata della libreria open-source verl per l’apprendimento per rinforzo da feedback umano (RLHF). L’innovazione chiave, denominata “One-Off Pipelining”, riorganizza il campionamento delle risposte e gli aggiornamenti del modello per ridurre i colli di bottiglia e il tempo di inattività degli acceleratori. Gli esperimenti hanno mostrato che questa tecnica ha fornito un aumento fino al 2x della velocità per i compiti di RL nella programmazione rispetto alle implementazioni di base. Questa ottimizzazione è stata cruciale per addestrare DeepCoder in un lasso di tempo ragionevole (2,5 settimane su 32 H100) ed è ora open-source come parte di verl-pipeline per la comunità.
Tutti gli artefatti per l’addestramento e l’esecuzione di DeepCoder-14B sono disponibili su GitHub e Hugging Face con una licenza permissiva. Condividendo completamente il dataset, il codice e la ricetta di addestramento, i ricercatori offrono alla comunità la possibilità di riprodurre il loro lavoro e rendere l’addestramento RL accessibile a tutti.
DeepCoder-14B rappresenta un esempio potente di una tendenza più ampia nell’ecosistema dell’IA: l’emergere di modelli altamente capaci, efficienti e accessibili in modo aperto. Per il mondo dell’impresa, questo cambiamento significa più opzioni e maggiore accessibilità a modelli avanzati. Le prestazioni all’avanguardia non sono più dominio esclusivo dei grandi fornitori di servizi cloud o di chi è disposto a pagare tariffe premium per le API. Modelli come DeepCoder possono consentire alle organizzazioni di tutte le dimensioni di sfruttare la generazione di codice sofisticata e il ragionamento, personalizzare soluzioni per le loro esigenze specifiche e distribuirle in modo sicuro all’interno dei loro ambienti.