I ricercatori di ByteDance e dell’Università di Tsinghua hanno pubblicato un nuovo approccio di apprendimento per rinforzo (RL), denominato DAPO (Decoupled Clip and Dynamic Sampling Policy Optimisation). Questo metodo promette di migliorare significativamente la capacità di inferenza dei modelli linguistici di grandi dimensioni (LLM), rispetto a precedenti tecniche come il “DeepSeek-R1”. DAPO è stato progettato per affrontare le sfide legate all’esecuzione di inferenze complesse, come l’autoverifica e il raffinamento iterativo, in modo più efficace.

L’algoritmo DAPO si basa su un’ottimizzazione della tecnica RL “Group Relative Policy Optimization” (GRPO), migliorandola per supportare il miglioramento delle prestazioni nell’elaborazione delle informazioni. A differenza delle soluzioni tradizionali che utilizzano un clipping standard per limitare i cambiamenti troppo rapidi nei valori, DAPO introduce limiti separati superiori e inferiori per favorire una maggiore diversità nelle risposte generate dai modelli.

Un’altra innovazione chiave di DAPO è la gestione più efficiente delle risorse computazionali. Molti approcci di RL tradizionali tendono a sprecare risorse in attività non rilevanti. DAPO affronta questo problema filtrando i prompt inefficaci, ottimizzando così i tempi di addestramento e accelerando il processo di apprendimento. Inoltre, DAPO assegna un “gradiente” a ciascun token durante l’elaborazione delle risposte, migliorando l’efficacia del modello nel gestire compiti complessi che richiedono diverse fasi di ragionamento.

Il modello QONE2.5-32B di Alibaba ha dimostrato di superare il DeepSeek-R1 nei benchmark, ottenendo 50 punti nel test “AIME 2024”, un miglioramento significativo rispetto ai 47 punti ottenuti con il metodo precedente. Questo progresso è stato accolto positivamente dalla comunità scientifica, che ha apprezzato la trasparenza e l’accesso open-source alle tecniche utilizzate in DAPO.

Di Fantasy