DeepSeek ha recentemente introdotto una nuova strategia per migliorare le prestazioni dei modelli di inferenza, sviluppando un innovativo “Modello di Ricompensa” (RM) che ottimizza l’apprendimento tramite rinforzo (RL). Questa nuova tecnologia promette di potenziare l’efficienza del modello “DeepSeek-R2”, che verrà rilasciato a breve, e di migliorare significativamente le capacità di inferenza.

In collaborazione con i ricercatori della Tsinghua University, DeepSec ha pubblicato un articolo dal titolo “Inference-Time Scaling for Generalist Reward Modeling (GRM)” il 4 aprile. L’articolo esplora l’importanza della tecnica di apprendimento rinforzato (RL) nel miglioramento delle prestazioni dei modelli linguistici di grandi dimensioni (LLM), sottolineando la necessità di un modello di ricompensa sofisticato per ottenere risultati ottimali.

Una delle principali scoperte del team di ricerca è che non è necessario un modello di ricompensa con 671 miliardi di parametri per addestrare efficacemente un LLM di pari dimensioni. Invece, utilizzando una potenza di calcolo aggiuntiva e un modello di ricompensa di soli 27 miliardi di parametri, i ricercatori sono riusciti a ottenere risultati comparabili a quelli di un modello di dimensioni molto più grandi. Questo ha dimostrato che la qualità dell’inferenza non dipende solo dalla dimensione dei parametri del modello, ma anche dalla capacità del modello di ricompensa di eseguire valutazioni efficienti.

Per raggiungere questo obiettivo, i ricercatori hanno sviluppato una tecnica chiamata “Self-Principled Critique Tuning” (SPCT), che allena il modello di ricompensa a generare principi personalizzati per ogni attività di valutazione. Successivamente, il modello produce critiche dettagliate basate su questi principi, permettendo a DeepSeek di eseguire valutazioni in parallelo e selezionare le risposte migliori. Questo approccio ha consentito di migliorare la qualità delle risposte generate e ha portato alla creazione del modello di ricompensa “DeepSeek-GRM-27B”.

Il modello DeepSeek-GRM-27B si distingue perché permette di applicare RL a modelli di medie dimensioni, migliorando le prestazioni di inferenza senza la necessità di creare un modello di ricompensa di grandi dimensioni. Questo approccio è anche più efficiente dal punto di vista computazionale, poiché consente di risparmiare risorse, concentrando l’elaborazione sull’inferenza piuttosto che sulla pre-formazione del modello di ricompensa.

I risultati dei benchmark hanno confermato l’efficacia di questo approccio: il punteggio del modello R1 con DeepSeek-GRM applicato è salito da 67 a 72 punti, superando i modelli che utilizzano altri metodi. Questo progresso ha portato i ricercatori a dichiarare che DeepSeek-GRM ha risolto diverse problematiche in alcune attività specifiche, suggerendo che la stessa tecnologia verrà utilizzata nel modello successivo, DeepSeek-R2.

DeepSec ha annunciato che presto rilascerà DeepSeek-GRM come open source, permettendo alla comunità di sfruttare questa innovazione. Con l’industria dell’intelligenza artificiale in fermento, l’atteso rilascio di DeepSeek-R2 è previsto entro una o due settimane. Inoltre, il mese scorso, DeepSeek ha attirato l’attenzione rilasciando una versione aggiornata di “DeepSeek-V3” come open source, con prestazioni paragonabili ai modelli di punta come “GPT-4.5” di OpenAI e “Claude 3.7 Sonnet” di Anthropic.

Con queste novità, DeepSeek sta consolidando il suo ruolo di leader nell’ottimizzazione dei modelli di inferenza, contribuendo significativamente a migliorare le capacità di intelligenza artificiale a livello globale.

Di Fantasy