La startup cinese DeepSeek ha annunciato il lancio di DeepSeek-R1, un modello di linguaggio di grandi dimensioni (LLM) open-source focalizzato sul ragionamento. Basato sul modello DeepSeek V3, DeepSeek-R1 è progettato per affrontare compiti complessi in matematica, programmazione e ragionamento, offrendo prestazioni paragonabili al modello o1 di OpenAI, ma con un costo significativamente inferiore, riducendo le spese del 90-95%.
DeepSeek-R1 è stato addestrato utilizzando una combinazione di apprendimento supervisionato e apprendimento per rinforzo (RL). Quest’ultimo consente al modello di affinare le proprie strategie di ragionamento, riconoscere e correggere errori e adottare nuovi approcci quando necessario.
Nei test, DeepSeek-R1 ha ottenuto un punteggio del 79,8% negli esami AIME 2024 di matematica e del 97,3% nel MATH-500. Ha inoltre raggiunto un rating di 2.029 su Codeforces, superando il 96,3% dei programmatori umani. In confronto, il modello o1-1217 di OpenAI ha registrato rispettivamente il 79,2%, 96,4% e 96,6% in questi benchmark.
Oltre alle sue capacità di ragionamento, DeepSeek-R1 ha dimostrato una solida conoscenza generale, con un’accuratezza del 90,8% su MMLU, leggermente inferiore al 91,8% di o1. Per facilitare l’accesso e l’adozione, DeepSeek ha reso disponibili DeepSeek-R1 e i modelli distillati su Hugging Face sotto licenza MIT.