Il lancio di DeepSeek R1 lunedì ha suscitato scalpore nella comunità AI, mettendo in discussione ciò che è necessario per ottenere prestazioni di punta. Con prestazioni simili a quelle del modello OpenAI o1, ma con solo il 3%-5% dei costi, questo modello open source non ha solo catturato l’attenzione degli sviluppatori, ma ha anche spinto le aziende a rivedere le loro strategie AI.
DeepSeek R1 ha conquistato la vetta della classifica su HuggingFace, con 109.000 download al momento della scrittura, con gli sviluppatori che si affrettano a testarlo per comprendere le implicazioni per lo sviluppo della loro IA. Gli utenti evidenziano la funzionalità di ricerca di DeepSeek come superiore a quelle di concorrenti come OpenAI e Perplexity, posizionandosi al pari del Gemini Deep Research di Google.
Le implicazioni per le strategie AI aziendali sono significative: con costi ridotti e accesso open, le aziende ora hanno una valida alternativa ai costosi modelli proprietari come quello di OpenAI. Il rilascio di DeepSeek potrebbe democratizzare l’accesso alle capacità AI avanzate, permettendo anche alle organizzazioni più piccole di competere nella corsa all’innovazione AI.
Questa storia esplora come DeepSeek sia riuscita in questa impresa e cosa significa per l’adozione dei modelli AI. Per le aziende che sviluppano soluzioni AI, la strategia di DeepSeek sfida le ipotesi sulla superiorità dei modelli di OpenAI, offrendo un modello di innovazione economicamente vantaggioso. È l’approccio di DeepSeek che può fungere da lezione per l’industria.
Nel mese di novembre, DeepSeek ha fatto notizia con l’annuncio di prestazioni superiori a quelle di OpenAI o1, ma all’epoca offriva solo una versione limitata, DeepSeek R1-lite-preview. Con la versione completa di lunedì e il documento tecnico allegato, l’azienda ha rivelato un’innovazione sorprendente: un allontanamento dal tradizionale fine-tuning supervisionato (SFT) usato nell’addestramento dei modelli linguistici di grandi dimensioni (LLM).
L’addestramento tramite SFT, una fase standard nello sviluppo AI, implica l’utilizzo di set di dati curati per insegnare il ragionamento passo-passo. DeepSeek ha scelto di evitare completamente SFT, optando invece per l’apprendimento per rinforzo (RL) per formare il modello.
Questa scelta audace ha costretto DeepSeek R1 a sviluppare capacità di ragionamento indipendenti, evitando la fragilità che i set di dati prescrittivi a volte introducono. Nonostante alcuni difetti che hanno portato a reintrodurre una limitata quantità di SFT nelle fasi finali, i risultati hanno confermato che il solo apprendimento per rinforzo potrebbe portare a guadagni notevoli in termini di prestazioni.
Un po’ di contesto su come DeepSeek è arrivata a questo punto: DeepSeek, uno spin-off del fondo speculativo cinese High-Flyer Quant, ha inizialmente sviluppato modelli AI per un chatbot proprietario prima di renderli open source. Sebbene l’approccio esatto dell’azienda non sia chiaro, è probabile che abbia costruito sui progetti open source, come il modello Llama di Meta e la libreria ML Pytorch.
High-Flyer Quant ha assicurato oltre 10.000 GPU Nvidia prima delle restrizioni statunitensi e si dice che abbia aumentato questo numero a 50.000, utilizzando fornitori alternativi nonostante le barriere commerciali. Sebbene questo numero sembri inferiore rispetto ai principali laboratori AI come OpenAI, Google e Anthropic, la capacità di DeepSeek di competere con risorse limitate dimostra come l’ingegno e l’intraprendenza possano sfidare il modello costoso dei LLM all’avanguardia.
Il viaggio verso DeepSeek-R1 è iniziato con il modello intermedio DeepSeek-R1-Zero, che è stato addestrato esclusivamente tramite apprendimento per rinforzo. Questo approccio ha portato il modello a sviluppare capacità di ragionamento avanzato, come il dare priorità ai compiti più complessi. Questo fenomeno ha rappresentato un “momento di illuminazione” per i ricercatori, quando il modello ha iniziato a formulare soluzioni originali a problemi difficili, senza bisogno di SFT.
Nonostante i successi iniziali con RL, il modello ha incontrato alcune difficoltà, come scarsa leggibilità e confusione linguistica. Per risolvere questi problemi, il team ha introdotto una quantità limitata di SFT, incentrata su dati di “cold-start”, per poi sottoporre il modello allo stesso processo di RL del modello intermedio. Questo approccio ha portato alla creazione del modello finale, DeepSeek-R1.
Il lancio di DeepSeek R1 dimostra come modelli open source possano superare le alternative proprietarie, con prestazioni superiori e una trasparenza che consente agli sviluppatori di migliorare facilmente il modello. La trasparenza del processo di ragionamento ha anche posto un problema di pubbliche relazioni per OpenAI, che ha nascosto il proprio ragionamento dietro le sue risposte.
Per le aziende, il successo di DeepSeek segnala un cambiamento nel panorama AI: pratiche di sviluppo più efficienti e a basso costo stanno diventando sempre più praticabili. Le aziende dovrebbero ora rivalutare le loro partnership con fornitori AI proprietari, considerando se i costi giustifichino il valore, quando le alternative open source sono in grado di offrire risultati simili o migliori.
Sebbene l’innovazione di DeepSeek sia rivoluzionaria, non ha ancora stabilito una leadership di mercato duratura. Altri laboratori di AI, come Meta e Mistral, sono probabilmente già al lavoro per colmare il divario, rendendo la competizione ancora più intensa nei mesi a venire.