La recente introduzione del modello linguistico DeepSeek-R1 da parte della startup cinese DeepSeek ha suscitato un acceso dibattito. Presentato come un modello in grado di eguagliare le capacità dei principali sistemi di IA americani con un investimento dichiarato di soli 6 milioni di dollari, l’annuncio ha provocato una significativa reazione nei mercati finanziari, con una perdita di quasi 200 miliardi di dollari nel valore di mercato di Nvidia.
Tuttavia, Dario Amodei, co-fondatore di Anthropic e pioniere nella ricerca sui modelli linguistici di grandi dimensioni, offre una prospettiva più sfumata su questa narrazione. Nel suo recente post sul blog, Amodei mette in discussione l’interpretazione secondo cui DeepSeek avrebbe ottenuto con 6 milioni di dollari ciò che le aziende americane hanno raggiunto con investimenti miliardari. Egli sottolinea che il modello Claude 3.5 Sonnet di Anthropic, addestrato diversi mesi fa con un costo di alcune decine di milioni di dollari, supera ancora il modello di DeepSeek in molteplici compiti.
Amodei evidenzia inoltre che la metodologia utilizzata da DeepSeek, nota come “distillazione”, non rappresenta una novità rivoluzionaria nel campo dell’IA. La distillazione è una tecnica consolidata che consente a un modello più piccolo di apprendere da uno più grande, riducendo i costi computazionali ma spesso a scapito delle prestazioni. Pertanto, l’uso di questa tecnica da parte di DeepSeek non implica necessariamente un superamento delle attuali capacità dei modelli occidentali.
Un ulteriore punto sollevato riguarda la trasparenza e la replicabilità dei risultati. Amodei sottolinea che, mentre DeepSeek ha reso open-source il proprio modello, mancano dettagli cruciali sull’addestramento e sulle specifiche tecniche, rendendo difficile una valutazione completa delle reali capacità del modello. Questo contrasta con le pratiche di molte istituzioni occidentali che promuovono la condivisione aperta delle metodologie per favorire il progresso collettivo nel campo dell’IA.
Infine, Amodei riflette sulle implicazioni geopolitiche di questi sviluppi. Sebbene il progresso tecnologico sia auspicabile, egli avverte che l’emergere di modelli avanzati in contesti con normative meno rigorose potrebbe comportare rischi, specialmente se tali modelli venissero utilizzati senza adeguate considerazioni etiche o di sicurezza.