Recentemente, DeepSeek ha annunciato che il costo di sviluppo del suo modello linguistico avanzato, il “DeepSeek-V3”, è stato di soli 5,57 milioni di dollari. Tuttavia, un’analisi approfondita suggerisce che il costo reale potrebbe essere significativamente più elevato, superando i 500 milioni di dollari, una cifra paragonabile a quella spesa da Meta per lo sviluppo del suo modello “Llama 3.1”.

DeepSeek, attraverso la sua società madre High-Flyer Quantum, ha effettuato investimenti sostanziali in hardware, in particolare in unità di elaborazione grafica (GPU). Nel 2021, l’azienda ha acquistato 10.000 GPU NVIDIA A100, all’epoca tra i chip più performanti disponibili. Successivamente, si ritiene che DeepSeek abbia avuto accesso a una varietà di chip NVIDIA Hopper, inclusi modelli come H800, H100 e H20, per un totale stimato di 50.000 unità. Questi investimenti hanno comportato una spesa cumulativa di circa 1,629 miliardi di dollari, con ulteriori 944 milioni di dollari destinati alle operazioni e alla manutenzione dell’infrastruttura.

Oltre agli investimenti in hardware, DeepSeek ha sostenuto costi significativi per il personale. Si stima che l’azienda offra stipendi superiori a 1,3 milioni di dollari ai talenti più promettenti, una cifra notevolmente più alta rispetto ad altre startup cinesi nel settore dell’intelligenza artificiale. Con un organico di circa 150 dipendenti in rapida crescita, i costi salariali rappresentano una parte sostanziale del budget. Inoltre, lo sviluppo di tecnologie chiave, come la “Multi-Head Latent Attention (MLA)”, ha richiesto mesi di ricerca intensiva, con un impiego significativo di risorse umane e computazionali.

La cifra di 5,57 milioni di dollari dichiarata da DeepSeek sembra riferirsi esclusivamente ai costi di pre-addestramento del modello, escludendo spese cruciali come l’acquisto e l’aggiornamento delle GPU, la manutenzione, la ricerca e sviluppo e i salari del personale. Considerando tutti questi fattori, l’analisi suggerisce che il costo totale di sviluppo del modello V3 supera i 500 milioni di dollari. È importante notare che per il modello successivo, “DeepSeek-R1”, non sono state fornite informazioni dettagliate sui costi, lasciando spazio a ulteriori speculazioni.

Sebbene DeepSeek abbia affermato che il modello R1 supera il modello “o1” in termini di prestazioni, alcune analisi indicano che questa superiorità non è evidente in tutti i benchmark. Ad esempio, il modello “Gemini 2.0 Flash Thinking” di Google, rilasciato a dicembre, offre una lunghezza di contesto maggiore e prestazioni superiori in alcuni test. Nonostante ciò, DeepSeek rimane una startup dinamica e ben finanziata, con il potenziale per competere con grandi aziende tecnologiche nel campo dei modelli linguistici avanzati.

Di Fantasy