Immagine AI

L’ultimo annuncio di DeepSeek ha il sapore di una piccola rivoluzione per chi sviluppa applicazioni AI: con il modello V3.2-Exp, l’azienda dichiara di aver tagliato a metà i prezzi dell’API (fino a meno di 3 centesimi per milione di token in input) — pur mantenendo performance comparabili al suo predecessore V3.1-Terminus.

Questo passo è interessante non tanto per la mera riduzione dei costi, quanto per ciò che suggerisce: un modello più “leggero” in termini di infrastruttura computazionale, più sostenibile per usi prolungati o di alta intensità, e con un approccio che tende verso la democratizzazione dell’accesso all’AI potente.

Il vero cuore dell’innovazione introdotta con V3.2-Exp è un’architettura di attenzione sparsa (Sparse Attention), definita da DeepSeek come DSA (DeepSeek Sparse Attention). Invece di calcolare le interazioni tra ogni token e tutti gli altri (che scala in modo quadratico e diventa molto oneroso per input lunghi), il sistema usa un “lightning indexer” per selezionare solo i token più rilevanti da considerare nel calcolo dell’attenzione.

In pratica, quando la sequenza di input cresce (pensate a documenti di centinaia di pagine, chat storiche molto lunghe, analisi di repository di codice), il costo computazionale non esplode con la stessa rapidità che si avrebbe in un modello “denso”. Il risultato: mantenere prestazioni adeguate anche su contesti estesi, senza vedere il prezzo di inferenza impazzire.

Dietro al modello non ci sono solo scelte architetturali: DeepSeek ha integrato tecniche di distillazione specialistica e un addestramento in reinforcement learning unificato (uso del metodo GRPO) che combina ragionamento, agentività e allineamento in un unico stadio, per evitare il fenomeno del “catastrophic forgetting” tipico delle pipeline multi-stadio.

Secondo i benchmark pubblicati, V3.2-Exp tiene testa a V3.1-Terminus su compiti di ragionamento, codifica, domande e risposte, con variazioni minime — pur con il vantaggio del contenimento dei costi.

Con l’API, DeepSeek dichiara costi per milione di token di input cache hit di 0,028 $, cache miss 0,28 $, e output 0,42 $. In confronto, con la versione precedente (V3.1-Terminus), quei costi erano rispettivamente 0,07 $, 0,56 $, 1,68 $.

Certo, esistono modelli che oggi battano questi prezzi: ad esempio, GPT-5 Nano rimane imbattuto sul fronte “costo per token” in determinate condizioni. Ma il valore aggiunto di DeepSeek è quello di offrire un’opzione relativamente economica e open source, con la possibilità di scaricare i pesi (MIT License) e usare modelli localmente oppure su infrastrutture aziendali.

Dal punto di vista competitivo, è un segnale forte: non siamo più nel solo confronto su “chi ha il modello più potente”, ma anche su “chi lo rende accessibile in modo sostenibile”.

L’uscita di DeepSeek V3.2-Exp segna una direzione interessante: non solo più modelli “grandi e potenti”, ma modelli che sappiano essere efficienti, modulari, usabili su lunghi input, e meno proibitivi da un punto di vista economico. Questo può essere un acceleratore per applicazioni “document-intensive” o per aziende che non dispongono di risorse illimitate per le spese AI.

Inoltre, l’esperimento di DeepSeek mette in evidenza un’ultima tensione: il bilanciamento tra open source/trasparenza e competitività commerciale. Rilasciare i modelli con licenza MIT (quindi utilizzabili anche per scopi commerciali) è un atto di fiducia e di scommessa su un ecosistema più collaborativo. Se il modello regge davvero sul campo, potrebbe spingere altre aziende a bilanciare meglio la chiusura e l’apertura.

Infine, per chi sviluppa AI o applicazioni complesse, V3.2-Exp apre lo spazio a scenari più ambiziosi: processare storici di chat lunghi, condurre analisi di documenti estesi, fare riassunti di interi archivi, gestire codici e repository in contesti che vanno ben oltre qualche migliaio di token — senza che il costo diventi proibitivo.

Di Fantasy