DeepSeek è tornato. Dopo aver stupito il mondo con vari modelli potenti e open source, ora la startup cinese presenta DeepSeek-V3.1-Terminus, una versione aggiornata del V3.1 focalizzata non tanto su nuovi record spettacolari, ma su perfezionamenti concreti che rispondono ai feedback degli utenti: più precisione nel linguaggio, migliore gestione degli strumenti agentici, meno errori di “mescolanza” linguistica (quando parole o caratteri in cinese appaiono dove ci si aspetta solo inglese).
DeepSeek nasce come un progetto afferente al mondo dell’intelligenza artificiale multimodale/open source che cerca di offrire modelli potenti sotto licenze permissive. La versione V3 ha visto luce nel dicembre 2024, usata come “modello generico da lavoro quotidiano” per affari, chat, riepiloghi, funzioni non estremamente complesse, ma con ottimo compromesso fra performance e costo. V3.1, rilasciata in agosto 2025, aveva già fatto scalpore: quasi 700 miliardi di parametri, prestazioni che in molti ambiti competono con modelli chiusi più costosi, tutto sotto licenza MIT.
Ora, Terminus (nome che già suggerisce un certo “punto di arrivo”, o almeno un aggiornamento decisivo) si concentra su miglioramenti più sottili ma importanti:
- migliori performance nei task agentici, per esempio per il codice (“Code Agent”) e per la ricerca/integrazione web (“Search Agent”) — ovvero situazioni in cui il modello deve “usare strumenti” esterni, sintetizzare, integrare dati esterni, non solo generare testo.
- correzione degli errori segnalati dagli utenti come mescolanze di cinese e inglese (CN/EN mix), caratteri strani inseriti per sbaglio, insomma problemi di consistenza del linguaggio.
- stabilità generale e affidabilità migliore nei benchmark, specie in quelli agentici, dove Terminus mostra numeri sensibiliamente più alti rispetto al V3.1 “puro”.
Terminus non è un “mostro” che richiede hardware esagerato per tutti: è pensato per essere usabile, versatile. Alcune caratteristiche:
- Due modalità operative principali: chat (più fluida, più interattiva, con supporto per “funzione chiamante”, output in JSON, completamento fill-in-the-middle) e reasoner (modo “pensante”, più focalizzato su contesti più grandi, con ragionamento più profondo). Se la modalità reasoner richiede l’uso di strumenti (tool), la richiesta viene gestita dal modello chat in modo da evitare perdite o confusione operativa.
- Lunghezza del contesto (quanto testo si può dare in input) fino a ~128.000 token. Non è il massimo possibile nel panorama (ci sono modelli che stanno spingendo verso contesti di 1 milione o più), ma è già notevole: permette di lavorare su documenti molto corposi, conversazioni lunghe, serie di passaggi, senza perdere il filo.
- Limiti di output e vari default: la modalità chat supporta output più “brevi” rispetto al reasoner.
- Prezzi via API strutturati per token (input + output), con differenze se l’informazione è già presente in cache o no. I costi aumentano se serve rielaborare da zero, ma l’idea è che l’uso persistente con caching migliori l’economia d’uso.
I numeri che DeepSeek stesso ha diffuso sono incoraggianti, specie per chi vuole un modello utile nel mondo reale, non solo nelle simulazioni: in task che richiedono uso di strumenti esterni (“agentic tool use”) Terminus migliora rispetto al predecessore in vari benchmark: SimpleQA, BrowseComp, SWE Verified, SWE-bench Multilingual, Terminal-bench, ecc.
In compiti puramente di ragionamento senza assistenza di strumenti, i miglioramenti sono più contenuti: alcune metriche salgono un po’, altre restano stabili, qualcuno può notare comportamenti simili al passato. Il modello ragiona meglio, ma non diventa magicamente perfetto solo con questo aggiornamento.
Uno degli errori che molti utenti segnalavano — mescolare cinese e inglese, caratteri strani inseriti — appare molto ridotto, il che aumenta la fluidità percepita, la leggibilità, la coerenza. Molto importante per applicazioni reali dove il testo “sporco” rende l’esperienza meno affidabile.
Anche se Terminus è un progresso netto, ci sono aspetti su cui non può agire ancora o dove le promesse non sono immense:
- Il limite del contesto: 128.000 token è tanto, ma per alcuni usi di nicchia fortemente specializzati, o per modelli che devono gestire enormi basi documentali (per esempio legali, ricerca, grandi corpora), ci sono modelli che offrono contesti ben più lunghi. Per chi serve “scorrere migliaia di pagine”, restano limiti.
- Performance nei benchmark di codice: c’è almeno un benchmark (Codeforces) dove Terminus ha fatto un po’ peggio del predecessore. Questo suggerisce che l’ottimizzazione generalista a volte può costare qualcosa in compiti molto specifici di coding puro.
- Costo e infrastruttura: anche se il modello è open source (licenza permissiva MIT), usarlo efficacemente (specialmente con caching, self-hosting, integrazione con strumenti) richiede risorse hardware adeguate, competenze. Le aziende che vogliono sfruttarlo bene dovranno prevedere investimenti, testing, integrazione.
- Affidabilità nel mondo reale: benché bench e metriche siano utili, le situazioni d’uso quotidiane portano sempre sfide – dati rumorosi, casi imprevisti, linguaggio ambiguo, input eterogenei. Questi sono ancora rischi da considerare seriamente.
Il valore reale di questo aggiornamento non è tanto nell’annunciare qualcosa di “nuovo” ma nel perfezionare qualcosa che già esiste, rendendolo più solido, più usabile nel quotidiano, meno frustrante. Quando un modello è un po’ troppo “scomposto” nei suoi errori — si mescola il linguaggio, confonde formati, sbaglia nell’usare strumenti esterni — perde credibilità e utilità. Terminus tenta di colmare questo divario.
In un panorama in cui molti modelli nuovi spingono solo su dimensioni (numero di parametri), contesti sempre più lunghi, funzioni speciali, DeepSeek mostra che affinare la qualità percepita, ridurre i difetti, migliorare l’“esperienza utente” concreta è una strategia che paga: sia per sviluppatori che vogliono integrarlo, sia per clienti che vogliono usarlo ogni giorno.
Inoltre, il fatto che sia open source e con licenza permissiva fa la differenza: chi vuole usarlo non è vincolato a politiche proprietarie, può scaricarlo, modificarlo, ospitarlo localmente, integrare con i propri dati e strumenti con maggiore libertà.