Immagine AI

Negli ultimi mesi, gli utenti di Claude — il modello linguistico di Anthropic — hanno iniziato a percepire qualcosa di strano. Qualcosa che sembrava una perdita di qualità, un calo di prestazioni, un’“ottenimento” del servizio che non era più quello che conoscevano. All’inizio, molte voci suggerivano un’unica causa: “Anthropic ci sta limitando, ci sta risparmiando, sta riducendo le prestazioni per motivi economici oppure di gestione delle risorse”. Ma come spesso accade, la verità si è rivelata più complicata (e più inquietante) di quanto si sospettasse.

Da inizio agosto, forum, subreddit, X (ex-Twitter) e community di sviluppatori hanno cominciato a registrare una serie di lamentele crescenti. Alcune segnalazioni:

  • codici che prima funzionavano perfettamente ora non producono più risultati corretti;
  • Claude che afferma di aver fatto delle modifiche a file senza in effetti cambiarli;
  • apparizione di caratteri cinesi o thailandesi nel mezzo di risposte in inglese;
  • istruzioni ignorate;
  • risposte con qualità variabile, a volte ottime, altre volte decisamente sotto tono.

Molti utenti, soprattutto quelli abituati a fare uso intensivo del modello (con Claude Pro, o per scopi di sviluppo), hanno cominciato a pensare: “Stanno ‘throttling’ il servizio — lo stanno degradando per risparmiare sull’uso delle risorse”.

Dopo settimane di proteste, confusione, speculazioni, finalmente Anthropic ha pubblicato un post-mortem tecnico in cui ha ammesso esplicitamente che sì, c’erano problemi; ma non erano dovuti a intenzioni esplicite di “ridurre il livello del servizio” per risparmiare. Erano — ha detto — tre bug differenti, tutti attivi più o meno nello stesso arco di tempo, che combinati hanno prodotto un “perfect storm” di degrado dell’esperienza utente. Non si trattava di compressione delle prestazioni, bensì di anomalie tecniche che hanno distorto, rallentato o alterato il funzionamento proprio del modello.

Ecco cosa è successo, nello specifico:

  1. Routing sbagliato dei server (“Wrong Server Problem”)
    Claude Sonnet 4, ad esempio, è progettato per gestire contesti fino a 200.000 token. Alcune richieste, però, venivano deviate verso server configurati per contesti di 1 milione di token. All’inizio l’incidenza era bassa (0,8% circa), ma una modifica dei bilanciatori di carico ha fatto sì che la situazione peggiorasse: fino al 16% delle richieste Sonnet 4 veniva instradata in modo errato. Il fatto che il routing fosse “sticky” — ovvero una volta che una richiesta veniva deviata, quelle successive della stessa sessione avevano probabilità elevata di essere deviate di nuovo — ha amplificato l’impatto.
  2. Inserimento casuale di caratteri non attesi (“Random Character Generator”)
    Intorno al 25 agosto, con una configurazione sbagliata sui server TPU, Claude ha iniziato ad inserire caratteri thailandesi o cinesi all’interno di risposte in inglese, anche in contesti di codice. È un bug che ha compromesso la coerenza delle risposte, un effetto evidente e fastidioso, soprattutto per chi lavora con linguaggi di programmazione o l’analisi testuale.
  3. Il bug del compilatore invisibile (“Invisible Compiler Bug”)
    Probabilmente il più subdolo dei tre: si trattava di un difetto nel compilatore XLA di Google, che fino ad allora era rimasto latente. Quando Anthropic ha distribuito un aggiornamento per migliorare la selezione dei token (il passo in cui il modello decide qual è la parola o segmento successivo da generare), quel cambiamento ha inavvertitamente disattivato una “scappatoia” che il sistema aveva adottato nel dicembre 2024 per evitare proprio questo tipo di problema. Di conseguenza, in alcune condizioni, Claude “sapeva” qual era il token corretto, ma il sistema non gli permetteva di generarlo.

Se tre bug insieme sono già difficili da gestire, ci sono vari motivi per cui il problema non è stato risolto subito:

  • Privacy e controlli interni che limitavano l’accesso degli ingegneri ai dati di produzione, se non quando gli utenti segnalavano esplicitamente problemi. Questo ha rallentato l’identificazione delle anomalie.
  • Effetti che si mascherano da “varianza normale”: in molti casi Claude sembrava “normale” a prima vista, correggeva piccole imprecisioni, ma non abbastanza da far sospettare che ci fosse un problema strutturale. I benchmark automatici non rilevavano tutto.
  • Molteplicità della piattaforma: Claude gira su diverse architetture hardware — Google TPUs, GPU NVIDIA, infrastrutture AWS. Ognuna di queste ha risposto diversamente ai bug; alcuni problemi si manifestavano solo su alcune piattaforme, rendendo più difficile capire che fosse lo “stesso” difetto.
  • Sintomi sovrapposti: quando si hanno tre cause diverse che agiscono insieme, gli effetti si intrecciano; può sembrare che ci siano tanti problemi isolati piuttosto che un guasto sistemico, rendendo più difficile la diagnosi.

Alla data del 16 settembre 2025, Anthropic sostiene di aver corretto tutti e tre i bug:

  • corretto il routing sbagliato;
  • ripristinate le configurazioni compromesse;
  • modificata la selezione dei token da un’approssimativa (“approximate”) a una più rigorosa (“exact top-k operations”);
  • introdotto monitoraggio continuo in produzione.

Tuttavia, non tutti sono convinti che tutto sia tornato “come prima”. Alcuni utenti riferiscono che Claude Code — la modalità per chi lavora con codice — continua a sembrare inferiore rispetto al suo stato precedente. È possibile che vi siano effetti residui dei bug, che nuovi problemi non ancora identificati stiano emergendo, o che le aspettative siano rimaste alterate dopo settimane di degrado — anche psicologicamente.

Questa vicenda non è solo un “erroraccio tecnico”: è una specie di manuale su quanto sia delicata l’ingegneria dietro i grandi modelli di intelligenza artificiale. Qualche riflessione che emerge:

  • La qualità percepita da parte degli utenti può subire oscillazioni anche senza intenzione esplicita da parte del provider. E queste oscillazioni possono essere tanto dolorose quanto un “taglio” intenzionale.
  • L’infrastruttura — routing, hardware, compilatori, bilanciatori di carico — è tanto importante quanto il modello stesso. Un modello bellissimo può rendere poco se il resto dell’ecosistema non regge.
  • Bisogna investire molto sul monitoraggio continuo, sulla diagnosi delle anomalie in tempo reale, e su una cultura di risposta alle segnalazioni utente.
  • Anche la privacy — che è importantissima — può rappresentare un ostacolo per la rapidità di risoluzione, se i dati utili a diagnosticare non sono facilmente accessibili per motivi protettivi.

Alla fine, la storia di Claude — non “limato” di proposito, ma colpito da una serie di bug che insieme hanno prodotto un effetto “invisibile ma tangibile” — è significativa per chiunque usi, sviluppi o faccia affidamento su AI come strumento di lavoro o prodotto. Ci ricorda che:

  • la tecnologia è potente, ma non è invincibile;
  • anche chi la produce con cura può trovarsi ad affrontare problemi di enormi proporzioni che per qualche tempo sfuggono al controllo;
  • dobbiamo avere delle aspettative ragionevoli, ma anche degli strumenti per misurare la qualità in modo trasparente;
  • dobbiamo chiedere — e forse pretendere — un certo grado di trasparenza da chi gestisce questi servizi; e che le comunicazioni con gli utenti non siano solo schermate di marketing, ma anche riconoscimento onesto dei problemi e delle soluzioni.

In definitiva, il messaggio è: non era throttling, ma qualcosa di peggio — un guasto su più fronti, che ha confuso gli utenti, minato la fiducia, e che richiede attenzione non solo per essere risolto, ma per evitare che capiti di nuovo.

Di Fantasy