Anthropic Claude sta peggiorando? Nerfing o shrinkflation AI, cosa c’è davvero dietro ai cali di prestazioni

Negli ultimi mesi si è aperta una discussione sempre più esplicita attorno alle prestazioni dei modelli della famiglia Anthropic, in particolare Claude. Una parte crescente della base utenti – sviluppatori, aziende e power user – ha iniziato a segnalare una percezione di peggioramento qualitativo, sollevando il dubbio che il modello venga “limitato” intenzionalmente, in modo non dichiarato.

Il primo elemento da chiarire riguarda la natura delle segnalazioni. Non si tratta di benchmark ufficiali o studi strutturati, ma di un accumulo di evidenze empiriche: utenti che riportano risposte meno approfondite, maggiore tendenza a “fermarsi prima”, o un comportamento percepito come meno rigoroso rispetto alle versioni precedenti. Questo tipo di fenomeno è tipico dei sistemi AI distribuiti su larga scala, dove la percezione qualitativa è influenzata non solo dal modello in sé, ma anche dal contesto operativo in cui viene erogato.

Uno dei fattori chiave emersi è la gestione dinamica della capacità. Con l’aumento rapidissimo della domanda – documentato anche dalla crescita degli utenti paganti e dall’espansione enterprise – Anthropic si è trovata a dover bilanciare qualità e scalabilità. In questo contesto, alcune modifiche operative sono state introdotte per gestire i picchi di utilizzo. In particolare, è stato confermato che durante le finestre di maggiore traffico possono essere applicati aggiustamenti alle modalità di utilizzo del modello, non su base individuale ma in modo uniforme per tutti gli utenti in quella fascia temporale.

Questo punto è centrale perché introduce una distinzione fondamentale: non si tratta necessariamente di un “nerf” nel senso tradizionale del termine – cioè una riduzione permanente delle capacità del modello – ma piuttosto di una modulazione operativa legata alla disponibilità di risorse. In altre parole, il modello sottostante può rimanere invariato, ma il modo in cui viene utilizzato (ad esempio profondità di ragionamento, numero di token, priorità di calcolo) può variare in funzione del carico di sistema.

A livello tecnico, questo tipo di gestione è coerente con l’economia dei modelli di frontiera. I modelli come Claude Opus 4.6 sono estremamente costosi da eseguire, soprattutto quando utilizzati in modalità ad alta profondità di ragionamento o in scenari agentici complessi. L’introduzione di meccanismi di “throttling intelligente” o di adattamento dinamico dell’inferenza rappresenta una soluzione quasi inevitabile per mantenere sostenibile l’infrastruttura, soprattutto in presenza di crescita esponenziale della domanda.

Tuttavia, la percezione degli utenti racconta anche altro. In parallelo alle segnalazioni informali, alcune figure tecniche di alto livello hanno espresso critiche più strutturate. Analisi interne condotte in contesti aziendali complessi indicano un aumento di comportamenti problematici, come risposte incomplete o minore capacità di gestire task articolati, suggerendo una possibile regressione rispetto a versioni precedenti del modello. Questo tipo di evidenza, pur non essendo universale, evidenzia una tensione reale tra ottimizzazione operativa e qualità percepita.

Un ulteriore elemento da considerare è la crescente complessità dei modelli stessi. Le versioni più recenti di Claude introducono capacità agentiche, adattamento dinamico del livello di ragionamento e integrazione in workflow multi-step. Questo comporta una variabilità maggiore nel comportamento: il modello non risponde sempre nello stesso modo perché è progettato per ottimizzare dinamicamente il proprio sforzo computazionale. In alcuni casi, questa ottimizzazione può essere percepita come una riduzione della qualità, soprattutto quando il sistema “sceglie” di investire meno risorse in una determinata risposta.

La questione si intreccia anche con le politiche di sicurezza e controllo. Anthropic ha costruito la propria identità attorno al concetto di “AI safety”, implementando meccanismi di controllo sempre più sofisticati. Questi possono influenzare indirettamente le prestazioni percepite, ad esempio limitando certe strategie di risposta o introducendo filtri più conservativi. In un sistema complesso, è spesso difficile distinguere tra una limitazione dovuta a vincoli di sicurezza e una dovuta a ottimizzazione delle risorse.

È inoltre rilevante osservare che Anthropic stessa ha negato l’esistenza di una riduzione selettiva delle prestazioni per specifici utenti o piani, chiarendo che eventuali modifiche sono legate a condizioni operative generali e non a una strategia di differenziazione nascosta. Questo elemento rafforza l’interpretazione del fenomeno come effetto sistemico piuttosto che come scelta deliberata di “depotenziare” il prodotto.

Nel complesso, il caso Claude evidenzia un passaggio critico nell’evoluzione dell’intelligenza artificiale: il passaggio da modelli sperimentali a infrastrutture industriali. Quando un sistema AI diventa una piattaforma utilizzata su larga scala, le dinamiche di performance non dipendono più solo dalla qualità del modello, ma da un insieme di fattori che includono capacità computazionale, gestione del traffico, priorità commerciali e vincoli di sicurezza.

Per chi utilizza questi strumenti in ambito professionale, la lezione è chiara. Non esiste più una “prestazione assoluta” del modello, ma una prestazione contestuale, variabile nel tempo e nello spazio operativo. Comprendere questa variabilità diventa parte integrante dell’adozione stessa dell’AI, soprattutto nei contesti dove affidabilità e coerenza sono requisiti critici.

Anthropic Claude sta peggiorando? Nerfing o shrinkflation AI, cosa c’è davvero dietro ai cali di prestazioni

DiFantasy

Di Fantasy

Articoli correlati

Microsoft presenta Fara1.5, l’agente browser che lavora osservando lo schermo come farebbe un umano

Waymo richiama 3.800 robotaxi e sospende il servizio in sei città americane per un difetto nel riconoscimento delle strade allagate

Demis Hassabis: per parlare davvero di AGI serve superare il “test di Einstein”

Ultimi Post

Microsoft presenta Fara1.5, l’agente browser che lavora osservando lo schermo come farebbe un umano

Waymo richiama 3.800 robotaxi e sospende il servizio in sei città americane per un difetto nel riconoscimento delle strade allagate

Demis Hassabis: per parlare davvero di AGI serve superare il “test di Einstein”

Critterz salta Cannes per la chiusura di Sora, ma debutta “Hell Grind” interamente generato in AI