Anthropic chiarisce i dettagli tecnici dietro un fenomeno che ha colpito la comunità degli sviluppatori negli ultimi mesi: la percezione di un calo prestazionale, comunemente definito “degradation”, nei modelli Claude 3.5 Sonnet e Claude 3 Opus. La questione, inizialmente sollevata dagli utenti che lamentavano risposte più pigre o meno accurate, ha trovato una spiegazione ufficiale non in un cambiamento dei pesi del modello o dell’architettura neurale sottostante, ma in una complessa serie di modifiche apportate ai cosiddetti “harnesses”, ovvero i sistemi di supporto, e alle istruzioni operative che guidano il comportamento dell’intelligenza artificiale prima che questa interagisca con l’utente.
Anthropic ha confermato che il nucleo del modello non è stato alterato, ma sono stati aggiornati i prompt di sistema, quei blocchi di testo invisibili all’utente finale che stabiliscono i confini etici, il tono di voce e le modalità di gestione dei dati. Queste istruzioni operative agiscono come un filtro costante e una guida per il modello; tuttavia, piccoli cambiamenti nella loro formulazione possono avere effetti a cascata imprevedibili. In particolare, l’azienda ha ammesso di aver introdotto nuove direttive volte a migliorare la sicurezza e la conformità, le quali però hanno involontariamente appesantito il processo decisionale della macchina, rendendola talvolta eccessivamente cauta o ripetitiva in compiti complessi come il coding o l’analisi testuale profonda.
Un altro elemento tecnico cruciale emerso dall’analisi riguarda gli “harnesses”, le infrastrutture software che gestiscono il modo in cui i dati vengono inseriti nel modello e come i risultati vengono estratti. Anthropic ha operato una transizione verso nuovi framework di valutazione e distribuzione che hanno alterato la gestione del contesto. Quando un modello come Claude riceve un input, il sistema di supporto deve decidere come presentare le informazioni passate e come dare priorità ai token. Le modifiche a questi sistemi di gestione del contesto hanno introdotto una diversa sensibilità alla lunghezza dei messaggi, portando il modello a perdere occasionalmente la coerenza su thread di conversazione particolarmente estesi, un problema che molti utenti avevano erroneamente attribuito a una riduzione dei parametri del modello stesso.
L’azienda ha spiegato che questi interventi erano necessari per ottimizzare l’efficienza operativa e ridurre i costi computazionali, ma la natura dinamica dell’interazione tra istruzioni di sistema e pesi del modello rende ogni aggiornamento una sfida di bilanciamento. Il fenomeno osservato non è quindi un depotenziamento intenzionale, ma il risultato di un’ottimizzazione degli “operating instructions” che ha privilegiato la sicurezza e la velocità a scapito di una certa flessibilità creativa che caratterizzava le versioni precedenti. Anthropic ha concluso indicando che sta lavorando per affinare ulteriormente queste istruzioni invisibili, cercando di recuperare quel livello di precisione che gli utenti avevano percepito come degradato, dimostrando come nel campo dei Large Language Models la periferia del software sia importante quanto il suo cuore algoritmico.
