Immagine AI

Anthropic ha annunciato una revisione delle politiche di sicurezza applicate a Claude Fable 5 dopo le critiche ricevute dalla comunità di ricercatori e sviluppatori riguardo ad alcuni meccanismi di protezione che operavano senza fornire indicazioni esplicite agli utenti. L’azienda ha confermato che in futuro segnalerà chiaramente quando determinate misure di sicurezza vengono attivate e quando una richiesta viene gestita attraverso procedure speciali progettate per limitare specifiche categorie di utilizzo del modello.

La controversia riguarda Claude Fable 5, il primo modello della nuova serie Mythos presentata da Anthropic. Durante il rilascio del sistema, l’azienda aveva introdotto una serie di controlli destinati a settori considerati ad alto rischio, tra cui biologia, chimica, cybersecurity e richieste legate alla distillazione dei modelli di intelligenza artificiale. L’obiettivo dichiarato era impedire che Claude potesse essere utilizzato per sviluppare o migliorare sistemi concorrenti attraverso tecniche di estrazione della conoscenza e replica delle capacità del modello.

Secondo la documentazione tecnica pubblicata da Anthropic, Claude Fable 5 era in grado di rilevare alcune categorie di richieste considerate sensibili e di applicare automaticamente comportamenti differenti rispetto a quelli normalmente utilizzati durante l’inferenza. In alcuni casi il sistema poteva modificare il contenuto della risposta, ridurre il livello di dettaglio delle informazioni fornite oppure utilizzare percorsi di elaborazione alternativi progettati per limitare la disponibilità di determinate conoscenze. Il problema evidenziato dagli utenti riguardava l’assenza di qualsiasi indicazione che permettesse di capire quando questi meccanismi fossero stati attivati.

Il sistema operava attraverso classificatori interni incaricati di identificare richieste riconducibili a categorie specifiche. Una volta rilevato un possibile tentativo di distillazione o un utilizzo ritenuto sensibile, il modello poteva modificare il proprio comportamento senza che l’utente ricevesse una notifica o una spiegazione esplicita. Questo approccio era stato scelto da Anthropic perché considerato più difficile da aggirare rispetto a sistemi di sicurezza visibili, che potrebbero fornire indicazioni utili a chi tenta di eludere i controlli.

La scelta ha però generato forti critiche all’interno della comunità AI. Numerosi ricercatori hanno sostenuto che la modifica invisibile delle risposte rischiava di compromettere attività legittime di ricerca, benchmarking e valutazione indipendente dei modelli. Se un sistema altera silenziosamente il proprio comportamento in determinate condizioni, diventa infatti più difficile comprendere se una risposta sia il risultato delle reali capacità del modello oppure di una limitazione applicata dal produttore.

La questione assume particolare rilevanza nel contesto della valutazione scientifica dei modelli avanzati. Università, laboratori di ricerca e organizzazioni indipendenti eseguono regolarmente test per misurare capacità, limiti e rischi dei sistemi AI. L’esistenza di filtri invisibili può influenzare questi risultati, introducendo variabili difficili da identificare e rendendo più complessa la riproducibilità degli esperimenti.

In risposta alle critiche, Anthropic ha deciso di modificare il proprio approccio. Quando verranno rilevate richieste riconducibili alla distillazione dei modelli, gli utenti riceveranno un’indicazione esplicita dell’intervento del sistema di sicurezza. L’azienda ha inoltre annunciato che in questi casi alcune richieste potranno essere elaborate da Claude Opus 4.8 anziché da Fable 5, rendendo visibile il cambio di modello e il motivo della decisione.

La vicenda evidenzia una delle sfide più complesse che i produttori di modelli generativi stanno affrontando. Da un lato esiste la necessità di implementare protezioni efficaci contro utilizzi potenzialmente pericolosi o contro pratiche considerate una minaccia commerciale, come la distillazione sistematica dei modelli proprietari. Dall’altro emerge una crescente richiesta di trasparenza da parte di utenti, ricercatori e sviluppatori che desiderano comprendere esattamente come e quando i sistemi AI modificano il proprio comportamento.

Per Anthropic il tema della distillazione rappresenta una questione particolarmente sensibile. L’azienda ha più volte sostenuto che alcuni concorrenti abbiano utilizzato tecniche di estrazione della conoscenza per replicare capacità presenti nei modelli Claude. Con l’aumento delle capacità dei modelli più avanzati, il valore economico delle informazioni che possono essere utilizzate per accelerare lo sviluppo di sistemi concorrenti è diventato sempre più elevato, spingendo le aziende a introdurre forme di protezione dedicate.

La controversia legata a Claude Fable 5 mette quindi in evidenza un dibattito destinato a diventare sempre più importante nell’industria dell’intelligenza artificiale. Con l’aumento delle capacità dei modelli e della loro rilevanza economica, le aziende dovranno trovare un equilibrio tra sicurezza, protezione della proprietà intellettuale e trasparenza verso gli utenti. La decisione di Anthropic di rendere visibili i propri meccanismi di salvaguardia rappresenta uno dei primi esempi concreti di come il settore stia iniziando ad affrontare questo problema, riconoscendo che la fiducia degli utenti dipende non soltanto dalle prestazioni dei modelli, ma anche dalla chiarezza con cui vengono comunicate le regole che ne governano il comportamento.

Di Fantasy