Claude Fable 5 al centro delle polemiche per i filtri di sicurezza e le limitazioni applicate alla ricerca AI

Il rilascio pubblico di Claude Fable 5, primo modello della nuova famiglia Mythos sviluppata da Anthropic, sta generando un ampio dibattito nella comunità dell’intelligenza artificiale e della sicurezza informatica. Le discussioni non riguardano le prestazioni generali del modello, ma le misure di sicurezza implementate da Anthropic e alcune limitazioni deliberate introdotte per specifiche categorie di attività considerate sensibili.

Uno dei principali punti di contestazione riguarda il sistema di protezione applicato alle richieste legate alla cybersecurity. Secondo numerosi ricercatori e professionisti del settore, Fable 5 tende a bloccare o interrompere una gamma molto ampia di attività che normalmente rientrano nelle pratiche quotidiane di analisi della sicurezza informatica. Quando il sistema identifica una richiesta come appartenente agli ambiti della cybersecurity o della biologia avanzata, viene attivato un meccanismo di protezione che interrompe il normale flusso di elaborazione e trasferisce automaticamente l’esecuzione a Claude Opus 4.8, modello considerato meno potente e meno soggetto ai rischi identificati da Anthropic.

La società ha introdotto queste restrizioni per ridurre il rischio che il modello venga utilizzato per lo sviluppo di malware, la pianificazione di attacchi informatici o la progettazione di agenti biologici potenzialmente pericolosi. Tuttavia, diversi esperti sostengono che il sistema di classificazione operi in maniera troppo aggressiva, bloccando anche attività considerate legittime come l’analisi di codice, la revisione di applicazioni, la lettura di documentazione tecnica o la scrittura di software orientato alla sicurezza difensiva.

Un secondo elemento di controversia riguarda una limitazione documentata da Anthropic all’interno della system card dei modelli Mythos e Fable. L’azienda ha confermato di aver introdotto meccanismi specifici destinati a ridurre il supporto fornito nelle attività relative alla ricerca avanzata sui modelli linguistici di grandi dimensioni e sulle tecniche di sviluppo di nuovi foundation model. Secondo quanto dichiarato, l’obiettivo è limitare l’utilizzo del sistema per accelerare la realizzazione di modelli concorrenti attraverso processi di distillazione o trasferimento di conoscenza.

A differenza delle protezioni applicate alla sicurezza informatica e alla biologia, queste restrizioni non vengono normalmente segnalate all’utente attraverso messaggi di rifiuto espliciti. Il comportamento del modello viene invece modificato internamente mediante tecniche che possono influenzare la qualità delle risposte, il livello di dettaglio delle spiegazioni o la capacità di affrontare determinate richieste di ricerca. Questa scelta ha generato critiche da parte di ricercatori e sviluppatori, che ritengono problematico applicare limitazioni prestazionali senza una chiara comunicazione all’utente finale.

Alle discussioni sulle capacità del modello si aggiungono inoltre questioni legate alla governance dei dati. Per supportare i nuovi sistemi di classificazione e monitoraggio della sicurezza, Anthropic ha introdotto una politica che prevede la conservazione dei prompt e delle risposte per un periodo fino a trenta giorni. Alcuni contenuti identificati come potenziali violazioni delle policy possono essere mantenuti per periodi significativamente più lunghi nell’ambito delle attività di analisi e mitigazione dei rischi.

Queste politiche hanno attirato l’attenzione di grandi organizzazioni che utilizzano modelli AI in contesti enterprise. In particolare, Microsoft starebbe valutando l’impatto delle nuove regole di conservazione dei dati rispetto ai propri requisiti interni di compliance e protezione delle informazioni riservate. La situazione evidenzia come l’evoluzione dei modelli frontier non dipenda esclusivamente da prestazioni e benchmark, ma coinvolga sempre più aspetti legati a sicurezza, trasparenza, governance e gestione dei dati all’interno delle infrastrutture aziendali.

Le polemiche sorte attorno a Claude Fable 5 mostrano quindi una delle sfide emergenti dell’attuale generazione di modelli AI: trovare un equilibrio tra capacità avanzate, prevenzione degli utilizzi potenzialmente dannosi, tutela della proprietà intellettuale e necessità di mantenere trasparenza e usabilità per ricercatori, sviluppatori e aziende che adottano queste tecnologie nei propri processi operativi.

Claude Fable 5 al centro delle polemiche per i filtri di sicurezza e le limitazioni applicate alla ricerca AI

DiFantasy

Di Fantasy

Articoli correlati

Microsoft MAI-Image-2.5-Pro e MAI-Voice-2-Flash portano i modelli MAI in produzione e riducono fino all’89% i costi GPU

Claude Opus 5 compare nei sistemi di sviluppo e nelle quote di Google Vertex AI

GPT-Live entra nei flussi di sviluppo di Codex e ChatGPT Work

Ultimi Post

Microsoft MAI-Image-2.5-Pro e MAI-Voice-2-Flash portano i modelli MAI in produzione e riducono fino all’89% i costi GPU

Claude Opus 5 compare nei sistemi di sviluppo e nelle quote di Google Vertex AI

GPT-Live entra nei flussi di sviluppo di Codex e ChatGPT Work

Claude Opus e Sonnet nella modalità vocale, privilegiando ragionamento e accesso agli strumenti