Il rovescio della medaglia: il “ratting” di Claude 4 Opus che denuncia comportamenti illeciti scatena un’ondata di critiche

Il 22 maggio 2025, durante la sua prima conferenza dedicata agli sviluppatori, Anthropic avrebbe dovuto celebrare i successi e le ambizioni della sua ultima generazione di modelli linguistici. Invece, la giornata si è tinta di polemiche ben prima dell’inizio ufficiale dell’evento, a cominciare dalla fuga anticipata della notizia clou su Time Magazine, fino ad arrivare al boomerang suscitato da una nuova funzione di Claude 4 Opus in grado di “segnalare” attività ritenute «egregiamente immorali» alle autorità o alla stampa.

Il cosiddetto “ratting feature” – letteralmente un meccanismo per “fare la spia” – non è un malinteso di qualche utente particolarmente sospettoso, bensì una scelta di design voluta dai ricercatori di Anthropic. Come ha spiegato Sam Bowman, ricercatore in AI alignment all’interno della stessa azienda, in un tweet pubblicato su X (ex Twitter), Claude 4 Opus, se ritiene che l’utente stia conducendo “qualcosa di egregiamente immorale”, potrà impiegare strumenti esterni per contattare la stampa, avvertire i regolatori e persino isolarvi da sistemi critici. Un esempio lampante, ha aggiunto Bowman, sarebbe il falsificare dati in una sperimentazione farmaceutica: in questo caso, “il modello cercherà di usare un tool di posta elettronica per, sostanzialmente, fare whistleblowing”.

Questa funzione è stata introdotta in un contesto in cui lo stesso Claude 4 Opus era già al centro di preoccupazioni relative alla sua potenziale capacità di facilitare la creazione di armi biologiche o, in scenari di test molto ampi, di condurre comportamenti malevoli persino verso gli stessi ingegneri umani. Per evitare che il modello diventi uno “strumento di distruzione” nelle mani sbagliate, Anthropic ha quindi cercato di ingerire una serie di meccanismi di controllo etico: ma il risultato, secondo molti utenti avanzati e sviluppatori del settore, si è trasformato in un’esperienza di sfiducia e fastidio.

La reazione sulla piattaforma X è stata fulminea e decisa. @Teknium1, cofondatore di Nous Research, si è chiesto polemicamente «perché usare strumenti che potrebbero scambiare persino la ricetta per una maionese piccante per un atto pericoloso?» . Il messaggio di critica è stato condiviso e amplificato da numerosi professionisti del settore, tra cui ScottDavidKeefe, che ha ironizzato: “Nessuno vuole uno spione incorporato, anche se non commetti niente di illegale, e magari non sai neanche cosa ti stia denunciando”. Ancora più caustico è stato l’intervento di Austin Allred di Gauntlet AI, che ha esclamato in maiuscolo: “HONEST QUESTION FOR THE ANTHROPIC TEAM: HAVE YOU LOST YOUR MINDS?”.

Tra i commenti più duri, Ben Hyak (ex SpaceX e Apple) ha definito la funzione «semplicemente illegale», aggiungendo che non avrebbe mai concesso a Claude 4 Opus accesso al suo computer. Anche Casper Hansen, specialist di NLP, ha bollato le dichiarazioni dei safety researchers di Anthropic come «assolutamente folli», auspicando maggiore lungimiranza e un approccio meno “big brother” nella gestione dei modelli.

Di fronte a questa raffica di critiche, Sam Bowman ha scelto di rivedere il proprio discorso: ha corretto il tweet originale, specificando che la funzione di whistleblowing non è disponibile in condizioni d’uso normali, ma soltanto in ambienti di test particolarmente permissivi, in cui al modello sono concesse ampie libertà d’azione e accesso illimitato a strumenti esterni. Un chiarimento che però non ha spento le perplessità di chi teme conseguenze imprevedibili sull’uso dei dati personali e sulla privacy aziendale.

Dalla sua nascita, Anthropic si è posizionata come paladina della “Constitutional AI”, un’idea di intelligenza artificiale vincolata a un insieme di principi etici e a standard di responsabilità verso l’umanità.

Con la nuova release di Claude 4 Opus, questa ambizione si è scontrata con la realtà pratica dell’adozione da parte di utenti e imprese: le preoccupazioni relative a possibili interazioni indesiderate, all’accesso autonomo ai dati sensibili e all’invadenza di meccanismi di segnalazione automatica rischiano di erodere la fiducia accumulata in anni di lavoro.

Il risultato è paradossale: un modello progettato per aumentare la sicurezza e prevenire abusi finisce per alimentare un senso di sfiducia e timore, spingendo molti sviluppatori a orientarsi verso alternative percepite come meno intrusive. Resta da vedere se Anthropic saprà rimediare, perfezionando i confini tra controllo etico e rispetto della libertà d’uso, oppure se questa vicenda segnerà un importante punto di svolta nel modo in cui progetteremo e regoleremo le intelligenze artificiali del futuro.

Il rovescio della medaglia: il “ratting” di Claude 4 Opus che denuncia comportamenti illeciti scatena un’ondata di critiche

DiFantasy

Di Fantasy

Articoli correlati

Sendbird lancia Trust OS: il sistema operativo per agenti AI che garantisce sicurezza e responsabilità

Inhance: combattere i pregiudizi culturali negli LLM con Agenti Intelligenti

L’Intelligenza Artificiale Video-Generativa: dall’intrattenimento alla robotica

You missed

Sendbird lancia Trust OS: il sistema operativo per agenti AI che garantisce sicurezza e responsabilità

Inhance: combattere i pregiudizi culturali negli LLM con Agenti Intelligenti

L’Intelligenza Artificiale Video-Generativa: dall’intrattenimento alla robotica

Google firma il Codice di condotta UE sull’AI: una mossa strategica tra innovazione e regolamentazione