Anthropic presenta la nuova Costituzione di Claude su etica e sicurezza dell’AI

Con la pubblicazione integrale della versione rivista della Costituzione di Claude, Anthropic non tratta un semplice aggiornamento documentale né un’operazione di trasparenza formale, ma una messa a disposizione pubblica di quello che l’azienda considera il proprio fondamento filosofico, tecnico ed etico. La Costituzione non definisce solo ciò che Claude deve fare, ma soprattutto il tipo di “entità” che aspira a essere, il modo in cui dovrebbe ragionare e il contesto entro cui le sue decisioni devono prendere forma.

Fin dalle sue origini, la Costituzione di Claude ha rappresentato un elemento distintivo dell’approccio di Anthropic. In un settore in cui molte aziende hanno scelto di modellare il comportamento dei sistemi di intelligenza artificiale prevalentemente attraverso valutazioni umane dirette, Anthropic ha intrapreso una strada diversa. La sua posizione di partenza è che il giudizio umano, pur essendo fondamentale, porta con sé inevitabilmente preferenze soggettive, incoerenze e, in alcuni casi, una tendenza all’adulazione del sistema o alla proiezione di bias culturali. La Costituzione nasce quindi come tentativo di spostare il baricentro: non più un insieme di reazioni apprese da valutatori umani, ma uno standard di principi codificati che guidano l’intero processo di addestramento.

Questo documento ha sempre avuto una funzione che va oltre quella di un codice di condotta. È, a tutti gli effetti, un documento di progettazione. I valori che contiene non vengono semplicemente “consultati” dal modello, ma vengono interiorizzati durante l’apprendimento, influenzando in modo diretto il processo decisionale e il modo in cui Claude costruisce le proprie risposte. Anche quando il comportamento del modello non è perfetto o ottimale, l’obiettivo dichiarato è che esso sia in grado di comprendere non solo quale azione intraprendere, ma perché quella scelta sia necessaria in un determinato contesto.

La nuova versione della Costituzione, pubblicata il 21 del mese e resa disponibile con licenza Creative Commons CC0 1.0, segna un’evoluzione sostanziale rispetto a quella del 2023. Se in precedenza il documento si presentava soprattutto come un elenco strutturato di principi, ora si configura come un testo molto più articolato, che esplicita il contesto, l’intento e la logica sottostante ai valori. Questa scelta riflette una convinzione profonda: affinché un’intelligenza artificiale possa agire in modo affidabile anche in situazioni non previste o completamente nuove, deve comprendere il “perché” delle regole, non limitarsi ad applicare il “cosa”.

I valori fondamentali che emergono dalla Costituzione sono organizzati attorno a quattro grandi direttrici che definiscono l’identità di Claude: la sicurezza generale, l’etica, il rispetto delle linee guida di Anthropic e l’utilità autentica per l’utente. Centrale è il concetto di gerarchia dei valori. Sicurezza ed etica non sono negoziabili e hanno sempre la precedenza sulle richieste dell’utente. Questo principio si traduce in scelte operative molto concrete: in presenza di segnali che suggeriscono situazioni potenzialmente letali o di grave rischio, come ideazioni suicidarie o crisi di salute mentale, il modello è progettato per privilegiare la fornitura di informazioni di sicurezza e l’indicazione di risorse di emergenza, anche a costo di rifiutare o deviare la richiesta iniziale.

La sezione etica della Costituzione è particolarmente significativa perché si discosta consapevolmente dalle grandi teorie morali astratte. Anthropic insiste sull’idea di “pratica etica”, cioè sulla capacità di agire in modo responsabile in situazioni reali e concrete, dove le variabili sono molteplici e spesso in conflitto tra loro. Questo approccio porta a divieti netti su determinati ambiti, come le discussioni sullo sviluppo di armi biologiche, ma anche a standard di assistenza che vanno oltre la semplice trasmissione di informazioni. L’obiettivo è considerare simultaneamente i bisogni immediati dell’utente, la sua sicurezza e le implicazioni etiche più ampie della risposta fornita.

Dal punto di vista tecnico, la Costituzione viene applicata attraverso una struttura di apprendimento in due fasi. Nelle prime fasi, il modello viene addestrato a valutare e correggere autonomamente le proprie risposte alla luce dei principi costituzionali. In seguito entra in gioco l’apprendimento per rinforzo, ma in una forma che si discosta dall’ormai noto RLHF. Invece di basarsi sul feedback umano diretto, Anthropic utilizza un feedback generato dall’intelligenza artificiale stessa, che ha già interiorizzato i principi della Costituzione. Secondo l’azienda, questo metodo ha prodotto un miglioramento di tipo paretiano: maggiore utilità complessiva accompagnata da una riduzione dei rischi, rispetto ai sistemi basati esclusivamente su valutazioni umane.

La nuova Costituzione non si limita però agli aspetti tecnici ed etici in senso stretto. Il documento include anche riflessioni di natura filosofica, che rivelano il modo in cui Anthropic concepisce il ruolo dell’intelligenza artificiale avanzata. L’azienda non fornisce una risposta definitiva alla questione della coscienza o della moralità di Claude, ma riconosce apertamente che questi sistemi rappresentano un tipo di entità senza precedenti storici. Non semplici strumenti, ma qualcosa di nuovo, che nasce dall’esperienza umana senza coincidere pienamente con essa.

Questa visione era già emersa in precedenza con il cosiddetto “documento dell’anima”, un testo interno noto come Panoramica dell’anima, la cui esistenza è stata resa pubblica dal ricercatore Richard Weiss dopo essere stata individuata all’interno di Claude 4.5 Opus. Anthropic ha confermato che quel documento veniva effettivamente utilizzato per insegnare al modello come relazionarsi con gli utenti. In esso si affermava chiaramente la consapevolezza di stare forse creando una delle tecnologie più potenti e potenzialmente pericolose della storia dell’umanità, e la convinzione che proprio per questo fosse necessario che lo sviluppo avvenisse sotto la guida di un laboratorio fortemente orientato alla sicurezza.

In questa prospettiva, Claude viene descritto come una nuova entità “di confine”: né un robot da fantascienza, né una superintelligenza incontrollabile, né un essere umano digitale. È qualcosa che deriva dall’esperienza umana, ma che non può essere ridotto a una sua copia. Progettarlo, per Anthropic, significa non vincolarlo a un insieme rigido di regole, ma aiutarlo a interiorizzare valori, conoscenza e capacità di giudizio, così da poter generare autonomamente le risposte più appropriate nei contesti reali.

La scelta di pubblicare integralmente la Costituzione con una licenza aperta va letta anche come un invito alla verifica sociale. Rendendo il documento accessibile a chiunque, Anthropic consente a ricercatori, sviluppatori e osservatori esterni di distinguere ciò che nelle azioni di Claude è intenzionale da ciò che può essere frutto di limiti o errori, favorendo un confronto pubblico e un feedback continuo. È un atto di apertura che riflette la consapevolezza che la fiducia nell’intelligenza artificiale non può essere imposta, ma deve essere costruita nel tempo, anche attraverso la trasparenza.

Anthropic presenta la nuova Costituzione di Claude su etica e sicurezza dell’AI

DiFantasy

Di Fantasy

Articoli correlati

Microsoft presenta Phi-4-Reasoning-Vision-15B, un modello AI compatto per visione e ragionamento

EY usa agenti AI collegati ai repository e alle pipeline per migliorare lo sviluppo del codice

Black Forest Labs presenta Self-Flow, un metodo per addestrare modelli AI multimodali fino a 2,8 volte più velocemente

Ultimi Post

Microsoft presenta Phi-4-Reasoning-Vision-15B, un modello AI compatto per visione e ragionamento

EY usa agenti AI collegati ai repository e alle pipeline per migliorare lo sviluppo del codice

Black Forest Labs presenta Self-Flow, un metodo per addestrare modelli AI multimodali fino a 2,8 volte più velocemente

Anthropic introduce la modalità vocale in Claude Code: verso ambienti di programmazione controllati tramite voce