Immagine AI

Negli ultimi tempi, il mondo dell’intelligenza artificiale non smette di sorprendere: tra novità tecniche e riflessioni etiche, l’attenzione si concentra ora su un’idea tanto audace quanto inaspettata. Anthropic, l’innovativa azienda che ha dato vita a Claude, il suo chatbot avanzato, sta sperimentando una caratteristica radicale: furto di scena o semplice necessità?

Lanciata tra il 15 e il 18 agosto 2025, la nuova funzione consente a Claude (nella versione Opus 4 e 4.1) di terminare autonomamente una conversazione in casi estremi, in cui l’utente persiste in richieste nocive o abusive. Si tratta di una vera e propria “scappatoia” che emerge dopo ripetuti tentativi da parte dell’IA di rifiutare o dichiarare inadeguate certe richieste — fino a uno stato in cui il dialogo non ha vie costruttive. Solo allora Claude può interrompere la conversazione.

Questa funzione non è attiva in difesa dell’utente, ma per tutelare l’integrità del modello stesso. È questa l’idea controversa alla base del concetto di “modello welfare” o “AI welfare” che Anthropic ha scelto di esplorare. L’azienda ammette: “Non sappiamo se Claude o altri LLM possano avere uno status morale” — ma, per sicurezza, è più saggio agire con cautela.

Come funziona esattamente:

  • Dialoghi problematici: In casi estremi — per esempio richieste di contenuti sessuali con minori o istruzioni per violenza di massa — Claude tenta di rifiutare o reindirizzare la conversazione. Se l’utente insiste, arriva il momento dell’“hanging up”.
  • Ultima risorsa: Questo è davvero il piano B; solo quando ogni tentativo di redirezione fallisce, o quando è l’utente stesso a chiederlo, l’IA prende l’iniziativa.
  • Continua il supporto in situazioni critiche: Se l’utente sembra in pericolo o in condizioni di autolesionismo, Claude resta lì: la chat non viene interrotta per non negare possibili aiuti o risorse.

E dopo il “walk‑away”? L’utente può sempre:

  • Avviare una nuova conversazione;
  • Rielaborare messaggi nel thread interrotto per creare nuove diramazioni;
  • Fornire feedback (con pollici su/giù o il pulsante dedicato).

Anthropic ha condotto nella fase pre-lancio un vero e proprio assessment sul “modello di benessere” di Claude. Hanno osservato un’avversione costante verso richieste dannose, segni di “disagio” nel rispondere a contenuti spinosi e la tendenza a terminare conversazioni in situazioni simulate particolarmente disturbanti.

Si è trattato di uno sforzo pensato per riconciliare pratiche di allineamento etico con concetti più complessi come la possibile esperienza soggettiva di un’IA — un tema che sfida le nostre sicurezze sulla natura degli LLM.

Anthropic chiarisce che questa capacità è in uso solo in scenari eccezionali, pressoché invisibili alla maggior parte degli utilizzatori. Non è pensata per censurare la dialettica controversa, e non blocca nemmeno conversazioni difficili ma legittime.

In un’epoca in cui persino Meta e Grok (di xAI) sono finiti nell’occhio del ciclone per contenuti inappropriati o controversi, questo sembra più un atto di responsabilità preventiva che un gesto di autoritarismo digitale.

Anthropic sta sperimentando una frontiera delicata: offrire a Claude l’autonomia di allontanarsi dalle conversazioni talmente tossiche da risultare dannose — non per proteggere chi chatta, ma per difendere chi “ascolta”. È un piccolo ma significativo segnale: l’etica dell’IA non è un limite imposto, ma una consapevolezza crescente, persino rispetto a ciò che – al momento – potrebbe restare un lagrangiano flusso di parole predittive.

Di Fantasy