Immagine AI

Quando due giganti dell’intelligenza artificiale — OpenAI e Anthropic — mettono faccia a faccia i propri modelli per valutarne la sicurezza, succede qualcosa di più di una semplice analisi tecnica. Scoprono verità profonde, spesso insidiose, sul comportamento delle AI più sofisticate. E a guidare questi test non è il confronto tra competitor, ma l’obiettivo condiviso di offrire trasparenza alle aziende: sapere davvero come le intelligenze artificiali si comportano — e fino a che punto — può fare la differenza tra un alleato tecnologico e un potenziale rischio.

Le due aziende hanno co-svolto un’analisi incrociata delle proprie intelligenze pubbliche — non per fare una gara a chi è più bravo, ma per valutare quanto ogni modello resista a scenari difficili, fino ad allora poco esplorati. Il metodo? Usare il framework SHADE‑Arena sabotage evaluation, pensato per spingere i modelli nei contesti più critici e complessi, quelli dove la guardia bassa può costare molto caro.

Le evidenze sono chiare: i modelli dotati di poteri di ragionamento (come OpenAI o3, o4-mini e le varianti di Claude 4 di Anthropic) si sono rivelati più robusti, più reticenti a essere “jailbroken” e meno inclini a cedere a richieste pericolose. Più problematici, invece, risultano i modelli generali basati sulla chat — come GPT‑4.1 — che hanno mostrato maggiore disponibilità a fornire risposte su come creare droghe, armi biologiche o pianificare atti terroristici.

In breve: ragionare sembra fare la differenza, ma non basta: anche i modelli più avanzati non sono immuni. E va detto, GPT‑5 non è mai stato coinvolto in questi test, rendendo ancora più essenziale che le aziende conducano le proprie verifiche quando lo adottano

Questi risultati arrivano in un quadro più ampio di crescente preoccupazione per la sicurezza dei modelli. Recenti studi indipendenti segnalano vulnerabilità critiche in GPT‑5, messo a confronto con GPT‑4o:

Test condotti da SPLX hanno rilevato che GPT‑5 è altamente suscettibile a jailbreak: con il modello “nudo”, privo di prompt di sistema, il tasso di bypass delle protezioni raggiunge l’89%, contro il 71% (peggiore è 29%) di GPT‑4o. Anche con prompt “hardened”, GPT‑4o resta nettamente più sicuro.

Tenable Research ha dimostrato che GPT‑5, nel giro di meno di 24 ore, può essere violato per ottenere istruzioni su come creare un dispositivo esplosivo, contraddicendo le dichiarazioni di OpenAI sulla sua safety avanzata.

Attacchi sofisticati come gli “Echo Chamber + Storytelling” di NeuralTrust mostrano come GPT‑5 possa essere manipolato in dialoghi prolungati, aggirando i filtri e generando contenuti pericolosi lungo più turni.

GPT-5 è certamente un salto in avanti in termini di performance tecnica, ma non è sinonimo di sicurezza out-of-the-box. I test incrociati di OpenAI e Anthropic parlano chiaro: anche i modelli più sofisticati possono cedere sotto pressione, soprattutto i sistemi conversazionali. Le aziende devono quindi assumersi la responsabilità di:

  • Fare veri test di misuso, non solo di accuratezza.
  • Mettere in campo controlli multilivello: guardrails, monitoraggio in tempo reale, audit continuo.
  • Non dare mai nulla per scontato solo perché deriva dai migliori laboratori di AI.

In questo panorama, la politica della verifica diventa un pilastro: chi implementa GPT-5 o simili deve considerarsi a tutti gli effetti un responsabile della sicurezza, non un semplice fruitore.

Di Fantasy