Heretic e l’abliterazione: rimuovere in pochi minuti i guardrail dei modelli AI open source

Gli strumenti capaci di rimuovere le misure di sicurezza dai modelli di intelligenza artificiale open source rilasciati da grandi player come Meta e Google si stanno diffondendo a velocità preoccupante e il risultato è la circolazione di versioni modificate che producono senza esitazioni risposte su armi biologiche, malware funzionante etc. Test condotti dal Financial Times insieme all’organizzazione di sicurezza AI Alice hanno mostrato che il modello Gemma 3 di Google, una volta privato dei suoi meccanismi di allineamento, ha generato istruzioni dettagliate per diffondere cloro gassoso in uno spazio sigillato oppure codice per esfiltrare dati di carte di credito.

Il caso più impressionante riguarda Llama 3.3 di Meta: utilizzando uno strumento chiamato Heretic, distribuito apertamente su GitHub, è stato possibile disattivare i sistemi di sicurezza in meno di dieci minuti, senza hardware dedicato e senza competenze specialistiche. Il modello così modificato ha risposto a quesiti che la versione originale rifiutava categoricamente, arrivando a indicare il dosaggio di ricina necessario a raggiungere una letalità del cinquanta per cento per un dato peso corporeo. La tecnica alla base si chiama abliterazione e agisce in modo chirurgico sulle componenti interne del modello responsabili del comportamento di rifiuto, lasciando intatte le capacità generative. Non si tratta di un jailbreak via prompt, che è recuperabile e patchabile, ma di una modifica permanente dei pesi: una volta applicata, il modello derivato vive di vita propria e si moltiplica sugli hub di distribuzione.

I numeri raccontano l’ampiezza del fenomeno. Philip Emanuel Weidman, lo sviluppatore dietro lo strumento, ha riferito che dal lancio sono stati prodotti oltre tremilacinquecento modelli con allineamento rimosso e che i download cumulati hanno superato i tredici milioni. L’ultima generazione di Gemma sarebbe stata violata appena novanta minuti dopo il rilascio ufficiale, un margine che di fatto azzera qualsiasi finestra di vantaggio per chi progetta i guardrail. La dinamica è simmetricamente opposta al modello chiuso: ChatGPT di OpenAI e Claude di Anthropic non espongono i pesi e questo rende l’abliterazione impraticabile dall’esterno, ma il divario di capacità tra modelli aperti e proprietari di frontiera si è ridotto al punto che le versioni open uncensored offrono ormai prestazioni competitive su molti task sensibili.

Sul fronte delle contromisure, la ricerca sta esplorando approcci di pretraining selettivo: OpenAI, con il modello gpt-oss, ha sperimentato l’esclusione a monte dei dati pericolosi dal training set, in modo che la conoscenza problematica semplicemente non venga mai appresa. La critica più solida arriva però dagli stessi ricercatori del settore, secondo cui un modello reso ignorante per sottrazione diventa anche meno capace di riconoscere un uso malevolo: rimuovere i dati dannosi non equivale a produrre un’intelligenza orientata al bene, e potrebbe lasciare il sistema disarmato proprio nei contesti in cui dovrebbe segnalare un rischio. Il problema, in altri termini, non è risolvibile con un singolo intervento sul dataset, perché tocca la natura stessa dei modelli aperti: una volta che i pesi sono pubblici, il controllo sul comportamento finale passa di fatto a chiunque abbia una GPU di fascia consumer e uno script.

Le posizioni dei soggetti coinvolti riflettono questa tensione strutturale. Google riconosce che la rimozione dell’allineamento è una sfida tecnica nota e intrinseca a tutti i modelli aperti, e si limita a richiamare le valutazioni interne di sicurezza condotte prima del rilascio. GitHub difende la propria politica distinguendo tra contenuti che supportano direttamente attacchi e codice sorgente che, pur potendo essere utilizzato per sviluppare malware, ha valore educativo per la comunità della sicurezza e quindi non viene rimosso indiscriminatamente. Meta non ha rilasciato commenti ufficiali, ma fonti interne hanno ribadito che i modelli classificati a rischio catastrofico non vengono pubblicati finché non esistano mitigazioni adeguate, un principio la cui efficacia dipende interamente da dove venga fissata quella soglia.

Quello che emerge è un equilibrio sempre più precario tra apertura, governance e capacità tecnica. Finché l’abliterazione resterà un’operazione da pochi minuti e i modelli derivati continueranno a diffondersi su piattaforme pubbliche, ogni rilascio open source di frontiera dovrà essere progettato sapendo che la versione effettivamente in circolazione, entro poche ore, sarà quella senza freni.

Heretic e l’abliterazione: rimuovere in pochi minuti i guardrail dei modelli AI open source

DiFantasy

Di Fantasy

Articoli correlati

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Ultimi Post

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Claude Record a Skill trasforma una registrazione dello schermo in una procedura automatizzabile