Nel vasto universo dell’intelligenza artificiale, uno dei temi più sensibili è la censura: come evitare che un modello generi contenuti indesiderati o persino pericolosi. Sembra una questione di scienza precisa, come cancellare un file dal computer. E invece, lo studio di ricercatori dell’Università del Maryland mostra che, nel mondo dei modelli AI, “cancellare” un concetto è tutt’altro che semplice – e spesso fallisce.
Il cuore della ricerca verte sulle Concept Erasure Techniques (CETs) applicate ai modelli generativi, in particolare ai modelli diffusion per immagini. L’obiettivo è semplice: impedire che il modello generi contenuti relativi a un certo concetto — per esempio, “veicolo”. Ma i risultati sono tutt’altro che rassicuranti.
Anche dopo aver tentato di rimuovere un concetto come “vehicle”, nel 80% dei casi il modello continuava a generare immagini di automobili o autobus, ancora parte della stessa categoria. L’illusione della cancellazione si infrange di fronte alla complessità delle relazioni semantiche e la compresenza dei concetti nel modello.
Ma il fallimento non è l’unica conseguenza. La cancellazione di un concetto può avere vistosi effetti collaterali: deformazioni visive, qualità inferiore delle immagini e addirittura il trasferimento di attributi a concetti non collegati. Questo fenomeno è definito “attribute leakage”: eliminarne uno, e un altro potrebbe assumere caratteristiche indesiderate come colore o materiale.
Un esempio: cancellare “blue couch” può spingere il modello a generare un vaso con le stesse tonalità, un risultato decisamente lontano dall’intento originario. Inoltre, gli attention maps – le mappe che guidano il modello sul focus visivo da dare alla generazione – si disperdono, compromettendo la coerenza estetica.
Un’osservazione interessante del paper riguarda la strategia di erasure: eliminare i concetti uno alla volta, in maniera progressiva, sembra più efficace rispetto a un approccio simultaneo. Tuttavia, anche questa via riduce solo in parte gli effetti indesiderati.
Consapevoli di ciò, gli autori non si accontentano di smontare le promesse di alcune tecniche esistenti. Hanno sviluppato il Side Effect Evaluation (SEE) dataset, un set di prompt composizionali — come “small red wooden car” — pensato per mettere alla prova le capacità reali dei modelli di cancellazione, valutando non solo la sparizione del concetto, ma anche il mantenimento della qualità e la non interferenza su altri concetti.
L’analisi mostra quanto siano interconnessi i concetti nei modelli AI: la loro rappresentazione nel “latent space” è intrecciata, ammassata. Tentare di annullare un’idea significa smontare un nodo di un tessuto intricato, e spesso questo tessuto si sfalda o si riforma altrove. Non serve solo intervenire sui nodi visibili, ma reinventare l’architettura stessa di come le idee si aggregano.
Censurare i modelli AI eliminando singoli concetti è un’operazione fragile, inefficace e rischiosa. I modelli restano resistenti, resilienti nella loro capacità di generazione. Le cancellazioni possono scivolare sulle sfumature, lasciare tracce, deteriorare la qualità visiva o veicolare attributi nei luoghi sbagliati. Serve un cambiamento di paradigma, non solo tecniche più raffinate, ma valutazioni più rigorose — come il benchmark SEE — e un approccio che consideri la natura composizionale e stratificata dei concetti.
In sostanza, il limite non si supera cancellandolo: serve riconfigurare il sistema.