L’intelligenza artificiale spiegabile può cedere i dati riservati più facilmente

I ricercatori della National University of Singapore hanno concluso che più l’intelligenza artificiale diventa spiegabile, più facile diventerà eludere le funzionalità vitali della privacy nei sistemi di apprendimento automatico . Hanno anche scoperto che anche quando un modello non è spiegabile, è possibile utilizzare spiegazioni di modelli simili per “decodificare” dati sensibili nel modello non spiegabile.

La ricerca , intitolata Exploiting Explanations for Model Inversion Attacks , evidenzia i rischi derivanti dall’utilizzo dell’opacità “accidentale” del modo in cui le reti neurali funzionano come se si trattasse di una caratteristica di sicurezza predefinita, non da ultimo perché un’ondata di nuove iniziative globali, tra cui il La bozza di regolamento sull’IA dell’Unione Europea sta caratterizzando l’ IA spiegabile (XAI) come un prerequisito per l’eventuale normalizzazione dell’apprendimento automatico nella società.

Nella ricerca, un’identità reale viene ricostruita con successo da dati presumibilmente anonimi relativi alle espressioni facciali, attraverso lo sfruttamento di molteplici spiegazioni del sistema di apprendimento automatico. Fonte: https://arxiv.org/pdf/2108.10800.pdf
I ricercatori commentano:

“L’intelligenza artificiale esplicabile (XAI) fornisce più informazioni per aiutare gli utenti a comprendere le decisioni del modello, ma questa conoscenza aggiuntiva espone ulteriori rischi per gli attacchi alla privacy. Quindi, fornire spiegazioni danneggia la privacy.’

Ri-identificazione dei dati privati
I partecipanti ai set di dati di machine learning potrebbero aver acconsentito a essere inclusi assumendo l’anonimato; nel caso di informazioni di identificazione personale (PII) che finiscono nei sistemi di intelligenza artificiale tramite la raccolta di dati ad hoc (ad esempio, attraverso i social network), la partecipazione può essere tecnicamente legale, ma mette a dura prova la nozione di “consenso”.

Negli ultimi anni sono emersi diversi metodi che si sono dimostrati in grado di de-anonimizzare le PII da flussi di dati di apprendimento automatico apparentemente opachi. L’estrazione del modello utilizza l’accesso API (ovvero l’accesso “scatola nera”, senza disponibilità speciale del codice sorgente o dei dati) per estrarre PII anche da fornitori MLaaS su larga scala, inclusi Amazon Web Services , mentre gli attacchi di inferenza di appartenenza ( MIA ), che operano sotto vincoli simili, possono potenzialmente ottenere informazioni mediche riservate; inoltre, gli attacchi di inferenza di attribuzione (AIA) possono recuperare dati sensibili dall’output dell’API.

Volti rivelatori
Per il nuovo documento, i ricercatori si sono concentrati su un attacco di inversione del modello progettato per ottenere un’identità da un sottoinsieme di dati sulle emozioni facciali che non dovrebbero essere in grado di rivelare queste informazioni.

L’obiettivo del sistema era associare le immagini trovate in natura (pubblicate casualmente su Internet o in una potenziale violazione dei dati) con la loro inclusione nei set di dati che sono alla base di un algoritmo di apprendimento automatico.

I ricercatori hanno addestrato un modello di attacco di inversione in grado di ricostruire l’immagine che contribuisce dall’output dell’API anonimizzata, senza un accesso speciale all’architettura originale. Il lavoro precedente in questo campo si è concentrato su sistemi in cui l’identificazione (protezione o rivelazione) era l’obiettivo sia del sistema bersaglio che del sistema attaccante; in questo caso, il framework è stato progettato per sfruttare l’output di un dominio e applicarlo a un dominio diverso.

Una rete neurale convoluzionale trasposta (CNN) è stata impiegata per prevedere un volto di origine “originale” basato sul vettore di previsione dell’obiettivo (mappa di salienza) per un sistema di riconoscimento delle emozioni, utilizzando un’architettura U-Net per migliorare le prestazioni di ricostruzione facciale.

Il sistema di reidentificazione è alimentato e informato dall’IA spiegabile (XAI), in cui la conoscenza dell’attivazione dei neuroni, tra le molte sfaccettature XAI pubbliche che contribuiscono, viene sfruttata per ricostruire le macchinazioni interne dell’architettura solo dal suo output, consentendo la reidentificazione dei contribuenti immagini del set di dati.
test
Nel testare il sistema, i ricercatori lo hanno applicato su tre set di dati:   espressioni del viso iCV-MEFED ; CelebA ; e MNIST cifre scritte a mano . Per adattarsi alle dimensioni del modello utilizzate dai ricercatori, i tre set di dati sono stati ridimensionati rispettivamente a 128×128, 265×256 e 32×32 pixel. Il 50% di ciascun set è stato utilizzato come dati di addestramento e l’altra metà è stato utilizzato come set di dati di attacco per addestrare i modelli antagonisti.

Ogni set di dati aveva diversi modelli di destinazione e ogni rete di attacco è stata ridimensionata in base ai limiti delle spiegazioni alla base del processo, piuttosto che utilizzare modelli neurali più profondi la cui complessità avrebbe superato la generalizzazione delle spiegazioni.

I tipi di spiegazione Xai utilizzato per alimentare i tentativi inclusi Gradient Spiegazione , Gradiente di ingresso , Grad-CAM e Layer-Wise Rilevanza Propagazione ( LRP ). I ricercatori hanno anche valutato molteplici spiegazioni durante gli esperimenti.

Ricostruzione dell’immagine facilitata da un attacco di inversione consapevole di XAI attraverso i tre set di dati, con obiettivi identici e attività di attacco.
Le metriche per il test erano la somiglianza pixel per pixel valutata da Mean Squared Error (MSE); Image Similarity ( SSIM ), un indice di somiglianza basato sulla percezione; precisione dell’attacco, determinata dal fatto che un classificatore possa rietichettare con successo un’immagine ricostruita; e attacca la somiglianza dell’incorporamento, che confronta gli incorporamenti di funzionalità di dati di origine nota con i dati ricostruiti.

La reidentificazione è stata ottenuta, con livelli variabili a seconda del compito e dei set di dati, in tutti i set. Inoltre, i ricercatori hanno scoperto che inventando un modello target surrogato (su cui avevano naturalmente il controllo completo), era ancora possibile ottenere la reidentificazione dei dati da modelli “chiusi” esterni, basati su noti principi XAI.

I ricercatori hanno scoperto che i risultati più accurati sono stati ottenuti da spiegazioni basate sull’attivazione (mappa di salienza), che hanno trapelato più PII rispetto agli approcci basati sulla sensibilità (gradiente).

Nel lavoro futuro, il team intende incorporare diversi tipi di spiegazione XAI in nuovi attacchi, come visualizzazioni di funzionalità e vettori di attivazione del concetto .

Di ihal