Stiamo vivendo l’era dei big data, che ha focalizzato ancora di più l’attenzione sul tema della privacy dei dati. Gli esseri umani producono un’incredibile quantità di dati ogni secondo e le aziende utilizzano questi dati per un’ampia gamma di applicazioni. Con l’archiviazione e la condivisione dei dati a un ritmo senza precedenti, devono esserci più tecniche di protezione della privacy. 

La privacy differenziale è uno di questi approcci alla protezione dei dati personali e si è dimostrato più efficace di molti dei nostri metodi tradizionali. Può essere definito come un sistema per la condivisione pubblica di informazioni su un set di dati descrivendo modelli di gruppi all’interno del set di dati mentre si trattengono le informazioni sugli individui nel set di dati. 

La privacy differenziale consente ai ricercatori e agli analisti di database di ottenere informazioni preziose dai database senza divulgare le informazioni di identificazione personale degli individui. Questo è fondamentale poiché molti database contengono una varietà di informazioni personali. 

Un altro modo di guardare alla privacy differenziale è che crea dati anonimi iniettando rumore nei set di dati. Il rumore introdotto aiuta a proteggere la privacy pur rimanendo sufficientemente limitato in modo che gli analisti possano utilizzare i dati in modo affidabile. 

Puoi avere due set di dati quasi identici. Uno con le tue informazioni personali e uno senza di esse. Con la privacy differenziale, puoi garantire che la probabilità che una query statistica produca un determinato risultato sia la stessa indipendentemente dal database su cui viene eseguita.

Come funziona la privacy differenziale? 
Il modo in cui funziona la privacy differenziale consiste nell’introdurre una perdita di privacy o un parametro di budget per la privacy, spesso indicato come epsilon (ε), nel set di dati. Questi parametri controllano quanto rumore o casualità viene aggiunto al set di dati non elaborato. 

Ad esempio, immagina di avere una colonna nel set di dati con le risposte “Sì”/”No” delle persone. 

Supponiamo ora di lanciare una moneta per ogni individuo: 

Teste: la risposta è lasciata così com’è.

Croce: capovolgi una seconda volta, registrando la risposta come “Sì” se testa e “No” se croce, indipendentemente dalla risposta reale. 
Utilizzando questo processo, aggiungi casualità ai dati. Con una grande quantità di dati e le informazioni dal meccanismo di aggiunta del rumore, il set di dati rimarrà accurato in termini di misurazioni aggregate. La privacy entra in gioco consentendo a ogni singolo individuo di negare plausibilmente la propria vera risposta grazie al processo di randomizzazione. 

Sebbene questo sia un esempio semplicistico di privacy differenziale, fornisce un livello base di comprensione. Nelle applicazioni del mondo reale, gli algoritmi sono più complessi. 

È anche importante notare che la privacy differenziale può essere implementata localmente, dove il rumore viene aggiunto ai singoli dati prima che sia centralizzato nel database, o globalmente, dove il rumore viene aggiunto ai dati grezzi dopo che sono stati raccolti dagli individui. 

Esempi di privacy differenziale
La privacy differenziale viene applicata a un’ampia gamma di applicazioni come sistemi di raccomandazione, social network e servizi basati sulla posizione. 

Ecco alcuni esempi di come le grandi aziende si affidano alla privacy differenziale: 

Apple utilizza il metodo per raccogliere informazioni anonime sull’utilizzo da dispositivi come iPhone e Mac. 
Facebook utilizza la privacy differenziale per raccogliere dati comportamentali che possono essere utilizzati per campagne pubblicitarie mirate. 
Amazon si affida alla tecnica per ottenere informazioni sulle preferenze di acquisto personalizzate nascondendo informazioni sensibili. 
Apple è stata particolarmente trasparente riguardo al suo utilizzo della privacy differenziale per ottenere informazioni sugli utenti preservando la loro privacy. 

“Apple ha adottato e ulteriormente sviluppato una tecnica nota nel mondo accademico come privacy differenziale locale per fare qualcosa di veramente entusiasmante: ottenere informazioni su ciò che fanno molti utenti Apple, contribuendo nel contempo a preservare la privacy dei singoli utenti. È una tecnica che consente ad Apple di conoscere la comunità degli utenti senza conoscere i singoli membri della comunità. La privacy differenziale trasforma le informazioni condivise con Apple prima ancora che lascino il dispositivo dell’utente in modo tale che Apple non possa mai riprodurre i dati reali”.

 – Panoramica sulla privacy differenziale di Apple 

Applicazioni della privacy differenziale
Poiché viviamo in questa era di big data, ci sono molte violazioni dei dati che minacciano governi, organizzazioni e aziende. Allo stesso tempo, le odierne applicazioni di apprendimento automatico si basano su tecniche di apprendimento che richiedono grandi quantità di dati di addestramento, spesso provenienti da individui. Anche gli istituti di ricerca utilizzano e condividono dati con informazioni riservate. La divulgazione impropria di questi dati in qualsiasi modo può causare molti problemi sia all’individuo che all’organizzazione e, nei casi più gravi, può portare a responsabilità civile. 

I modelli formali di privacy come la privacy differenziale affrontano tutti questi problemi. Sono utilizzati per proteggere le informazioni personali, la posizione in tempo reale e altro ancora. 

Utilizzando la privacy differenziale, le aziende possono accedere a una grande quantità di dati sensibili per la ricerca o per affari senza compromettere i dati. Gli istituti di ricerca possono anche sviluppare specifiche tecnologie di privacy differenziale per automatizzare i processi di privacy nelle comunità di condivisione del cloud, che stanno diventando sempre più popolari. 

Perché utilizzare la privacy differenziale? 
La privacy differenziale offre alcune proprietà principali che la rendono un eccellente framework per l’analisi dei dati privati ​​garantendo la privacy: 

Quantificazione della perdita di privacy: meccanismi e algoritmi di privacy differenziali possono misurare la perdita di privacy, il che consente di confrontarla con altre tecniche. 
Composizione: poiché puoi quantificare la perdita di privacy, puoi anche analizzarla e controllarla su più calcoli, consentendo lo sviluppo di diversi algoritmi. 
Privacy di gruppo: oltre al livello individuale, la privacy differenziale consente di analizzare e controllare la perdita di privacy tra gruppi più grandi. 
Sicuro nella post-elaborazione: la privacy differenziale non può essere danneggiata dalla post-elaborazione. Ad esempio, un analista di dati non può calcolare una funzione dell’output di un algoritmo privato differenziale e renderlo meno privatamente differenziale. 
Vantaggi della privacy differenziale
Come accennato in precedenza, la privacy differenziale è migliore di molte tecniche di privacy tradizionali. Ad esempio, se tutte le informazioni disponibili sono informazioni identificate, la privacy differenziale semplifica l’identificazione di tutti gli elementi dei dati. È inoltre resistente agli attacchi alla privacy basati su informazioni ausiliarie, prevenendo gli attacchi che possono essere eseguiti su dati non identificati. 

Uno dei maggiori vantaggi della privacy differenziale è che è composizionale, il che significa che è possibile calcolare la perdita di privacy dell’esecuzione di due analisi private differenziate sugli stessi dati. Questo viene fatto sommando le perdite di privacy individuali per le due analisi. 

Mentre la privacy differenziale è un nuovo strumento e può essere difficile da raggiungere al di fuori delle comunità di ricerca, le soluzioni facili da implementare per la privacy dei dati stanno diventando più accessibili. Nel prossimo futuro, dovremmo vedere un numero crescente di queste soluzioni disponibili a un pubblico più ampio. 

Alex Mcfarland da unite.ai

Di ihal