I ricercatori dell’Illinois Tech estraggono informazioni personali da dati anonimi di telefoni cellulari utilizzando l’apprendimento automatico, sollevando problemi di sicurezza dei dati e privacy
Un team di ricerca dell’Illinois Institute of Technology ha estratto informazioni personali da dati anonimi di telefoni cellulari utilizzando l’apprendimento automatico e l’intelligenza artificiale, sollevando problemi di sicurezza dei dati 


Un team di ricerca dell’Illinois Institute of Technology ha estratto informazioni personali , caratteristiche specificamente protette come età e sesso, da dati di telefoni cellulari anonimi utilizzando algoritmi di apprendimento automatico e intelligenza artificiale, sollevando domande sulla sicurezza dei dati.

La ricerca è stata condotta da un team interdisciplinare di tre facoltà dell’Illinois Tech tra cui  Vijay K. Gurbani , professore associato di ricerca di informatica; Matthew Shapiro , professore di scienze politiche; e  Yuri Mansury , professore associato di scienze sociali. A loro si sono uniti gli ex studenti dell’Illinois Tech Lida Kuang (MS CS ’19) e Samruda Pobbathi (MS CS ’19) che hanno lavorato con Gurbani per pubblicare ” Predicting Age and Gender from Network Telemetry: Implications for Privacy and Impact on Policy ” in  PLOS One . I ricercatori hanno utilizzato i dati di un’azienda di telefoni cellulari latinoamericani per stimare con successo il sesso e l’età dei singoli utenti attraverso le loro comunicazioni private con relativa facilità.

Il team ha sviluppato un modello di rete neurale per stimare il genere con una precisione del 67%, che supera di gran lunga le tecniche moderne come l’albero decisionale, la foresta casuale e i modelli di aumento del gradiente. Sono stati anche in grado di stimare l’età dei singoli utenti con un tasso di precisione del 78% utilizzando lo stesso modello.

“Le informazioni sull’età e sul sesso sembrano innocue, ma queste informazioni vengono utilizzate in modi nefasti dalle persone, molte volte con conseguenze devastanti”, afferma Shapiro. “Quando qualcuno con cattive intenzioni prende di mira i bambini piccoli per qualsiasi cosa, dalla vendita alla predazione sessuale, viola una serie di leggi progettate per proteggere i minori, come il Children’s Online Privacy Protection Act e l’HIPAA. All’altra estremità dello spettro di età, gli anziani sono presi di mira da sofisticati tentativi di spam e phishing data la loro suscettibilità e il loro accesso al risparmio”.

Queste informazioni sono state estrapolate utilizzando apparecchiature informatiche comunemente accessibili. Il team ha utilizzato un sistema operativo Linux (Fedora) con 16 GB di memoria e una CPU Intel i5-6200U con quattro core per eseguire il modello di rete neurale.

“Il laptop che abbiamo utilizzato per questo lavoro non è affatto esclusivo”, afferma Gurbani. “Per un avversario con risorse adeguate, saranno disponibili macchine molto più potenti, incluso l’accesso al cluster computing, in cui più computer sono configurati in un cluster per fornire la potenza del computer per i modelli AI/ML”.

Il set di dati utilizzato per condurre la ricerca non è disponibile al pubblico, ma Gurbani afferma che un avversario potrebbe raccogliere un set di dati simile acquisendo dati tramite hotspot Wi-Fi pubblici o attaccando l’infrastruttura informatica dei fornitori di servizi.

“Come accennato nel nostro articolo, tali attacchi purtroppo si verificano e non sono rari”, afferma Gurbani. “Il processo per raccogliere questi dati non sarebbe facile, ma nemmeno impossibile”.

L’obiettivo del documento è avviare un dialogo che esamini criticamente l’impatto che l’apprendimento automatico e le tecniche di intelligenza artificiale emergenti hanno sulle normative sulla privacy. Non esistono normative sulla privacy a livello nazionale negli Stati Uniti, quindi i ricercatori hanno esaminato il modo in cui queste tecniche intaccano gli articoli del regolamento generale sulla protezione dei dati dell’Unione europea, progettati per proteggere i consumatori dalla minaccia imminente di violazioni della privacy.

“Il machine learning e il processo decisionale automatizzato saranno una corrente principale dei processi aziendali,

e non c’è modo di sfuggire a quella realtà”, dice Gurbani. “Il problema in questione è come proteggere la privacy individuale, nonché gli interessi sociali ed economici dalle frodi utilizzando il quadro normativo appropriato”.

Un modo per farlo, afferma Mansury, è fornire ai consumatori la “opzione di esclusione” per mantenere private le proprie informazioni personali durante l’installazione di un’app.

Le raccomandazioni includono l’utilizzo di dati sintetici piuttosto che l’osservazione degli utenti per i modelli di apprendimento automatico, affinché i titolari di dati lavorino con specialisti di apprendimento automatico per sviluppare le migliori pratiche, per costruire un quadro normativo che consenta agli utenti di rinunciare alla condivisione dei dati per mantenere private le informazioni personali e per aggiornare i protocolli di non conformità esistenti. In altre parole, c’è ancora molto lavoro da fare per affrontare le lacune politiche e l’etica dell’IA.

 
Previsione di età e sesso dalla telemetria di rete: implicazioni per la privacy e impatto sulle politiche
 

L’approccio del team di ricerca alla sintesi dei modelli per il progetto. 
[Bottom] Una rete neurale feedforward di come le informazioni si muovono nel progetto
CREDITO
Istituto di tecnologia dell’Illinois

Di ihal