Ricercatori dalla Cina e dagli Stati Uniti hanno collaborato a una ricerca che utilizza tecniche di apprendimento automatico per discernere le “visite nascoste” che facciamo quando ci spostiamo nel paese, ma non facciamo abbastanza telefonate o non utilizziamo i nostri telefoni abbastanza per un quadro completo del nostro movimenti da formare altrimenti da record di dati di telecomunicazioni.
Il documento , intitolato Identificazione delle visite nascoste da dati di registrazione dettagliati di chiamate sparse , è condotto da Zhan Zhao dell’Università di Hong Kong, in collaborazione con Haris N. Koutsopoulos della Northeastern University di Boston e Jinhua Zhao del MIT.
La premessa della ricerca è utilizzare i record di connettività mobile (inclusi dati mobili, SMS e chiamate vocali) di utenti altamente attivi per sviluppare un modello in grado di indovinare con maggiore precisione i modelli di movimento degli utenti meno attivi.
Sebbene i ricercatori ammettano che ci sono implicazioni sulla privacy nello sviluppo di tale lavoro, e nonostante l’obiettivo dichiarato del progetto di ottenere dettagli maggiori e più granulari sui percorsi degli utenti, sostengono che l’obiettivo è quello di raccogliere un quadro più generale del movimento.
Notano inoltre che i dati del Call Detail Record (CDR) che alimentano tali studi hanno una bassa risoluzione spaziale e sono soggetti a “rumore di posizionamento” a causa del cambiamento di posizione dell’utente rispetto alle torri dei telefoni cellulari che stanno passando, e suggeriscono che questa limitazione di per sé è una forma di tutela della privacy:
‘L’applicazione target del nostro studio è il rilevamento del viaggio e la stima dell’OD[*], che vengono eseguite a livello aggregato, non a livello individuale. I modelli sviluppati possono essere distribuiti direttamente sui server di database dei gestori di telecomunicazioni, senza necessità di trasferimento dati. Inoltre, rispetto ad altre forme di big data, come i social media o i dati sulle transazioni con carta di credito, i dati CDR sono relativamente meno invadenti in termini di privacy personale. Inoltre, il suo errore di localizzazione aiuta a mascherare le posizioni esatte degli utenti, fornendo un altro livello di tutela della privacy.’
Intervalli di tempo trascorso (ETI)
Quando viaggiamo con i telefoni cellulari (non necessariamente gli smartphone), i limiti dei dati CDR come strumento di definizione della posizione diventano evidenti. Gli intervalli di tempo trascorso (ETI), periodi di un viaggio in cui l’utente mobile non effettua o riceve chiamate, sono un indicatore fondamentale per tenere traccia dei nostri movimenti: un intervallo di “silenzio” abbastanza lungo da farci uscire temporaneamente dalla griglia.
I ricercatori osservano che ciò interferisce con la capacità dei sistemi analitici di formulare ipotesi sui viaggi A>B, poiché la scarsità dei dati potrebbe nascondere un “viaggio non osservato”. Il nuovo metodo affronta questo problema analizzando il contesto spazio-temporale degli ETI, nonché “le caratteristiche individuali dell’utente”.
set di dati
I ricercatori hanno sviluppato il loro set di formazione di base con i dati forniti da un importante operatore di servizi cellulari in una città cinese con una popolazione di 6 milioni di persone. I dati contenevano più di due miliardi di transazioni di telefonia mobile generate da tre milioni di utenti nel novembre del 2013 e includono solo registrazioni di chiamate vocali e accesso ai dati (utilizzo dei dati). I dati SMS non sono stati utilizzati, il che ha reso più difficile affrontare la scarsità di dati.
I dati contenevano un ID univoco crittografato; un Prefisso Locale (LAC); un timestamp; un identificativo del telefono cellulare, che è stato confrontato con il LAC al fine di individuare il ripetitore del telefono cellulare utilizzato nella transazione; e un ID evento (chiamata in uscita/in entrata o utilizzo dei dati).
Albero dei processi per l’identificazione delle visite nascoste.
Queste informazioni sono state incrociate con un database di funzionamento della torre cellulare, consentendo ai ricercatori di interrogare le coordinate di longitudine e latitudine della torre associate all’evento di comunicazione. I ricercatori sono stati in grado di identificare 9000 ripetitori cellulari nel set di dati.
I ricercatori osservano che è difficile indovinare le destinazioni di viaggio esclusivamente in base ai record delle chiamate, poiché questi tipi di record raggiungono il picco al mattino e al pomeriggio, il che è comunque correlato ai modelli di viaggio. Poiché le telefonate precedono il viaggio (e possono innescare un viaggio), ciò può causare errori nella stima della destinazione.
Modelli di utilizzo dei dispositivi mobili nel corso della giornata.
Restrizioni simili si applicano alle transazioni di utilizzo dei dati avviate dall’utente, come le app di messaggistica e altri tipi di interazione. Tuttavia, è l’utilizzo “automatico” dei dati che aiuta a identificarci: il polling sistematico delle API per nuovi messaggi o altri tipi di dati, inclusi elenchi di messaggi, GPS e telemetria generale tra le app installate.
in lavorazione
I ricercatori hanno affrontato il problema con un’ampia gamma di classificatori di apprendimento automatico popolari, tra cui regressione logistica, macchina vettoriale di supporto (SVM), foresta casuale e un approccio di insieme di potenziamento del gradiente. Tutti i classificatori sono stati implementati in Python tramite scikit-learn , con impostazioni predefinite.
Di questi approcci, i ricercatori hanno scoperto che la regressione logistica ha prodotto il maggior numero di parametri del modello interpretabili.
I ricercatori hanno anche scoperto che più lungo è un ETI, maggiore è la probabilità che si sia verificata una visita nascosta e che una maggiore incidenza di visite nascoste si verifichi al mattino.
Inoltre, quando i dati CDR di un utente espongono facilmente un numero elevato di destinazioni o waypoint, c’è la minima probabilità che si sia verificata una visita nascosta. In generale, ciò è in accordo con il principio generale della ricerca – che gli utenti più “rumorosi” o più attivi stanno dipingendo un quadro dettagliato dei loro movimenti, da cui si può dedurre il comportamento degli utenti meno attivi.
In conclusione, i ricercatori prevedono che il loro approccio può essere utilizzato per altri tipi di dati di transito, inclusi i dati delle smart card e le informazioni sui social media geolocalizzate.
La ricerca è stata finanziata dalla Energy Foundation China e dal China Sustainable Transportation Center.