Una nuova ricerca consente agli utenti di cercare informazioni senza rivelare le loro domande, sulla base di un metodo che è 30 volte più veloce rispetto a tecniche precedenti comparabili
La ricerca in Internet può rivelare informazioni che un utente preferirebbe mantenere private. Ad esempio, quando qualcuno cerca sintomi medici online, potrebbe rivelare le proprie condizioni di salute a Google, a un database medico online come WebMD e forse a centinaia di inserzionisti e partner commerciali di queste società.
Per decenni, i ricercatori hanno creato tecniche che consentono agli utenti di cercare e recuperare informazioni da un database privatamente, ma questi metodi rimangono troppo lenti per essere utilizzati efficacemente nella pratica.
I ricercatori del MIT hanno ora sviluppato uno schema per il recupero di informazioni private che è circa 30 volte più veloce di altri metodi comparabili. La loro tecnica consente a un utente di cercare in un database online senza rivelare la propria query al server. Inoltre, è guidato da un semplice algoritmo che sarebbe più facile da implementare rispetto agli approcci più complicati del lavoro precedente.
La loro tecnica potrebbe consentire la comunicazione privata impedendo a un’app di messaggistica di sapere cosa dicono gli utenti o con chi stanno parlando. Potrebbe anche essere utilizzato per recuperare annunci online pertinenti senza che i server pubblicitari apprendano gli interessi degli utenti.
“Questo lavoro consiste davvero nel restituire agli utenti un certo controllo sui propri dati. A lungo termine, vorremmo che navigare sul Web fosse privato come navigare in una biblioteca. Questo lavoro non lo raggiunge ancora, ma inizia a costruire gli strumenti per consentirci di fare questo genere di cose in modo rapido ed efficiente nella pratica “, afferma Alexandra Henzinger, studentessa laureata in informatica e autrice principale di un documento che introduce la tecnica .
I coautori includono Matthew Hong, uno studente laureato in informatica del MIT; Henry Corrigan-Gibbs, Douglas Ross Career Development Professor of Software Technology presso il Department of Electrical Engineering and Computer Science (EECS) del MIT e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL); Sarah Meiklejohn, professore di crittografia e sicurezza presso l’University College di Londra e ricercatrice presso Google; e l’autore senior Vinod Vaikuntanathan, professore EECS e ricercatore principale in CSAIL. La ricerca sarà presentata al 2023 USENIX Security Symposium.
Preservare la privacy
I primi schemi per il recupero di informazioni private sono stati sviluppati negli anni ’90, in parte da ricercatori del MIT. Queste tecniche consentono a un utente di comunicare con un server remoto che contiene un database e leggere i record da quel database senza che il server sappia cosa sta leggendo l’utente.
Per preservare la privacy, queste tecniche costringono il server a toccare ogni singolo elemento nel database, quindi non può dire quale voce sta cercando un utente. Se un’area viene lasciata intatta, il server apprenderà che il client non è interessato a quell’elemento. Ma toccare ogni elemento quando potrebbero esserci milioni di voci del database rallenta il processo di query.
Per accelerare le cose, i ricercatori del MIT hanno sviluppato un protocollo, noto come Simple PIR, in cui il server esegue in anticipo gran parte del lavoro crittografico sottostante, prima ancora che un client invii una query. Questa fase di pre-elaborazione produce una struttura dati che contiene informazioni compresse sul contenuto del database e che il client scarica prima di inviare una query.
In un certo senso, questa struttura dati è come un suggerimento per il cliente su cosa c’è nel database.
“Una volta che il client ha questo suggerimento, può effettuare un numero illimitato di query e queste query saranno molto più piccole sia per quanto riguarda le dimensioni dei messaggi che stai inviando sia per il lavoro che devi fare al server. Questo è ciò che rende Simple PIR molto più veloce”, spiega Henzinger.
Ma il suggerimento può essere di dimensioni relativamente grandi. Ad esempio, per interrogare un database da 1 gigabyte, il client dovrebbe scaricare un hint da 124 megabyte. Ciò fa aumentare i costi di comunicazione, il che potrebbe rendere difficile l’implementazione della tecnica su dispositivi reali.
Per ridurre le dimensioni del suggerimento, i ricercatori hanno sviluppato una seconda tecnica, nota come Double PIR, che sostanzialmente prevede l’esecuzione dello schema Simple PIR due volte. Ciò produce un suggerimento molto più compatto di dimensioni fisse per qualsiasi database.
Utilizzando Double PIR, il suggerimento per un database da 1 gigabyte sarebbe solo di 16 megabyte.
“Il nostro sistema Double PIR funziona un po’ più lentamente, ma avrà costi di comunicazione molto inferiori. Per alcune applicazioni, questo sarà un compromesso desiderabile”, afferma Henzinger.
Colpire il limite di velocità
Hanno testato gli schemi Simple PIR e Double PIR applicandoli a un’attività in cui un cliente cerca di controllare una specifica informazione su un sito Web per garantire che il sito Web sia sicuro da visitare. Per preservare la privacy, il cliente non può rivelare il sito Web che sta controllando.
La tecnica più veloce dei ricercatori è stata in grado di preservare con successo la privacy mentre funzionava a circa 10 gigabyte al secondo. Gli schemi precedenti potevano raggiungere solo un throughput di circa 300 megabyte al secondo.
Mostrano che il loro metodo si avvicina al limite di velocità teorico per il recupero di informazioni private: è quasi lo schema più veloce possibile che si possa costruire in cui il server tocca ogni record nel database, aggiunge Corrigan-Gibbs.
Inoltre, il loro metodo richiede un solo server, rendendolo molto più semplice rispetto a molte tecniche ad alte prestazioni che richiedono due server separati con database identici. Il loro metodo ha superato questi protocolli più complessi.
“Ho pensato a questi schemi per un po’ di tempo e non avrei mai pensato che ciò potesse essere possibile a questa velocità. Il folklore era che qualsiasi schema a server singolo sarebbe stato molto lento. Questo lavoro capovolge l’intera nozione”, afferma Corrigan-Gibbs.
Sebbene i ricercatori abbiano dimostrato di poter rendere gli schemi PIR molto più veloci, c’è ancora del lavoro da fare prima che siano in grado di implementare le loro tecniche in scenari del mondo reale, afferma Henzinger. Vorrebbero tagliare i costi di comunicazione dei loro sistemi pur consentendo loro di raggiungere velocità elevate. Inoltre, vogliono adattare le loro tecniche per gestire query più complesse, come query SQL generali e applicazioni più impegnative, come una ricerca generale su Wikipedia. E a lungo termine, sperano di sviluppare tecniche migliori in grado di preservare la privacy senza richiedere a un server di toccare ogni elemento del database.
“Ho sentito persone affermare con enfasi che il PIR non sarà mai pratico. Ma non scommetterei mai contro la tecnologia. Questa è una lezione ottimistica da imparare da questo lavoro. Ci sono sempre modi per innovare”, afferma Vaikuntanathan.
Questo lavoro è finanziato, in parte, dalla National Science Foundation, Google, Facebook, Fintech@CSAIL Initiative del MIT, una NSF Graduate Research Fellowship, una EECS Great Educators Fellowship, il National Institutes of Health, la Defense Advanced Research Projects Agency, il MIT-IBM Watson AI Lab, Analog Devices, Microsoft e una borsa di studio per l’innovazione della ricerca della facoltà della famiglia Thornton.
###
Scritto da Adam Zewe, ufficio stampa del MIT
Documento : “Un server al prezzo di due: recupero semplice e veloce di informazioni private su server singolo”