I ricercatori di intelligenza artificiale stimano che il 97% dei siti Web dell’UE non soddisfi i requisiti sulla privacy del GDPR, in particolare la profilazione degli utenti
 

I ricercatori negli Stati Uniti hanno utilizzato tecniche di apprendimento automatico per studiare le politiche sulla privacy GDPR di oltre un migliaio di siti Web rappresentativi con sede nell’UE. Hanno scoperto che il 97% dei siti studiati non rispettava almeno un requisito del quadro normativo dell’Unione europea 2018 e che rispettavano meno di tutti i requisiti normativi relativi alla pratica della “profilazione degli utenti”.

Il documento afferma:

“[Poiché] l’informativa sulla privacy è il canale di comunicazione essenziale per consentire agli utenti di comprendere e controllare la propria privacy, molte aziende hanno aggiornato le proprie politiche sulla privacy dopo l’applicazione del GDPR. Tuttavia, la maggior parte delle politiche sulla privacy sono prolisse, piene di gergo e descrivono vagamente le pratiche sui dati delle aziende e i diritti degli utenti. Pertanto, non è chiaro se siano conformi al GDPR.’

Continua:

“I nostri risultati mostrano che anche dopo l’entrata in vigore del GDPR, il 97% dei siti web continua a non soddisfare almeno un requisito del GDPR.”

Lo studio è intitolato Rilevamento automatico dei requisiti di divulgazione GDPR nelle politiche sulla privacy utilizzando Deep Active Learning e proviene da tre ricercatori dell’Università della Virginia a Charlottesville.

Privacy Ultimo
L’area di almeno conformità, secondo lo studio, in questione di GDPR disposizioni circa profilazione degli utenti, con affermando che solo il 15,3% dei siti studiati erano nel pieno rispetto di questa particolare regola gli autori.

 
La profilazione dell’utente (dove viene registrata l’interazione di una persona con i siti Web e spesso utilizzata per “indirizzarla” in altri contesti online, come la pubblicità) è diventata una delle controversie più calde nella tecnologia dallo scandalo di Cambridge Analytica.

Martedì, una commissione chiave del Parlamento europeo ha approvato la prima fase della nuova legislazione Digital Markets Act ( DMA ), che vieterebbe il targeting comportamentale dei minori, imponendo multe fino al 20% delle vendite annuali globali per le aziende che violano.

Sebbene la legge sia stata accolta dai media come una risposta diretta alla crescente influenza di giganti della tecnologia come Facebook e Google, la vastità della non conformità rappresentata dalla nuova ricerca suggerisce che la stragrande maggioranza delle aziende dell’UE (comprese le uffici residenti per le società americane che operano in Europa) sono legalmente esposti alle sanzioni GDPR.

Inoltre, questa settimana l’Italia ha imposto la multa massima consentita di 10 milioni di euro ($ 11,2 milioni di dollari) contro Apple e Google per aver sfruttato la profilazione degli utenti, tra le altre infrazioni.

Dati
I siti esaminati nella nuova ricerca sono stati campionati dai primi 10.000 siti web elencati in Quantcast, le cui politiche sulla privacy in lingua inglese sono state estratte tramite ricerche Yandex su VPN con sede nel Regno Unito (al fine di garantire che le politiche non fossero geo-bloccate) .

I siti web dell’UE sono stati obbligati a fornire politiche sulla privacy prescritte, che coprono 18 requisiti centrali (vedi grafico sopra) da quando la legge sul regolamento generale sulla protezione dei dati (GDPR) è entrata in vigore a maggio 2018.

I ricercatori hanno limitato l’estrazione delle politiche sulla privacy a un periodo da agosto 2018 in poi, per consentire ai domini un tempo ragionevole per pubblicare le politiche richieste (requisito di cui avevano una conoscenza anticipata per almeno un anno della fase di sviluppo biennale di GDPR dal 2016).

Il processo di filtraggio ha prodotto un corpus sulla privacy di 9.761 politiche, da cui 1.080 politiche sono state selezionate casualmente dai ricercatori.

Pre-elaborazione
Il team ha impiegato due esperti legali per formare quattro annotatori umani per etichettare ciascuna delle 18 possibili politiche sulla privacy richieste dal GDPR.

Alcuni dei legali nelle polizze coprivano più di uno dei 18 requisiti, rendendo necessario l’utilizzo di una rete neurale convoluzionale (CNN) per rilevare le caratteristiche linguistiche associate a ciascuna polizza.

Un tentativo iniziale di addestrare un modello per identificare la conformità in base al linguaggio ha ottenuto un successo dell’80,5%. Per migliorare questi risultati, i ricercatori hanno applicato l’ apprendimento attivo per rafforzare le prestazioni del modello utilizzando dati meno etichettati. In questo modo è stato possibile addestrare il classificatore CNN fino a una precisione dell’89,2%, con un punteggio F1 di 0,88 (dove “1” è successo completo).

Per garantire che gli incorporamenti di parole fossero specifici per la politica sulla privacy, i ricercatori hanno addestrato un modello di incorporamento di parole senza supervisione utilizzando la libreria FastText Python di Facebook .

Come da prassi standard, i dati finali sono stati suddivisi 80/20 tra dati addestrati e dati di test (cioè dati selezionati casualmente rispetto ai quali verrà valutata l’accuratezza dell’algoritmo). All’architettura è stato aggiunto uno studio di misurazione human-in-the-loop per valutare la qualità dei risultati.

L’architettura per il sistema di classificazione.
Nel corso del flusso di lavoro, sono stati prodotti 11.271 segmenti di politica sulla privacy annotati da persone, ciascuno dei quali è stato esaminato da quattro annotatori umani formati dai due esperti legali coinvolti nello studio. In caso di disaccordo, era necessario un rapporto di accordo del 75% per non rifiutare l’inclusione dei dati.

Humans-in-the-loop: non è stato possibile automatizzare completamente l’etichettatura dei dati delle politiche, sebbene Active Learning abbia consentito un flusso di lavoro basato su pool che ha reso il progetto fattibile.
Oltre ai risultati già menzionati, gli utenti hanno scoperto che la portabilità , il diritto previsto dal GDPR di traslocare o esportare i dati detenuti da un’azienda, era servita quasi in modo inadeguato rispetto alla profilazione.

I ricercatori concludono:

“[Requisiti] come il diritto alla portabilità degli utenti e la fornitura delle informazioni di contatto del responsabile della protezione dei dati (contatto DPO) sono coperti rispettivamente dal 15,5% e dal 16,4% dei siti web. Altri requisiti primari, come il diritto degli utenti a presentare reclamo, revoca del consenso, diritto di opposizione e decisione di adeguatezza, sono coperti dal 17-20% dei siti web.’

…e continua:

‘Sembra che solo il 3% dei siti web soddisfi pienamente 18 requisiti. Questi risultati indicano che molti siti Web continuano a non seguire i requisiti del GDPR.’

Di ihal