Un metodo di apprendimento automatico per bloccare gli annunci in base al comportamento del browser locale
 

Ricercatori in Svizzera e negli Stati Uniti hanno ideato un nuovo approccio di apprendimento automatico per il rilevamento del materiale pubblicitario del sito Web basato sul modo in cui tale materiale interagisce con il browser, anziché analizzarne il contenuto o il comportamento della rete, due approcci che si sono rivelati inefficaci nel a lungo termine di fronte al cloaking CNAME 

Soprannominato WebGraph , il framework utilizza un approccio di blocco degli annunci AI basato su grafici per rilevare contenuti promozionali concentrandosi su tali attività essenziali di pubblicità di rete – inclusi tentativi di telemetria e archiviazione del browser locale – che l’unica tecnica di elusione efficace sarebbe quella di non condurre queste attività .

Sebbene gli approcci precedenti abbiano raggiunto tassi di rilevamento leggermente più elevati rispetto a WebGraph, tutti sono inclini a tecniche evasive, mentre WebGraph è in grado di avvicinarsi al 100% di integrità di fronte alle risposte contraddittorie, comprese le risposte ipotizzate più sofisticate che possono emergere di fronte a questo nuovo metodo di blocco degli annunci.

Il documento è guidato da due ricercatori dello Swiss Federal Institute of Technology, in concerto con ricercatori dell’Università della California, Davis e dell’Università dell’Iowa.

Oltre AdGraph
Il lavoro è uno sviluppo di un’iniziativa di ricerca del 2020 con il browser Brave chiamato AdGraph , che ha caratterizzato due dei ricercatori del nuovo documento.


AdGraph si basa su funzionalità di contenuto (pubblicità) , derivate dall’analisi degli URL, come chiave per il rilevamento di materiale commerciale. Tuttavia, queste caratteristiche rappresentano un singolo potenziale punto di errore per gli avversari che cercano di rilevare la presenza di sistemi di rilevamento degli annunci e di formulare metodi per evitarli. Questa dipendenza dalle proprietà del contenuto rende AdGraph essenzialmente una versione meccanizzata di approcci basati su elenchi di filtri curati manualmente, che ne condividono i punti deboli.

CNAME Cloaking
Il materiale proveniente dal dominio di un sito Web rientra in una categoria “attendibile”, nella misura in cui il dominio stesso è attendibile. Per un sito Web di alta autorità, c’è un vantaggio prezioso nell’esecuzione di campagne pubblicitarie che presentano materiale che sembra essere ospitato dal sito di autorità stesso, poiché tale pubblicità è immune agli elenchi di blocco degli annunci basati su filtri e persino all’approccio AdGraph del 2020.

Tuttavia, le campagne personalizzate sono difficili da negoziare, costose da implementare e sono contrarie ai principi fondamentali del modello pubblicitario di rete sviluppato negli ultimi 25 anni, in cui una piattaforma di terze parti inserisce il codice direttamente nel sito host, di solito “mettendo all’asta” lo spazio pubblicitario in microsecondi in base alla desiderabilità delle parole chiave e a vari altri fattori.

Dal momento che quasi tutti i sistemi di blocco degli annunci utilizzano materiale di terze parti nelle pagine Web (ovvero elementi ospitati su domini “alieni”), gli inserzionisti hanno reagito con tecniche di cloaking CNAME negli ultimi cinque anni. Il cloaking CNAME inganna i tracker facendogli credere che un sottodominio del sito host (cioè information.example.com invece di example.com) sia un vero e proprio complemento al sito, quando in realtà si tratta di un meccanismo di pubblicazione di annunci proxy organizzato con pubblicità di terze parti fornitori.

Nel marzo del 2021 uno studio ha rivelato che gli incidenti di cloaking CNAME sono aumentati del 22% tra il 2018 e il 2020, con quasi il 10% dei primi 10.000 siti Web di Tranco che impiegano almeno un tracker basato su CNAME entro ottobre del 2020.

Scontare la fiducia negli URL
Le tecniche di inganno CNAME comportano la manipolazione degli URL coinvolti nel processo di pubblicazione degli annunci. Qualsiasi sistema di blocco degli annunci che si fida della catena di URL sarà soggetto a manipolazione ed elusione. Pertanto WebGraph modifica casualmente gli URL forniti in un processo (incluse le stringhe di query, il numero di parametri e i nomi dei parametri), cercando modelli di utilizzo piuttosto che URL specifici vietati o accettati.

Il sistema deve considerare due configurazioni comuni in un’architettura di ad-serving: una, in cui l’host sta colludendo direttamente con l’inserzionista; e un secondo scenario (più comune) in cui l’inserzionista fornisce una cooperazione limitata a causa della necessità di proteggersi dalla manipolazione da parte dei suoi clienti.

Negli approcci basati su elenchi, incluso AdGraph, la corretta manipolazione degli URL da parte del sistema di pubblicazione degli annunci è quasi una vittoria completa, poiché attribuisce la provenienza “locale” all’annuncio e quindi elude quasi tutti i tentativi di bloccare sistematicamente il contenuto pubblicitario.

Cosa resta, a titolo di firma? WebGraph si concentra invece sulla necessità dei sistemi pubblicitari di condividere le informazioni con vari mezzi semi-offuscati, come i web tracker, le comunicazioni tra iframe e i “ascoltatori” web, che interrogano costantemente lo stato live della pagina host per attività significative in termini di metriche web per l’annuncio. Tale attività include l’archiviazione di variabili nei cookie o nell’archiviazione locale basata su HTML5.

WebGraph utilizza la misurazione della privacy Web di Mozilla ( framework OpenWPM ) per tenere traccia di tale attività in Firefox. Cattura tutte le attività a livello JavaScript e tutte le richieste di rete in uscita e le relative risposte a livello di rete.

Questo ulteriore controllo introduce nuovi bordi del “flusso di informazioni” alla rete di grafi precedentemente proposta da AdGraph, consentendo a WebGraph di registrare e quantificare esplicitamente i modelli di condivisione delle informazioni in base all’attività locale e indipendentemente dagli URL di origine e di destinazione per la telemetria o altri tipi di comunicazioni interne in sistemi di pubblicazione di annunci.

Risultati
I ricercatori hanno utilizzato una versione estesa di OpenWPM per eseguire la scansione sistematica di 10.000 siti Web presi dai primi 100.000 siti di Alexa e un campione casuale di 9.000 siti classificati tra 1k-100k, archiviando le loro rappresentazioni grafiche prima di passare i risultati a un classificatore ad albero decisionale modellato su AdGraph design originale e l’utilizzo di elenchi di filtri di annunci popolari come verità fondamentale. In questo modo, è stato costruito un set di dati per l’addestramento del modello principale.

Il sistema ha ottenuto risultati comparabili ad AdGraph, con una precisione del 92,33%. Tuttavia, la resilienza del nuovo sistema alla resistenza dell’avversario passa da un tasso di fallimento quasi completo per AdGraph ad appena l’8% di suscettibilità in WebGraph.

Direzioni future
Il documento sostiene che le reti pubblicitarie avrebbero bisogno di riprogettare notevolmente i loro sistemi per eludere il rilevamento di fronte all’approccio WebGraph e suggerisce che tali cambiamenti richiederebbero una revisione dell’attuale prudente relazione di fiducia tra gli inserzionisti di terze parti e il ospitano i siti sui quali vengono visualizzati i loro annunci.

Il documento rileva inoltre che WebGraph non tiene conto delle tecniche di tracciamento senza stato come il fingerprinting del browser (tramite l’elemento Canvas), che utilizzano API che il sistema attualmente non monitora. I ricercatori suggeriscono che WebGraph può essere esteso in futuro per tenere conto anche di questo tipo di interazioni e dei significanti di archiviazione locale.

Di ihal