Re-identificazione dei commentatori vietati sui social media con il machine learning
 I ricercatori della John Hopkins University hanno sviluppato un approccio Deep Metric per identificare i commentatori online che potrebbero aver avuto precedenti account sospesi, o potrebbero utilizzare più account per fare astroturf o manipolare in altro modo la buona fede delle comunità online come Reddit e Twitter.

L’approccio, presentato in un nuovo documento guidato dal ricercatore della PNL Aleem Khan, non richiede che i dati di input siano annotati automaticamente o manualmente e migliora i risultati dei tentativi precedenti anche dove sono disponibili solo piccoli campioni di testo e dove il il testo non era presente nel set di dati al momento dell’addestramento.

Il sistema offre un semplice schema di aumento dei dati, con incorporamenti di diverse dimensioni addestrati su un set di dati ad alto volume contenente oltre 300 milioni di commenti che coprono un milione di account utente diversi.

L’architettura del modello del sistema di reidentificazione di John Hopkins, dove i componenti essenziali sono 1) contenuto di testo, 2) una funzione di reddit secondaria e 3) data / ora di pubblicazione. Fonte: https://arxiv.org/pdf/2105.07263.pdf
Il framework, basato sui dati di utilizzo di Reddit, considera il contenuto del testo, il posizionamento di Reddit secondario e l’ora di pubblicazione. I tre fattori sono combinati con diversi metodi di inclusione tra cui convoluzioni unidimensionali e proiezioni lineari e sono assistiti da un meccanismo di attenzione e da uno strato di raggruppamento massimo.

Sebbene il sistema si concentri sul dominio del testo, i ricercatori sostengono che il suo approccio può essere tradotto in analisi di video o immagini, poiché l’algoritmo derivato opera su occorrenze di frequenza ad alto livello, nonostante una varietà di lunghezze di input per i punti di dati di addestramento.

Evitare la “deriva dell’argomento”
Una trappola in cui la ricerca di questa natura può cadere, e che gli autori hanno espressamente affrontato nella progettazione del sistema, è quella di porre un’enfasi eccessiva sulla ricorrenza di argomenti o temi particolari in post di account diversi.

Sebbene un utente possa effettivamente scrivere in modo ripetitivo o iterativo in un particolare filone di pensiero, è probabile che l’argomento si evolva e “derivi” nel tempo, svalutando il suo uso come chiave per l’identità. Gli autori definiscono questa potenziale trappola come “avere ragione per le ragioni sbagliate”, una trappola studiata in precedenza da John Hopkins.

Metodologia della formazione
Il sistema utilizza la formazione di precisione mista , un’innovazione presentata nel 2018 da Baidu e NVIDIA, che dimezza i requisiti di memoria utilizzando float a metà precisione: valori in virgola mobile a 16 bit invece di valori a 32 bit. I dati sono stati addestrati su due GPU V100, con un tempo di formazione medio di 72 ore.

Lo schema utilizza la codifica del testo semplificata, con codificatori convoluzionali limitati a 2-4 parole secondarie. Sebbene la lunghezza media per framework di questa natura sia un massimo di cinque parole secondarie, i ricercatori hanno scoperto che questa economia non solo non ha avuto alcun impatto sulle prestazioni di classificazione, ma che l’aumento delle parole secondarie fino a un massimo di cinque ha effettivamente degradato l’ accuratezza della classificazione.

Il set di dati
I ricercatori hanno ricavato un set di dati di 300 milioni di post Reddit dal set di dati di Pushshift Reddit Corpus del 2020 , chiamato Million User Dataset (MUD).

Il set di dati comprende tutti i post di autori Reddit che hanno pubblicato 100-1000 post tra luglio 2015 e giugno 2016. Il campionamento nel tempo in questo modo fornisce una lunghezza cronologica adeguata per lo studio e riduce l’impatto di messaggi di spam sporadici che non rientrano nell’ambito di applicazione degli obiettivi della ricerca.

Statistiche sul set di dati derivato per il progetto di reidentificazione di John Hopkins.
Risultati
L’immagine seguente mostra il miglioramento cumulativo dei risultati poiché l’accuratezza della classificazione viene testata a intervalli di un’ora durante l’allenamento. Dopo sei ore, il sistema supera i risultati di base delle iniziative precedenti correlate.

 In uno studio di ablazione, i ricercatori hanno scoperto che la rimozione della funzione sub-Reddit dal flusso di lavoro ha avuto un impatto sorprendentemente ridotto sull’accuratezza del ranking, suggerendo che il sistema generalizza in modo molto efficace, con robusti strumenti di funzionalità.

Frequenza di registrazione come firma di reidentificazione
Ciò indica anche che il framework è altamente trasferibile ad altri sistemi di commento o pubblicazione in cui è disponibile solo il contenuto del testo e la data / ora di pubblicazione e, essenzialmente, che la frequenza temporale di pubblicazione è di per sé un prezioso indicatore collaterale del testo effettivo soddisfare.

I ricercatori notano che il tentativo di eseguire la stessa stima all’interno del contenuto di un singolo sub-Reddit rappresenta una sfida maggiore, poiché il sub-Reddit stesso funge da proxy per l’argomento e uno schema aggiuntivo sarebbe probabilmente necessario per ricoprire questo ruolo.

Lo studio è stato comunque in grado di ottenere risultati promettenti all’interno di queste limitazioni, con l’unica avvertenza che il sistema funziona meglio ad alti volumi e potrebbe avere maggiori difficoltà a riidentificare gli utenti dove il volume di post è basso.

Sviluppare il lavoro
A differenza di una grande quantità di iniziative di apprendimento supervisionato , le caratteristiche dello schema di reidentificazione di Hopkins sono discrete e sufficientemente robuste da consentire un notevole miglioramento delle prestazioni del sistema all’aumentare del volume dei dati.

I ricercatori esprimono interesse nello sviluppo del sistema adottando un approccio più granulare all’analisi dei tempi di pubblicazione, poiché i programmi spesso prevedibili degli spammer meccanici (automatizzati o meno) sono suscettibili di identificazione da un tale approccio, e questo renderebbe possibile sia eliminare in modo più efficace il contenuto dei robot da uno studio rivolto principalmente agli utenti vessatori o per aiutare a identificare il contenuto automatizzato.

 

Di ihal