L’intelligenza artificiale identifica gli spacciatori di droga su Instagram con un’accuratezza vicina al 95%I ricercatori negli Stati Uniti hanno sviluppato un sistema di apprendimento automatico multimodale in grado di identificare gli account e i post degli spacciatori su Instagram, analizzando una varietà di contenuti, incluso il contenuto di immagini.
La ricerca , intitolata Identificazione di spacciatori di droga illeciti su Instagram con fusione di dati multimodali su larga scala , è una collaborazione tra tre ricercatori della West Virginia University e uno della Case Western Reserve University.
Per facilitare il progetto, i ricercatori hanno creato un database chiamato Identificazione degli spacciatori di droga su Instagram (IDDIG), con 4000 account utente, con 1.400 account di spacciatori e il resto come gruppo di controllo per testare il processo di identificazione.
I test iniziali della tecnica riportano un tasso di accuratezza di quasi il 95% nell’identificazione degli spacciatori di droga basati su Instagram e il framework ha anche portato a un progetto di rilevamento della comunità basato su hashtag progettato per scoprire i mutevoli significanti dell’attività relativa alla vendita di droghe illegali, utilizzando fattori geografici e identificazione di specifici tipi di farmaci.
Poiché il database sviluppato per il progetto richiedeva l’etichettatura manuale, il framework presenta un sistema di annotazione intuitivo, che utilizza un sistema di classificazione basato sulle rappresentazioni dell’encoder bidirezionale di Google Transformers (BERT), nonché sulla classificazione delle immagini basata su ResNet.
Il sistema di annotazione web-based (con indicazioni aggiuntive degli autori del paper) per IDDIG.
Individuazione degli spacciatori nelle conversazioni relative alla droga
Le droghe ricreative sono discusse in un ampio numero di contesti attraverso piattaforme di social media come Instagram. Molti di coloro che pubblicano sono consumatori piuttosto che venditori. A seconda delle normative della loro località e della possibilità di prescrizione di medicinali anche in località che differiscono nella loro legislazione sui farmaci, possono anche essere consumatori legali .
Immagini relative alla droga inserite nel database del progetto.
Inoltre, il comportamento degli spacciatori su Instagram non è sempre esplicito; spesso i concessionari fanno pubblicità tramite commenti e hashtag anziché post multimediali, che in generale sarebbero più facili da identificare come contenuti di “spaccio di droga”, sia per i sistemi di supervisione umana che per quelli meccanici. Pertanto gli hashtag e l’attività di commento sono stati incorporati come risorse identificative nel nuovo sistema.
Diversi modelli del traffico di droga sui post di Instagram.
Oltre all’analisi del testo basata su BERT e all’indagine sull’immagine derivata da ResNet, il lavoro incorpora la fusione di dati multimodali a livello di funzionalità, come proposto nel documento IEEE del 2016 Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition .
Hashtag come semi per un database
Il meccanismo di web-scraping del progetto inizia il suo viaggio verso l’identificazione degli account di spaccio di droga tracciando il percorso di 200 hashtag correlati alla droga identificati dagli esperti del dominio, utilizzando l’ API di ricerca hashtag .
Le immagini nei post che utilizzano gli hashtag vengono quindi classificate utilizzando un modello di classificazione binaria basato su VGG-16 . Le immagini correlate a immagini di farmaci noti vengono quindi salvate nel sistema e il post convertito in un oggetto JSON per un successivo recupero.
Il quadro si estende quindi ai relativi commenti e informazioni (sia testo che immagini) contenuti nella home page dei poster che hanno partecipato all’hashtag e il cui contenuto è stato contrassegnato come correlato alla droga. In questo modo sono stati inseriti nel set di dati 10.000 post potenziali e 23.034 home page degli utenti.
Poiché gli hashtag relativi alla droga si evolvono costantemente per eludere il rilevamento del modello e l’attenzione delle autorità, tutti i nuovi hashtag nel post contrassegnato che non facevano parte della raccolta di hashtag di semi vengono annotati e registrati per un uso futuro.
Dopo l’etichettatura nell’interfaccia basata sul web (vedi immagine sopra), la fusione dei dati multimodale deve tenere conto del fatto che non tutti i post conterranno tutti e quattro i possibili tipi di dati. Pertanto l’algoritmo è in grado di tollerare nove su un totale di 16 sottopunti tra i quattro tipi di dati, utilizzando caratteristiche di concatenazione e fusione, dove gli elementi mancanti corrisponderanno a zero nel calcolo.
ReteX
Il set di dati viene infine utilizzato tramite il pacchetto linguistico NetworkX Python proposto nel 2008 dal Los Alamos National Laboratory nel New Mexico. Network X è stato ampiamente utilizzato in operazioni su larga scala, inclusi grafici con più di 10 milioni di nodi.
Trattando gli hashtag nel set di dati come se fossero stati inclusi in un post, è stato possibile per i ricercatori generare un grafico relativo alla droga non indirizzato da analizzare da NetworkX.
Il set di dati IDDIG è stato testato su una varietà di protocolli, tra cui Multi-modal Data Fusion, Multi-source Data Fusion e Quadruple-based Fusion, e ha ottenuto risultati di precisione fino al 95% in termini di identificazione di post e utenti correlati alla droga, confronto con i metodi di identificazione “human-in-the-loop”.
È stato anche possibile generare “trame sunburst” che rivelano ampi indicatori per la disposizione geografica delle attività legate alla droga su Instagram e altre possibili linee di indagine future in progetti simili.