Il rilevamento delle anomalie è diventato uno degli strumenti di apprendimento automatico più utili degli ultimi cinque anni. Può essere utilizzato dalla frode al controllo di qualità. È possibile isolare i truffatori nei siti di recensioni online? È possibile rilevare transazioni finanziarie fraudolente nel momento in cui si verificano? I dati dei sensori in tempo reale possono informare sui guasti della rete elettrica prima che si verifichino?

Il rilevamento delle anomalie fornisce risposte a domande come queste. L’identificazione delle anomalie nei dati è un’attività fondamentale per la comprensione dei dati. Esponendo grandi set di dati a strumenti di apprendimento automatico e metodi statistici, è possibile apprendere modelli normali nei dati. Quando si verificano eventi incoerenti, gli algoritmi di rilevamento delle anomalie possono isolare il comportamento anomalo e contrassegnare tutti gli eventi che non corrispondono ai modelli appresi. Tale funzionalità è fondamentale in molti casi d’uso aziendali. Il rilevamento delle anomalie abilita le applicazioni in un gran numero di settori, dalla sicurezza alla finanza e al monitoraggio IoT .

I grafici su scala web sono oggigiorno onnipresenti e sono una rappresentazione comune delle strutture dei big data. Alimentano sia applicazioni online che offline. Alcuni esempi online sono i grandi social network, i motori di raccomandazione dei prodotti e i grafici delle transazioni finanziarie. In linea: le reti stradali, le piattaforme IoT ei sensori di tensione nelle reti elettriche sono tutte fonti di grandi quantità di dati simili a grafici. La rappresentazione dei dati come grafici porta vantaggi e sfide ai proprietari di tali set di dati. Da un lato, consente di rappresentare i punti dati e le loro relazioni in uno spazio multidimensionale. D’altra parte, sono necessari algoritmi scalabili per l’analisi e l’interpretazione dei dati. Ciò ha portato a una maggiore attenzione della ricerca su metodi comerilevamento delle anomalie sui dati del grafico.

Diamo uno sguardo più da vicino a un algoritmo all’avanguardia sviluppato per il rilevamento di anomalie nei dati del grafico dinamico.

MIDAS
Il rilevatore di anomalie in Edge Streams (MIDAS) basato su microcluster è un algoritmo che affronta il rilevamento di anomalie sui dati del grafico dinamico . È stato sviluppato da ricercatori della National University di Singapore, i quali affermano che il loro metodo supera gli approcci allo stato dell’arte. Il loro metodo allevia il difetto più comune delle precedenti implementazioni di rilevamento delle anomalie:

Di seguito è riportata la nuova linea di base per il rilevamento delle anomalie sviluppata da Siddarth Bhatia e dal suo team presso l’Università di Singapore

Rappresentare i dati come un grafico statico
I grafici statici contengono solo informazioni sulla connettività e ignorano le informazioni temporali. Sono anche conosciuti come istantanee del grafico e possono essere usati solo per individuare entità grafiche insolite (ad esempio nodi, bordi o sottografi sospetti). Tuttavia, per molte applicazioni pratiche, l’aspetto temporale è altrettanto importante: è rilevante sapere quandola struttura del grafico è cambiata. Per illustrare, in un grafico statico che rappresenta il flusso di traffico di rete, un bordo informa solo che esiste una connessione tra un indirizzo IP di origine e un indirizzo IP di destinazione. Manca però la descrizione temporale del fronte e quindi il momento in cui i due indirizzi collegati sono sconosciuti. Poiché i grafici statici non sono in grado di modellare tali informazioni temporali, i metodi di rilevamento delle anomalie basati su tali grafici forniscono solo un supporto limitato per le applicazioni del mondo reale.

D’altra parte, MIDAS gestisce i dati memorizzati in un grafico dinamico . Ciascuno degli elementi nel grafico ha un timestamp associato, che rappresenta l’ora in cui l’elemento è stato aggiunto al grafico. Seguendo l’esempio precedente, un grafico dinamico del traffico di rete informerebbe anche su quandosi è verificata una connessione tra due indirizzi IP. Il timestamp cambia ogni volta che un bordo o un nodo esistente viene aggiornato o quando vengono aggiunti nuovi bordi al grafico. In quanto tali, i grafici dinamici sono una struttura in evoluzione nel tempo che si adatta meglio a molte applicazioni del mondo reale, che sono di natura dinamica. Consentono di utilizzare sia la connettività che le informazioni sul tempo per il rilevamento di elementi grafici sospetti. Sulla base di questa capacità, MIDAS è in grado di rilevare anomalie in tempo reale e offre quindi supporto per molti casi d’uso aziendali.

MIDAS è ottimizzato per lavorare su dati grafici dinamici. Come abbiamo visto sopra, i grafici dinamici rendono possibile rappresentare dati variabili nel tempo. Tuttavia, questo significa anche che anche la struttura del grafico stesso cambia nel tempo. Ciò introduce alcune sfide per gli algoritmi di rilevamento delle anomalie che mirano a utilizzare questi dati in applicazioni in tempo reale. Un esempio è la scalabilità del metodo per quanto riguarda la modifica delle caratteristiche del grafico. Dati i grandi volumi di dati corrispondenti ad alcune applicazioni, gli algoritmi devono essere scalabili in modo lineare alla dimensione del grafico. MIDAS funziona in modo online ed elabora ogni bordo in tempo costante e memoria costante. Gli autori riferiscono inoltre che l’algoritmo viene eseguito “162-633 volte più velocemente rispetto agli approcci all’avanguardia”. Ciò rende l’algoritmo adatto per applicazioni in tempo reale, dove è necessaria l’elaborazione di flussi di dati ad alto volume.

Quali casi d’uso aziendali richiedono MIDAS?
Per avere un’idea del rilevamento delle anomalie utilizzato nel mondo degli affari di oggi, abbiamo intervistato il fornitore di criptovaluta con sede in Canada, NDAX. NDAX utilizza il rilevamento delle anomalie in tre aree della propria attività. Operazioni aziendali generali, reparto marketing e team di conformità. Il rilevamento delle anomalie aiuta a identificare i bug, il che consente loro di migliorare le prestazioni del sito Web e il processo di onboarding del client. Consente inoltre loro di fornire indicazioni ai team di sviluppo software e di back-office su come risolvere questi problemi. Il traffico del sito Web è un’altra area che può sfruttare la potenza del rilevamento delle anomalie. Comprendere i valori anomali nel traffico del sito Web fornisce informazioni e una migliore comprensione al team di marcatori, che consente loro di identificare se una campagna di marketing funziona o meno. Dando così un quadro più chiaro di quale area è la più importante per concentrare i propri sforzi.

Nella nostra discussione con il Chief Compliance Officer di NDAX, Julia Baranovskaya sottolinea come l’importanza del rilevamento delle anomalie sia stata enfatizzata durante l’attuale pandemia. Negli ultimi mesi si è registrato un aumento del 300% delle frodi rilevate. Tempi disperati combinati con un elevato traffico online invitano a truffe di ogni tipo che prendono di mira i disoccupati e gli anziani. Con il rilevamento delle anomalie, ora siamo in grado di trasformare questi valori anomali in indicatori di frodi o tendenze. Il grafico seguente mostra le fluttuazioni delle frodi durante la prima metà di quest’anno.

Il grafico di NDAX mostra l’aumento delle frodi nel secondo trimestre, in particolare che coinvolgono gli anziani e le truffe sul lavoro.
NDAX ha riscontrato un aumento delle frodi nel secondo trimestre, in particolare truffe che coinvolgono anziani e annunci di lavoro falsi.

E la tua attività?
Gli algoritmi di rilevamento delle anomalie possono aiutare le aziende a identificare e reagire a punti dati insoliti in più scenari. Un sistema di sicurezza bancario può utilizzare il rilevamento delle anomalie per l’identificazione di transazioni fraudolente. Allo stesso modo, i proprietari degli impianti di produzione si affidano al rilevamento delle anomalie per gestire il malfunzionamento delle apparecchiature e implementare misure di manutenzione predittiva. Nelle reti di sensori IoT , il rilevamento delle anomalie viene utilizzato come parte delle soluzioni di monitoraggio delle condizioni e per la prevenzione della distribuzione di malware indesiderato. Il punto è chiaro: le aziende che hanno accesso a grandi quantità di dati possono utilizzare MIDAS (e altri algoritmi di rilevamento delle anomalie) per identificare modelli insoliti in tempo reale.

Come sono strutturati i tuoi dati e come possiamo aiutarti a impostare una moderna soluzione di rilevamento delle anomalie? Mandaci un messaggio e facci sapere. Il team di scienza dei dati Blue Orange Digital è lieto di far funzionare il rilevamento delle anomalie anche a tuo vantaggio!

Di ihal