L’apprendimento automatico estrae i dati sugli attacchi da rapporti dettagliati sulle minacce
Estrazione PNL
Una nuova ricerca dell’Università di Chicago illustra il conflitto sorto negli ultimi dieci anni tra i vantaggi SEO dei contenuti di lunga durata e la difficoltà che i sistemi di apprendimento automatico hanno nel raccogliere dati essenziali da esso.
Nello sviluppo di un sistema di analisi della PNL per estrarre le informazioni essenziali sulle minacce dai report di Cyber Threat Intelligence (CTI), i ricercatori di Chicago hanno dovuto affrontare tre problemi: i report sono generalmente molto lunghi, con solo una piccola sezione dedicata al comportamento dell’attacco effettivo; lo stile è denso e grammaticalmente complesso, con ampie informazioni specifiche del dominio che presuppongono una conoscenza preliminare da parte del lettore; e il materiale richiede una conoscenza delle relazioni tra domini, che deve essere “memorizzata” per comprenderla nel contesto (un problema persistente , notano i ricercatori).
Rapporti sulle minacce a lungo termine
Il problema principale è la verbosità. Ad esempio, il documento di Chicago rileva che tra il rapporto di 42 pagine di ClearSky del 2019 sulle minacce per il malware DustySky (noto anche come NeD Worm), solo 11 frasi in realtà trattano e delineano il comportamento di attacco.
Il secondo ostacolo è la complessità del testo e, di fatto, la lunghezza della frase: i ricercatori osservano che tra 4020 segnalazioni di minacce del centro di segnalazione delle minacce di Microsoft, la frase media comprende 52 parole – solo nove in meno rispetto alla lunghezza media della frase di 500 anni fa (nel contesto del fatto che la durata della pena è diminuita del 75% da allora).
Tuttavia, il documento sostiene che queste lunghe frasi sono essenzialmente “paragrafi compressi” in sé, pieni di clausole, avverbi e aggettivi che avvolgono il significato centrale delle informazioni; e che le frasi spesso mancano della punteggiatura convenzionale di base su cui si basano i sistemi NLP come spaCy , Stanford e NLTK per inferire l’intento o estrarre dati concreti .
PNL per estrarre informazioni importanti sulle minacce
La pipeline di machine learning che i ricercatori di Chicago hanno sviluppato per affrontare questo problema si chiama EXTRACTOR e utilizza tecniche di PNL per generare grafici che distillano e riassumono il comportamento di attacco da rapporti discorsivi di lunga durata. Il processo scarta l’ornamento storico, narrativo e persino geografico che crea una “storia” coinvolgente ed esaustiva a scapito della chiara priorità del carico informativo.
Poiché il contesto è una tale sfida nei rapporti CTI prolissi e prolissi, i ricercatori hanno scelto il modello di rappresentazione del linguaggio BERT (Bidirectional Encoder Representations from Transformer) su Word2Vec di Google o GloVe (Global Vectors for Word Representation) di Google .
BERT valuta le parole dal contesto circostante e sviluppa anche incorporamenti per le parole secondarie (ad es. Lancio , lancio e lancia tutte le radici fino al lancio ). Questo aiuta EXTRACTOR a far fronte al vocabolario tecnico che non è presente nel modello di formazione del BERT ea classificare le frasi come “produttive” (contenenti informazioni pertinenti) o “non produttive”.
Aumentare il vocabolario locale
Inevitabilmente, alcune informazioni specifiche sul dominio devono essere integrate in una pipeline di PNL che si occupa di materiale di questo tipo, dal momento che non devono essere messe da parte forme di parole altamente pertinenti come indirizzi IP e nomi di processi tecnici.
Le parti successive del processo utilizzano una rete BiLSTM ( Bidirectional LSTM ) per affrontare la verbosità delle parole, derivando ruoli semantici per le parti della frase, prima di rimuovere le parole improduttive. BiLSTM è adatto a questo, poiché può correlare le dipendenze a lunga distanza che appaiono nei documenti dettagliati, dove è necessaria maggiore attenzione e conservazione per dedurre il contesto.
Nei test, EXTRACTOR (parzialmente finanziato da DARPA) è stato trovato in grado di abbinare l’estrazione di dati umani dai rapporti DARPA. Il sistema è stato anche eseguito su un volume elevato di report non strutturati di Microsoft Security Intelligence e TrendMicro Threat Encyclopedia, estraendo con successo le informazioni salienti nella maggior parte dei casi.
I ricercatori ammettono che è probabile che le prestazioni di EXTRACTOR diminuiscano quando si tenta di distillare azioni che si verificano in un numero di frasi o paragrafi, sebbene qui venga indicato il re-tooling del sistema per accogliere altri rapporti. Tuttavia, si tratta essenzialmente di ricadere sull’etichettatura guidata dall’uomo per procura.
Lunghezza == Autorità?
È interessante notare la continua tensione tra il modo in cui gli arcani algoritmi SEO di Google sembrano aver sempre più premiato i contenuti di lunga durata negli ultimi anni (sebbene i consigli ufficiali su questo punteggio siano contraddittori ) e le sfide che i ricercatori di intelligenza artificiale (comprese molte delle principali ricerche di Google iniziative ) affrontano nel decodificare l’intento e i dati effettivi di questi articoli sempre più discorsivi e lunghi.
È discutibile che nel premiare i contenuti più lunghi, Google presume una qualità coerente che non è necessariamente in grado di identificare o quantificare ancora attraverso i processi di PNL, se non contando il numero di siti di autorità che si collegano ad esso (una metrica “ meatware ”, in la maggior parte dei casi); e che quindi non è insolito vedere post di 2.500 parole o più che raggiungono la preminenza SERPS indipendentemente dal “gonfio” narrativo, a condizione che il contenuto extra sia ampiamente comprensibile e non violi altre linee guida.
Dov’è la ricetta?
Di conseguenza, il conteggio delle parole sta aumentando , in parte a causa di un genuino desiderio di buoni contenuti di lunga durata, ma anche perché ‘memorizzare’ pochi fatti scarsi può aumentare la lunghezza di un pezzo a standard SEO ideali e consentire a contenuti leggeri di competere allo stesso modo con rendimento dello sforzo.
Un esempio di questo è siti di ricette, spesso si sono lamentati della nella comunità Notizie Hacker per precedere le informazioni di base (la ricetta) con scads di contenuti autobiografici o stravagante progettato per creare una storia-driven ‘esperienza ricetta’, e di spingere ciò che altrimenti essere un conteggio di parole molto basso nella regione di oltre 2500 parole SEO-friendly.
Sono emerse numerose soluzioni puramente procedurali per estrarre ricette reali da siti di ricette dettagliati, inclusi scraper ricette open source ed estrattori di ricette per Firefox e Chrome . Anche l’apprendimento automatico si occupa di questo, con vari approcci da Giappone , Stati Uniti e Portogallo , oltre alla ricerca di Stanford , tra gli altri.
In termini di rapporti di intelligence sulle minacce affrontati dai ricercatori di Chicago, la pratica generale della segnalazione dettagliata delle minacce può essere dovuta in parte alla necessità di riflettere la scala di un risultato (che può altrimenti essere spesso riassunta in un paragrafo) creando un lunga narrativa attorno ad esso e utilizzando la lunghezza della parola come proxy per la scala degli sforzi coinvolti, indipendentemente dall’applicabilità.
In secondo luogo, in un clima in cui la fonte originaria di una storia viene spesso persa a causa di cattive pratiche di citazione da parte di agenzie di stampa popolari, la produzione di un volume di parole più elevato di quello che qualsiasi giornalista potrebbe replicare garantisce una vittoria SERPS per puro volume di parole, supponendo che la verbosità – ora una sfida crescente per la PNL – è davvero ricompensata in questo modo.