In che modo l’AI può identificare un nuovo malware con la stessa facilità con cui riconosce i gatti
Dal ransomware alle botnet, il malware assume forme apparentemente infinite e prolifera per sempre. Per quanto proviamo , gli umani che difendono i nostri computer da essi stanno perdendo nell’assalto, quindi si rivolgono alla AI per chiedere aiuto.
C’è solo un problema: gli strumenti di machine learning hanno bisogno di molti dati. Questo va bene per attività come la visione artificiale o l’elaborazione in linguaggio naturale, dove sono disponibili ampi set di dati open source per insegnare algoritmi come riconoscere un gatto, per esempio, o come le parole si relazionano tra loro. Nel mondo del malware, una cosa del genere non è esistita, fino ad ora.
Questa settimana, Endgame, società di cibersicurezza, ha pubblicato un ampio set di dati open source chiamato EMBER (per “Endgame Malware Benchmark for Research”). EMBER è una raccolta di oltre un milione di rappresentazioni di file eseguibili portatili e dannosi per Windows, un formato in cui spesso il malware si nasconde. Un team dell’azienda ha inoltre rilasciato un software AI che può essere addestrato sul set di dati. L’idea è che se l’intelligenza artificiale deve diventare un’arma potente nella lotta contro il malware, deve sapere cosa cercare.
Le società di sicurezza hanno un mare di dati potenziali per addestrare i loro algoritmi, ma questa è una benedizione mista. I cattivi attori che creano malware stanno costantemente modificando il codice nel tentativo di anticipare il rilevamento, quindi l’addestramento su campioni di malware non aggiornati potrebbe rivelarsi un esercizio inutile.
“È un gioco tipo colpisci la talpa un gioco schizato “, dice Charles Nicholas, professore di informatica all’Università del Maryland, nella contea di Baltimora.
EMBER ha lo scopo di aiutare a mantenere i programmi automatizzati di sicurezza informatica.
Invece di una raccolta di file reali, che potrebbero infettare il computer di qualsiasi ricercatore che li utilizza, EMBER contiene una sorta di avatar per ogni file, una rappresentazione digitale che fornisce un algoritmo un’idea delle caratteristiche associate a file benigni o dannosi senza esporla all’articolo originale.
Ciò dovrebbe aiutare i membri della comunità della sicurezza informatica a formare e testare rapidamente più algoritmi, consentendo loro di costruire una IA migliore e più adattabile alla ricerca di malware.
Ovviamente, rendere il dataset aperto a chiunque possa essere utilizzato potrebbe anche rivelarsi una responsabilità se dovesse cadere nelle mani sbagliate. I creatori di malware potrebbero utilizzare i dati per progettare sistemi che l’IA per la ricerca di virus non riconoscerà, un problema che Hyrum Anderson, direttore tecnico della scienza dei dati di Endgame, dice che l’azienda ha riflettuto. Anderson, che ha lavorato su EMBER, dice che spera che i benefici di questa apertura superino i rischi. Inoltre, il crimine informatico è così redditizio che le persone dietro il malware sono già ben motivate a continuare a perfezionare i loro strumenti di attacco.
“L’hacker troverà comunque un esempio”, afferma Gerald Friedland, professore di informatica presso l’Università della California, a Berkeley.