Nella comunità della scienza dei dati, stiamo assistendo agli inizi di un’infodemia , in cui più dati diventano una responsabilità piuttosto che una risorsa. Ci stiamo muovendo continuamente verso modelli di intelligenza artificiale sempre più affamati di dati e più costosi dal punto di vista computazionale. E questo si tradurrà in alcuni effetti collaterali dannosi e forse controintuitivi (ci arriveremo a breve).

Per evitare gravi svantaggi, la comunità della scienza dei dati deve iniziare a lavorare con alcuni vincoli autoimposti: in particolare, dati e risorse di calcolo più limitati.

Una pratica di dati minimi consentirà a diversi settori guidati dall’intelligenza artificiale, inclusa la sicurezza informatica, che è la mia area di interesse, di diventare più efficienti, accessibili, indipendenti e dirompenti.

Quando i dati diventano una maledizione piuttosto che una benedizione
Prima di andare oltre, lasciatemi spiegare il problema con la nostra dipendenza da algoritmi AI sempre più affamati di dati. In termini semplicistici, i modelli basati sull’intelligenza artificiale stanno “imparando” senza essere esplicitamente programmati per farlo, attraverso un processo di tentativi ed errori che si basa su una serie di campioni accumulati. Più punti dati hai, anche se molti di essi sembrano indistinguibili ad occhio nudo, più precisi e robusti sono i modelli basati sull’intelligenza artificiale che dovresti ottenere, in teoria.

Alla ricerca di una maggiore accuratezza e bassi tassi di falsi positivi, settori come la sicurezza informatica, che un tempo era ottimista sulla sua capacità di sfruttare la quantità senza precedenti di dati seguita dalla trasformazione digitale aziendale, stanno ora affrontando una nuova serie di sfide:

  1. L’intelligenza artificiale ha una dipendenza dal computer. La paura crescente è che i nuovi progressi nella ricerca sperimentale sull’IA, che spesso richiedono formidabili set di dati supportati da un’adeguata infrastruttura di elaborazione, potrebbero essere arginati a causa di vincoli di calcolo e memoria, per non parlare dei costi finanziari e ambientali di esigenze di elaborazione più elevate.

Anche se potremmo raggiungere molti più traguardi di intelligenza artificiale con questo approccio basato sui dati, nel tempo vedremo progressi lenti. La tendenza della comunità della scienza dei dati a mirare a modelli all’avanguardia “insaziabili” e che drenano il calcolo in determinati domini (ad esempio il dominio della PNL ei suoi modelli linguistici su larga scala dominanti) dovrebbe servire come segnale di avvertimento. Le analisi OpenAI suggeriscono che la comunità della scienza dei dati è più efficiente nel raggiungere gli obiettivi che sono già stati ottenuti, ma dimostrano che richiede più calcolo, di pochi ordini di grandezza, per raggiungere nuovi traguardi raggiunti dall’IA. I ricercatori del MIT hanno stimatoche “tre anni di miglioramento algoritmico equivalgono a un aumento di 10 volte della potenza di calcolo”. Inoltre, la creazione di un modello di IA adeguato che resista alle derive dei concetti nel tempo e superi la ” sottospecificazione ” di solito richiede più cicli di addestramento e messa a punto, il che significa ancora più risorse di calcolo.

Se spingere la busta dell’IA significa consumare risorse ancora più specializzate a costi maggiori, allora sì, i principali giganti della tecnologia continueranno a pagare il prezzo per rimanere in testa, ma la maggior parte delle istituzioni accademiche troverebbe difficile prendere parte a questo “alto rischio – alta ricompensa ”concorrenza. Queste istituzioni molto probabilmente abbracceranno tecnologie efficienti sotto il profilo delle risorse o perseguiranno campi di ricerca adiacenti. La significativa barriera di elaborazione potrebbe avere un effetto di raffreddamento ingiustificato sugli stessi ricercatori accademici, che potrebbero scegliere di auto-frenarsi o astenersi completamente dal perseguire progressi rivoluzionari basati sull’intelligenza artificiale.

  1. Big data può significare rumore più spurio. Anche se presumi di aver definito e progettato correttamente l’obiettivo e l’architettura di un modello di intelligenza artificiale e di aver raccolto, curato e adeguatamente preparato dati pertinenti sufficienti, non hai alcuna garanzia che il modello produrrà risultati vantaggiosi e utilizzabili. Durante il processo di addestramento, man mano che vengono consumati punti dati aggiuntivi, il modello potrebbe ancora identificare correlazioni spurie fuorvianti tra variabili diverse. Queste variabili potrebbero essere associate in quello che sembra essere un modo statisticamente significativo, ma non sono causalmente correlate e quindi non servono come indicatori utili per scopi di previsione.

Lo vedo nel campo della sicurezza informatica: l’industria si sente obbligata a prendere in considerazione quante più funzionalità possibili, nella speranza di generare migliori meccanismi di rilevamento e scoperta, linee di base di sicurezza e processi di autenticazione, ma correlazioni spurie possono oscurare le correlazioni nascoste che importa davvero.

  1. Stiamo ancora facendo solo progressi lineari. Il fatto che i modelli affamati di dati su larga scala funzionino molto bene in circostanze specifiche, imitando i contenuti generati dall’uomo o superando alcune capacità di rilevamento e riconoscimento umano, potrebbe essere fuorviante. Potrebbe impedire ai professionisti dei dati di rendersi conto che alcuni degli sforzi attuali nella ricerca sull’IA applicativa stanno solo estendendo le capacità esistenti basate sull’intelligenza artificiale in una progressione lineare piuttosto che produrre progressi reali, nel modo in cui le organizzazioni proteggono i loro sistemi e reti, ad esempio.

I modelli di deep learning non supervisionati alimentati da grandi set di dati hanno prodotto risultati notevoli nel corso degli anni, in particolare attraverso il transfer learning e le reti generative adversarial (GAN). Ma anche alla luce dei progressi nella ricerca sull’IA neuro-simbolica , i modelli basati sull’intelligenza artificiale sono ancora lontani dal dimostrare l’intuizione, l’immaginazione, il ragionamento dall’alto verso il basso o l’intelligenza generale artificiale (AGI) di tipo umano che potrebbero essere applicati in modo ampio ed efficace su fondamentalmente. problemi diversi, come attività di sicurezza variabili, non copiate e in evoluzione mentre si affrontano avversari dinamici e sofisticati.

  1. Le preoccupazioni per la privacy sono in espansione. Ultimo ma non meno importante, la raccolta, l’archiviazione e l’utilizzo di ampi volumi di dati (inclusi i dati generati dagli utenti), che è particolarmente valido per le applicazioni di sicurezza informatica, solleva una pletora di preoccupazioni e considerazioni sulla privacy, legali e normative. Le argomentazioni secondo cui i punti dati relativi alla sicurezza informatica non contengono o costituiscono informazioni di identificazione personale (PII) vengono confutate in questi giorni, poiché il forte legame tra identità personali e attributi digitali sta estendendo la definizione legale PII per includere, ad esempio, anche un Indirizzo IP.

Come ho imparato a smettere di preoccuparmi e ad apprezzare la scarsità di dati
Per superare queste sfide, in particolare nella mia area, la sicurezza informatica, dobbiamo, prima di tutto, allineare le aspettative.

L’emergere inaspettato di Covid-19 ha sottolineato la difficoltà dei modelli di IA di adattarsi efficacemente a circostanze e casi limite invisibili e forse imprevedibili (come una transizione globale al lavoro remoto), specialmente nel cyberspazio dove molti set di dati sono naturalmente anomali o caratterizzato da un’elevata varianza. La pandemia ha solo sottolineato l’importanza di articolare in modo chiaro e preciso l’obiettivo di un modello e di preparare adeguatamente i suoi dati di addestramento. Queste attività sono solitamente importanti e laboriose quanto l’accumulo di campioni aggiuntivi o persino la scelta e l’affinamento dell’architettura del modello.

In questi giorni, il settore della sicurezza informatica deve attraversare l’ennesima fase di ricalibrazione poiché deve affrontare la sua incapacità di far fronte al “sovradosaggio di dati” o all’infodemia che ha afflitto il regno cibernetico. I seguenti approcci possono servire come principi guida per accelerare questo processo di ricalibrazione e sono validi anche per altre aree dell’IA, non solo per la sicurezza informatica:

L’efficacia algoritmica come massima priorità. Facendo il punto sulla legge di Moore, aziende e ricercatori di intelligenza artificiale stanno lavorando per aumentare l’efficacia algoritmica testando metodi e tecnologie innovativi, alcuni dei quali sono ancora in una fase nascente di implementazione. Questi approcci, che sono attualmente applicabili solo a compiti specifici, vanno dall’applicazione di Switch Transformers , al perfezionamento dei metodi di apprendimento Few Shots, One-Shot e Less-Than-One-Shot .

Approccio primo aumento umano . Limitando i modelli di intelligenza artificiale ad aumentare solo i flussi di lavoro dei professionisti della sicurezza e consentendo all’intelligenza umana e artificiale di lavorare in tandem, questi modelli potrebbero essere applicati ad applicazioni di sicurezza molto ristrette e ben definite, che per loro natura richiedono meno dati di addestramento. Questi guardrail AI potrebbero essere manifestati in termini di intervento umano o incorporando algoritmi basati su regole che codificano il giudizio umano. Non è un caso che un numero crescente di fornitori di sicurezza preferisca offrire soluzioni guidate dall’intelligenza artificiale che aumentano solo l’essere umano nel ciclo, invece di sostituire il giudizio umano tutti insieme.

Anche le autorità di regolamentazione potrebbero guardare con favore a questo approccio, poiché cercano meccanismi di responsabilità umana, supervisione e sicurezza, soprattutto quando si tratta di processi automatizzati, complessi e “scatola nera”. Alcuni fornitori stanno cercando di trovare una via di mezzo introducendo metodologie di apprendimento attivo o di rinforzo, che sfruttano l’input e le competenze umane per arricchire gli stessi modelli di sottolineatura. Parallelamente, i ricercatori stanno lavorando al miglioramento e al perfezionamento dell’interazione uomo-macchina insegnando ai modelli di intelligenza artificiale quando rimandare una decisione agli esperti umani.

Sfruttare i miglioramenti hardware. Non è ancora chiaro se architetture e processori di chip dedicati e altamente ottimizzati insieme a nuove tecnologie e framework di programmazione, o anche sistemi computerizzati completamente diversi, sarebbero in grado di soddisfare la domanda di calcolo AI in continua crescita. Su misura per le applicazioni di intelligenza artificiale, alcune di queste nuove basi tecnologiche che legano e allineano strettamente hardware e software specializzati, sono più capaci che mai di eseguire volumi inimmaginabili di calcoli paralleli, moltiplicazioni di matrici ed elaborazione di grafici.

Inoltre, anche istanze cloud appositamente create per il calcolo dell’IA, schemi di apprendimento federati e tecnologie di frontiera (chip neuromorfici, calcolo quantistico, ecc.) Potrebbero svolgere un ruolo chiave in questo sforzo. In ogni caso, è improbabile che questi progressi da soli riducano la necessità di un’ottimizzazione algoritmica che potrebbe “superare i vantaggi derivanti dall’efficienza dell’hardware”. Tuttavia, potrebbero rivelarsi fondamentali, poiché la battaglia in corso sui semiconduttori per il dominio dell’IA deve ancora produrre un chiaro vincitore.

I meriti della disciplina dei dati
Fino ad ora, la saggezza convenzionale nella scienza dei dati ha generalmente stabilito che quando si tratta di dati, più hai, meglio è. Ma ora stiamo iniziando a vedere che gli svantaggi dei modelli di IA affamati di dati potrebbero, nel tempo, superare i loro indiscussi vantaggi.

Le aziende, i fornitori di sicurezza informatica e altri professionisti dei dati hanno molteplici incentivi a essere più disciplinati nel modo in cui raccolgono, archiviano e consumano i dati. Come ho illustrato qui, un incentivo che dovrebbe essere al primo posto è la capacità di elevare l’accuratezza e la sensibilità dei modelli di intelligenza artificiale alleviando al contempo i problemi di privacy. Le organizzazioni che adottano questo approccio, che si basa sulla scarsità di dati piuttosto che sull’abbondanza di dati, ed esercitano l’autocontrollo, possono essere meglio attrezzate per promuovere un’innovazione basata sull’IA più attuabile ed economica nel lungo periodo.

Eyal Balicer di Citi

Di ihal