L’universo digitale, costituito da tutti i dati che creiamo ogni anno, raddoppia attualmente di dimensioni circa ogni dodici mesi. Secondo una ricerca di IDC, i dati totali dovrebbero raggiungere le dimensioni di 44 zettabyte entro il 2020. Si tratta di 44 trilioni di gigabyte e conterranno quasi tanti bit digitali quante sono le stelle nell’universo. Allo stesso modo, si prevede che entro il 2030 oltre il 90% di questi dati saranno dati non strutturati . Questa esplosione di dati supera di gran lunga la nostra capacità di utilizzarli effettivamente. Quasi tutte le aziende (e anche gli individui) archiviano dati a cui non accederanno mai più, solo perché l’archiviazione nel cloud è ora economica e disponibile per tutti.
Solo una piccola parte di tutti questi dati è in una forma strutturata tradizionale, facilmente accessibile e utilizzabile dalle organizzazioni. Una parte più sostanziale dei big data non è strutturata, ma almeno alcuni sono accessibili mentre la stragrande maggioranza è semplicemente nascosta del tutto, senza essere vista e inutilizzata. Questo è ciò che chiamiamo dati oscuri. Il flusso crescente di dati di macchine e sensori generati dall’Internet of Things e gli enormi archivi di dati grezzi trovati nelle profondità inesplorate del deep web, comprendono tutti dati oscuri.
È chiaro che la maggior parte di tutti questi dati che vengono creati sono dati oscuri non strutturati. I dark data erano un concetto coniato dalla società di consulenza IT Gartner che li ha definiti come asset di dati che le organizzazioni raccolgono, elaborano e archiviano durante le normali attività aziendali, ma generalmente non vengono applicati per altri scopi.
Nell’universo delle risorse informative, i dati possono essere considerati oscuri per una serie di motivi diversi, perché non sono strutturati o perché si trovano dietro un firewall. Oppure potrebbe essere buio a causa della velocità o del volume o perché le persone semplicemente non hanno effettuato i collegamenti tra i diversi set di dati. Ciò potrebbe anche essere dovuto al fatto che non si trovano in un database relazionale o perché fino a tempi recenti le tecniche necessarie per sfruttare i dati in modo efficace non esistevano. I dati oscuri sono spesso basati su testo e rimangono all’interno dei firewall aziendali, ma rimangono molto inutilizzati.
Ad esempio, la complessità della catena di approvvigionamento è una sfida significativa per le organizzazioni. La supply chain è un settore basato sui dati che attraversa una rete di canali di distribuzione di fornitori globali e base di clienti. Questo settore produce dati in gran numero, dato che si stima che venga utilizzato solo il 5% dei dati. Pertanto, sebbene il 95% di tali dati non venga utilizzato per l’analisi, rappresenta un’opportunità per le tecnologie dei big data per portare alla luce questi dati oscuri.
Ad oggi, le organizzazioni hanno esplorato solo una piccola parte dell’universo digitale per il valore analitico dei dati. L’analisi oscura consiste nel trasformare i dati oscuri in informazioni e informazioni che un’azienda può utilizzare. Cerca di rimuovere queste limitazioni gettando una rete di dati molto più ampia in grado di catturare una massa di segnali attualmente non sfruttati. Poche organizzazioni sono state in grado di sfruttare fonti di dati non tradizionali come file audio e video.
Solo molto tardi nell’ultimo decennio, con i progressi nell’apprendimento automatico e nelle tecniche di riconoscimento delle immagini, questa situazione sta cambiando. Ora l’API di analisi video degli strumenti open source può esaminare ogni scena di un video e identificare elementi particolari in quelle scene come un cane, una torta di compleanno, una montagna o una casa. I recenti miglioramenti nel riconoscimento dei modelli di visione artificiale e nell’analisi cognitiva stanno rendendo possibile alle aziende di trarre significati da quelle fonti non sfruttate e ricavare intuizioni in nuove analisi oscure.
Gestione dei dati oscuri
Le aziende devono migliorare le strategie di gestione dei dati, utilizzare gli strumenti giusti per identificare quali dati sono preziosi e rimuovere i “dati oscuri” dai loro data center. In media, il 52% di tutti i dati archiviati dalle aziende di tutto il mondo sono “oscuri” poiché i responsabili della gestione non hanno molta idea del suo contenuto o utilità. Molto è stato detto sul costo economico dei dati oscuri, ma il costo ambientale, finora, è stato spesso ignorato.
Un sondaggio , condotto da Vanson Bourne per Veritas – The Value of Data – ha rilevato che in media più della metà (52%) di tutti i dati nelle aziende rimane senza tag o non classificati. Ciò evidenzia che tali organizzazioni non hanno visibilità, supervisione o monitoraggio su enormi volumi di dati potenzialmente critici per l’azienda, il che lo rende un probabile bersaglio per gli hacker.
Il settore IT deve superare l’ostacolo poiché i volumi di dati aumentano ogni anno. Le aziende devono conoscere questo tipo di dati e le politiche di archiviazione che lo circondano. La mappatura e la scoperta dei dati sono le prime azioni per comprendere come i dati fluiscono attraverso un’organizzazione. Ottenere visibilità e informazioni su dove vengono archiviati i set di dati critici, chi ha accesso ad essi e per quanto tempo vengono conservati è un primo passo decisivo nella gestione dei dati oscuri.
La gestione proattiva dei dati consente alle aziende di ottenere visibilità sui dati, sull’infrastruttura di archiviazione e backup, di assumere il controllo dei rischi correlati ai dati e di prendere decisioni consapevoli con i dati.
Secondo Gartner fino al 2021, oltre l’80% delle organizzazioni non riuscirà a creare una policy di sicurezza dei dati consolidata nei propri silos, causando potenziali non conformità, violazioni della sicurezza e responsabilità aziendali. Per gestire con successo la crescita e la sicurezza dei dati, i responsabili IT dovranno implementare gli strumenti giusti e formare i dipendenti su come evitare l’accumulo di dati. Ma con la media delle grandi aziende tecnologiche che archivia milioni di file di dati, classificare e taggare manualmente i dati va oltre le capacità della maggior parte degli esseri umani. Le aziende dovrebbero, quindi, implementare strumenti di gestione dei dati con apprendimento automatico, algoritmi, politiche e processi, che possono aiutare a gestire e cercare informazioni preziose dai loro dati.
Secondo gli esperti, se le aziende globali continuano a memorizzare enormi quantità di “dati oscuri” all’interno delle loro sedi e nel cloud, può anche portare a un honeypot per i criminali informatici. La classificazione dei dati consente alle aziende di scansionare e taggare rapidamente i dati per assicurarsi che le informazioni sensibili siano adeguatamente gestite e protette, nonostante la posizione dei dati. Questa visibilità più ampia dei dati aiuta le aziende a rispettare le leggi sulla protezione dei dati sempre più rigide e che necessitano di politiche di conservazione speciali per essere implementate e applicate in tutto il patrimonio di dati di un’azienda.
Tenendo il passo con l’esplosione di dati su larga scala, le aziende possono automatizzare l’analisi, il monitoraggio e il reporting necessari per fornire responsabilità organizzativa per dati oscuri, file e sicurezza delle informazioni. Le aziende potrebbero dover gestire zettabyte di dati e miliardi di file, ed è per questo che i loro metodi di analisi dei dati dovrebbero integrarsi con strumenti di archiviazione, backup e sicurezza per prevenire la perdita di dati e garantire la conservazione dei dati basata su policy. Esistono alcuni strumenti che orchestrano automaticamente il ripristino dei dati ovunque risiedano, assicurano la disponibilità 24 ore su 24, 7 giorni su 7 di app business-critical e forniscono alle organizzazioni le informazioni necessarie per conformarsi alle normative in materia di dati in evoluzione.