I data lake sono diventati una parte indispensabile delle moderne infrastrutture di dati, grazie ai loro molteplici vantaggi. La loro capacità di archiviare grandi quantità di dati non strutturati e fornire accesso democratico e sicuro li ha resi molto popolari tra le aziende.
Secondo le stime, il mercato dei data lake dovrebbe crescere con un CAGR del 24,9% e raggiungere una dimensione di circa 17,6 miliardi di dollari entro il 2026. Con questa crescita esplosiva, non sorprende che le aziende stiano scoprendo nuovi casi d’uso per i data lake, ad esempio passando da data lake monolitici a data lake specifici per dominio.
I data lake offrono senza dubbio vantaggi rispetto all’approccio tradizionale di gestione dei dati, come i software ERP e CRM. Mentre l’approccio tradizionale può essere paragonato a piccoli negozi gestiti in modo indipendente, i data lake possono essere paragonati a Walmart, dove tutti i dati possono essere trovati in un unico luogo.
Tuttavia, man mano che la tecnologia evolve, le aziende stanno scoprendo che questo approccio presenta anche alcuni svantaggi. Senza una gestione adeguata, i data lake di grandi dimensioni possono rapidamente trasformarsi in “paludi di dati”, cioè in pool di dati ingestibili e di scarsa qualità. In effetti, ci sono tre principali problematiche che possono mettere a rischio i data lake: complessità, qualità dei dati e sicurezza.
La flessibilità rappresenta uno dei principali vantaggi nella gestione di un data lake, poiché consente di archiviare i dati grezzi nel loro formato nativo. Tuttavia, questa flessibilità comporta anche una maggiore complessità, che richiede data scientist e ingegneri specializzati per estrarre valore da tali dati. Senza un team adeguato per la gestione e la cura dei data lake, diventa difficile sfruttarne appieno il potenziale.
Questo ci porta al secondo problema: la qualità dei dati. L’operazione di selezione e pulizia di un data lake richiede tempo e risorse considerevoli, oltre a una costante governance dei dati. Se questo aspetto viene trascurato, il data lake rischia di diventare una palude di dati con molti nuovi dati non etichettati o identificati correttamente. I metadati svolgono un ruolo chiave per garantire un data lake di alta qualità, e tutto ciò richiede una governance costante.
A causa della natura centralizzata dei data lake, la sicurezza rappresenta un problema importante, soprattutto considerando il numero di team che vi accedono. Il controllo degli accessi rappresenta uno degli aspetti più critici nella gestione di un data lake, insieme alla fornitura del giusto set di dati ai team appropriati. Se ciò non viene fatto correttamente, i dati sensibili potrebbero essere esposti a rischi di perdita.
Nonostante gli svantaggi menzionati, l’impatto positivo dei data lake è innegabile. La loro scalabilità, il risparmio sui costi e le funzionalità avanzate sono i loro punti di forza principali. Tuttavia, esiste un modo per ottenere il meglio da entrambi i mondi: passare da un data lake monolitico a diversi data lake più piccoli e distribuiti.
Con l’aumento dei data lake, queste problematiche stanno diventando sempre più importanti, spingendo le aziende a adottare data lake più piccoli e specifici per dominio. Questa nuova approccio, definito “data mesh”, rappresenta una struttura organizzativa che sfrutta i vantaggi dei data lake riducendo alcuni dei loro svantaggi.
Nel tipico data lake, tutti i dati dell’organizzazione vengono inseriti in una piattaforma unica, successivamente puliti e trasformati. Questo crea una struttura centralizzata simile a un monolite, che rappresenta un passaggio dalla proprietà dei dati orientata al dominio a una visione più agnostica rispetto ai domini stessi. La creazione di una data mesh permette di superare queste limitazioni, ritornando alla proprietà dei dati orientata al dominio, mantenendo al contempo i vantaggi offerti dai data lake.
Invece di fornire un unico repository centralizzato al quale i vari team accedono tramite controlli di accesso, i team possono assumere la proprietà dei dati creati all’interno dei propri domini. Questo approccio non solo riduce la quantità di manutenzione richiesta per l’intero data lake, ma offre anche un accesso democratizzato ai dati specifici dei singoli domini, consentendo loro di gestire i propri dati in modo autonomo.
La data mesh risolve molti dei problemi presenti nei data lake monolitici. La sicurezza dei dati diventa meno problematica rispetto a una struttura monolitica, poiché i team accedono solo ai dati di cui hanno effettivamente bisogno, evitando l’accesso controllato a tutti i dati. Anche la complessità viene ridotta, semplificando la gestione e la cura dei dati da parte dei “data concierge”.
La gestione della qualità dei dati diventa più semplice, in quanto i data lake più piccoli hanno meno probabilità di trasformarsi in paludi di dati. Tuttavia, è importante notare che anche i data lake più piccoli devono essere costruiti su un’architettura di big data esistente per consentire l’accesso ai dati tra i diversi domini.
È importante sottolineare che i vantaggi offerti dalla data mesh saranno maggiormente evidenti con l’aumento delle esigenze di dati di un’azienda. Su scala ridotta, i vantaggi del data mesh potrebbero essere superati dai benefici offerti da un data lake centralizzato. Come per qualsiasi architettura dati, le aziende devono testare ciò che funziona meglio per i loro casi d’uso specifici.