È ufficiale: Oracle sta entrando nel mondo dei data lakehouse con la disponibilità generale del suo servizio MySQL Heatwave Lakehouse a partire da oggi.
MySQL Heatwave è un servizio DBaaS (Database-as-a-Service) gestito basato sulla piattaforma open source del database relazionale MySQL, sviluppata da Oracle. Originariamente progettato per carichi di lavoro OLTP (Online Transaction Processing), MySQL Heatwave è stato esteso per supportare anche il trattamento analitico online (OLAP).
Di solito, come molti database relazionali, MySQL Heatwave può interrogare solo i dati memorizzati direttamente all’interno del database stesso. Ma MySQL Heatwave Lakehouse cambia questa dinamica consentendo al database di eseguire query sui dati archiviati nell’object storage cloud, comunemente noto come data lake. La “casa sul lago” dei dati mira a colmare il divario tra i tradizionali database e le tecnologie dei data warehouse, che richiedono l’indicizzazione e l’archiviazione nativa di tutti i dati, offrendo nel contempo la semplicità d’uso e il basso costo di un data lake nel cloud.
Oracle ha presentato in anteprima il servizio MySQL Heatwave Lakehouse nell’ottobre 2022 e ora lo rende disponibile su Oracle Cloud Infrastructure (OCI) e Microsoft Azure. Si prevede che il servizio sarà disponibile su Amazon Web Services entro la fine dell’anno. L’obiettivo principale è quello di consentire alle organizzazioni di utilizzare il servizio indipendentemente da dove dispongano dei dati, secondo quanto affermato da Oracle.
Nipun Agarwal, Senior Vice President del database MySQL e MySQL HeatWave di Oracle, ha dichiarato a VentureBeat: “Le prestazioni sono identiche, indipendentemente che i dati si trovino nell’object store o nel database. Ciò offre flessibilità agli utenti”.
MySQL Heatwave non solo consente l’utilizzo combinato di OLTP e OLAP, ma offre anche query più veloci nel complesso. Agarwal ha spiegato che MySQL Heatwave è un acceleratore di query in memoria che sfrutta i dati archiviati nel database MySQL per velocizzare le query e fornire funzionalità di analisi e data warehouse. Questa stessa accelerazione in memoria è fondamentale per abilitare la funzionalità del lakehouse.
Agarwal ha affermato che il servizio Oracle consente ai clienti di interrogare i dati archiviati nell’object storage utilizzando MySQL. Le organizzazioni possono caricare i propri dati in vari formati di file comuni, come CSV (valori separati da virgola), nonché nel formato di file Apache Parquet.
È importante notare che attualmente Oracle MySQL Heatwave non supporta alcuni dei popolari formati di tabelle open source per i data lake, come Apache Iceberg, che è ampiamente supportato da fornitori come Snowflake, Cloudera e persino Databricks, che ha recentemente annunciato il supporto insieme al proprio formato Delta Lake. Tuttavia, Agarwal ha osservato che Oracle espanderà il supporto ad altri formati di file in futuro, in base alle richieste dei clienti.
Indipendentemente dal fatto che i dati siano archiviati localmente in MySQL Heatwave o in un data lake, gli utenti possono interrogarli utilizzando le query SQL standard di MySQL, come ha sottolineato Agarwal. L’elaborazione effettiva viene eseguita dal motore MySQL Heatwave in memoria, mentre i dati rimangono nell’object storage, evitando la necessità di creare copie duplicate dei dati.
Un altro aspetto interessante sottolineato da Agarwal è che gli utenti non sapranno quale sia l’origine del file, se provenga direttamente dal database o da un data lake. Inoltre, è possibile combinare i dati sia dallo storage nativo che dal data lake per eseguire query.
Lo scorso mese, il fondatore di Oracle, Larry Ellison, ha condiviso dettagli su un servizio di intelligenza artificiale generativa sviluppato con Cohere e Oracle ha posizionato la sua piattaforma cloud come un luogo ideale per i fornitori per creare modelli di linguaggio di grandi dimensioni (LLM).
Per quanto riguarda il database, MySQL Heatwave beneficia delle funzionalità AutoML di Oracle che consentono di utilizzare il database per i workflow di addestramento del machine learning (ML). Attualmente, Oracle MySQL Heatwave non dispone di funzionalità specifiche di intelligenza artificiale generativa, ma questo potrebbe cambiare in futuro.