Mentre la richiesta di intelligenza artificiale generativa continua a crescere, Databricks sta facendo ogni sforzo per mettere al centro della sua piattaforma il concetto di ‘data lakehouse’.
Durante la sua conferenza annuale, l’azienda specializzata in dati e intelligenza artificiale ha presentato LakehouseIQ, uno strumento di intelligenza artificiale generativa che rende accessibili a tutti le informazioni sui dati. Databricks ha inoltre annunciato nuove innovazioni nell’ambito del data lakehouse basato sull’intelligenza artificiale, con l’obiettivo di semplificare la costruzione e la gestione dei propri data lakehouse per i clienti.
Questa mossa arriva dopo l’acquisizione di MosaicML, per un valore di 1,3 miliardi di dollari, e avviene in un momento in cui Snowflake, il principale concorrente di Databricks, sta continuando a investire nell’intelligenza artificiale generativa.
Molte aziende desiderano analizzare i dati, ma spesso si trovano a dover affrontare la mancanza di competenze tecniche necessarie. Per soddisfare le proprie esigenze analitiche, devono fare affidamento su data scientist e programmatori per individuare e interrogare i set di dati pertinenti, un processo che richiede tempo e aumenta il carico di lavoro di team già impegnati.
Con l’introduzione di LakehouseIQ, Databricks sta affrontando questo problema offrendo un “motore di conoscenza” basato sull’intelligenza artificiale generativa, che consente a chiunque all’interno di un’organizzazione di cercare, comprendere e interrogare i dati aziendali semplicemente formulando domande in linguaggio naturale. Non sono richieste competenze in Python, SQL o query di dati.
Questo strumento sfrutta diversi elementi, come schemi, documenti, query, popolarità e provenienza, per apprendere il linguaggio unico di un’azienda (compresi i termini interni e i modelli di utilizzo dei dati) e rispondere immediatamente alle domande degli utenti. Questo livello di comprensione consente alla soluzione di interpretare in modo più accurato l’intento di una domanda e persino di generare ulteriori approfondimenti su cui lavorare.
Inoltre, grazie all’integrazione completa con Unity Catalog (la soluzione principale di Databricks per la ricerca e la governance unificata), vengono sempre garantite la sicurezza interna e le regole di governance.
Ali Ghodsi, cofondatore e CEO di Databricks, ha affermato: “LakehouseIQ affronta due delle principali sfide che le aziende devono affrontare nell’utilizzo dell’intelligenza artificiale: fornire ai dipendenti i dati corretti nel rispetto delle normative e mantenere la privacy dei dati quando necessario. Questo strumento allevia il carico di lavoro degli ingegneri che sono a corto di tempo, semplifica la gestione dei dati e consente ai dipendenti di beneficiare della rivoluzione dell’intelligenza artificiale senza compromettere le informazioni proprietarie dell’azienda.”
Anche Dremio e Kinetica stanno esplorando funzionalità simili di interrogazione conversazionale dei dati. Snowflake stessa ha acquisito Neeva, un’azienda che dovrebbe migliorare la sua capacità di offrire esperienze intelligenti e conversazionali di ricerca alle aziende che utilizzano la sua piattaforma per archiviare, analizzare e condividere dati. La società di data cloud ha inoltre lanciato Document AI, uno strumento conversazionale per estrarre informazioni da documenti non strutturati.
LakehouseAI, invece, è un’offerta di Databricks che aiuta le aziende a creare soluzioni personalizzate di intelligenza artificiale generativa sulla piattaforma, in base alle loro specifiche esigenze. Questo set di strumenti digitali è in continuo sviluppo per coprire l’intero ciclo di vita dell’intelligenza artificiale, dalla raccolta e preparazione dei dati allo sviluppo e al monitoraggio dei modelli di intelligenza artificiale.
Databricks ha annunciato di ampliare l’intelligenza artificiale di Lakehouse con la ricerca di incorporamento di vettori per migliorare le risposte dell’intelligenza artificiale generativa, una collezione curata di modelli open source disponibili sul mercato (tra cui MPT-7B di MosaicML), offerte di modelli ottimizzate per il data lakehouse, MLflow 2.5 con funzionalità come gateway AI e strumenti di prompt, nonché il monitoraggio del data lakehouse per una visibilità completa delle pipeline dati che guidano gli sforzi di intelligenza artificiale.
“Abbiamo raggiunto un punto di svolta per le organizzazioni: l’uso dell’intelligenza artificiale non è più solo un’ambizione, ma diventa fondamentale per rimanere competitivi. Da oltre un decennio, Databricks si impegna a democratizzare i dati e l’intelligenza artificiale, e continuiamo a innovare per rendere il data lakehouse il luogo migliore per costruire, possedere e proteggere modelli di intelligenza artificiale generativa”, ha aggiunto Ghodsi.
Durante la conferenza, Databricks ha anche presentato Delta Lake 3.0, che supporta Apache Iceberg e Hudi, nonché funzionalità di federazione che consentono alle organizzazioni di creare un’architettura data mesh altamente scalabile e performante con una governance unificata.