Cosa significa il round di finanziamento da 1,6 miliardi di dollari di Databricks per il mercato dell’IA aziendale
 
Con l’esplosione dei dati, ogni applicazione è ora un’applicazione di dati. Scopri perché questo ha centinaia di team di software che creano le loro applicazioni nel cloud in più casi d’uso e settori.

L’ultimo vincitore del crescente interesse per l’intelligenza artificiale aziendale è Databricks, una startup che ha appena ottenuto  1,6 miliardi di dollari di finanziamenti di serie H  con una valutazione folle di 38 miliardi di dollari. Questo ultimo round di investimenti arriva solo pochi mesi dopo che Databricks ha raccolto un altro miliardo di dollari.

Databricks è una delle numerose aziende che offrono servizi e prodotti per unificare, elaborare e analizzare i dati archiviati in diverse fonti e architetture. La categoria include anche Snowflake, che ha realizzato una massiccia IPO lo scorso anno e ha una capitalizzazione di mercato di $ 90 miliardi, e C3.ai, un’altra società di intelligenza artificiale aziendale che è diventata pubblica l’anno scorso.

 
Perché gli investitori sono innamorati di aziende come Databricks? Perché stanno affrontando alcune delle più grandi sfide che ostacolano le aziende che stanno cercando di avviare  progetti di apprendimento automatico  per ridurre i costi delle operazioni, migliorare i prodotti e l’esperienza utente e aumentare le entrate.

C’è molta eccitazione intorno a ciò che aziende come Databricks possono fare per il mercato dell’IA aziendale. Ma resta da vedere se l’enorme valutazione è giustificata o se è un sottoprodotto del clamore che circonda il mercato. Data la struttura di queste società e i loro modelli di business, non è chiaro come continueranno a sostenere la crescita che gli investitori si aspettano e se potranno resistere alla concorrenza a lungo termine e inevitabile che i giganti della tecnologia porteranno.

Affrontare i problemi relativi ai dati
Molte aziende stanno cercando di migliorare le operazioni basate sui dati e avviare progetti di apprendimento automatico, ma hanno difficoltà a sfruttare la propria infrastruttura di dati. Grazie ai servizi cloud scalabili, le aziende sono state in grado di raccogliere enormi quantità di dati senza effettuare investimenti iniziali in infrastrutture IT e talenti.

Ma mettere in pratica questi dati è più facile a dirsi che a farsi. Nelle grandi aziende che esistono da un po’ di tempo, i dati vengono generalmente distribuiti su sistemi diversi e archiviati secondo standard diversi. Hanno una combinazione di classici data warehouse basati su schema e data lake senza schema, archiviati sui server aziendali e nel cloud. Diversi archivi dati potrebbero utilizzare convenzioni diverse per registrare informazioni simili, rendendole incompatibili tra loro. Alcuni database potrebbero contenere informazioni riservate, il che pone difficoltà nel renderle disponibili a diversi team di data science e business intelligence.

Tutto ciò rende molto difficile consolidare i dati e prepararli per il consumo da modelli di machine learning e strumenti di business intelligence. In effetti,  diversi sondaggi  mostrano che le principali barriere nei progetti di apprendimento automatico applicato sono legate alle attività e al talento di ingegneria dei dati.


Questo è il problema che stanno affrontando aziende come Databricks. I fondatori di Databricks includono gli sviluppatori di Apache Spark, Delta Lake e MLflow, tre progetti open source che sono diventati componenti chiave dei progetti di apprendimento automatico in esecuzione su origini dati molto grandi e disparate. Apache Spark è un motore di analisi che elabora grandi quantità di dati in vari formati. Delta Lake è un livello di storage che riunisce data lake e data warehouse in un’architettura che può essere interrogata come un database classico. MLflow è uno strumento per la gestione delle pipeline di machine learning e per tenere traccia delle diverse versioni dei modelli.
Lakehouse, il principale servizio cloud di Databricks, utilizza tutti questi progetti per riunire diverse fonti di dati e consentire a data scientist e analisti di eseguire carichi di lavoro da un’unica piattaforma.

La piattaforma unificata dell’azienda semplifica la collaborazione e la condivisione degli spazi di lavoro per i team di business intelligence e machine learning. Riduce il carico di ingegneria dei dati fornendo accesso unificato a origini dati disparate. Sotto il cofano, può occuparsi di problemi come schemi incompatibili, anonimizzazione e passaggio tra dati in streaming e batch.

Come altri servizi della stessa categoria, la piattaforma di Databricks supporta Microsoft Azure, Amazon Web Services e Google Cloud, l’infrastruttura cloud utilizzata dalla maggior parte delle aziende per archiviare i propri dati. Ciò offre a Databricks il vantaggio di sfruttare l’infrastruttura robusta e scalabile dei principali fornitori di cloud e ovvia alla necessità per i propri clienti di migrare i propri dati (ma comporta anche alcuni rischi per il proprio business, di cui parlerò più avanti).

Grandi clienti
I servizi di Databricks hanno un grande valore per le organizzazioni con grandi archivi di dati non sfruttati.

Ad esempio, AstraZeneca ha utilizzato la piattaforma di Databricks per unificare centinaia di fonti di dati interne e pubbliche. Ciò ha comportato query più rapide e fluide, una migliore collaborazione tra i team e operazioni più rapide, il che è fondamentale per un settore che spende miliardi di dollari e anni di ricerca per trovare ipotesi promettenti e condurre esperimenti.

HSBC ha utilizzato la piattaforma per migliorare il proprio sistema di rilevamento delle frodi e il motore di raccomandazione. La banca è stata in grado di consolidare 14 database in un unico Delta Lake che ha messo a disposizione dei suoi team di data science e machine learning. Il Delta Lake è stato creato per occuparsi di alcuni dei requisiti legali e normativi, come l’anonimizzazione dei dati dei clienti prima di inviarli ai modelli di apprendimento automatico. Le pipeline di dati migliorate hanno portato a un miglioramento di ordini di grandezza della velocità operativa e hanno aiutato i team di machine learning ad accelerare lo sviluppo, l’addestramento e l’ottimizzazione dei modelli. Il risultato complessivo è stato una migliore esperienza del cliente e un aumento di 4,5 volte del coinvolgimento degli utenti sull’app mobile della banca PayMe.

Uno sguardo ai concorrenti di Databricks mostra una tendenza simile. I clienti di C3.ai includono giganti del petrolio e del gas, agenzie governative, grandi produttori e aziende sanitarie. Snowflake serve catene di supermercati e ristoranti, aziende di alimenti e bevande confezionati e organizzazioni sanitarie.

C’è anche appello per la gestione dei dati aziendali e i servizi di intelligenza artificiale tra le aziende tecnologiche, ma il mercato è limitato alle aziende che non possono impostare le proprie pipeline di dati o sono nelle fasi iniziali dei progetti di apprendimento automatico. La maggior parte delle grandi aziende tecnologiche dispone di talenti e strumenti interni per adattare la propria infrastruttura di dati alle proprie esigenze e fare un uso ottimale dei servizi open source e cloud. Un caso di studio interessante è l’uso da parte di Twitter di servizi di gestione dei dati on-premise e basati su cloud  per eseguire carichi di lavoro di machine learning.

Un mercato competitivo

Nel suo ultimo round di finanziamento, Databricks ha registrato entrate ricorrenti annuali (ARR) di 600 milioni di dollari, in aumento rispetto ai 425 milioni di dollari del 2020. Questo è il tipo di crescita entusiasmante che ha spinto gli investitori a investire ancora più denaro nell’azienda. La valutazione di 38 miliardi di dollari di Databricks è in gran parte dovuta agli investitori che scommettono sulla capacità dell’azienda di sostenere questo ritmo di crescita.

Ma ci sono diverse sfide che Databricks e i suoi colleghi devono superare.

Innanzitutto, il mercato è molto competitivo. Come ha dichiarato a TechCrunch Ali Ghodsi, CEO di Databricks  , “[I data lakehouse sono] una nuova categoria e pensiamo che ci saranno molti fornitori in questa categoria di dati. Quindi è un furto di terra. Vogliamo correre velocemente per costruirlo e completare il quadro”.

In alcuni mercati, le aziende sfruttano gli effetti di rete o dati superiori per mantenere i propri clienti bloccati e mantenere il vantaggio sui concorrenti. Nel settore informatico le dinamiche di mercato sono diverse. Sebbene Databricks fornisca una tecnologia molto utile, non è qualcosa che altre aziende non possono copiare. E poiché la tecnologia dell’azienda si basa sui principali fornitori di servizi cloud, i clienti avranno poche barriere nel passare ai concorrenti.

Ciò significa che il successo dipenderà in gran parte dalla strategia di acquisizione dei clienti degli attori del mercato e dalla loro capacità di fidelizzare i clienti attraverso l’innovazione continua.

La crescita dipenderà anche in gran parte dal tipo di clienti che l’azienda acquisirà. Databricks ha annunciato nel suo ultimo round di finanziamento di avere 5.000 clienti. Poiché la società non ha ancora presentato IPO, non conosciamo i dettagli dei suoi dati finanziari. Ma se la concorrenza è indicativa, pochi clienti molto grandi rappresenteranno gran parte delle sue entrate. Ad esempio, C3.ai ha guadagnato il 36% delle sue entrate nel 2020  da Baker Hughes ed Engie. E secondo il  deposito S-1 di Snowflake , quasi il 30 percento delle sue entrate nella prima metà del 2020 proveniva da 153 dei suoi 3.000 clienti.

Queste aziende cresceranno fintanto che potranno acquisire nuovi grandi clienti disposti a spendere grandi somme. Ma una volta che il mercato diventa saturo, la crescita si stabilizza. Quindi, dovranno vendere ai clienti esistenti con nuovi servizi, il che è molto difficile, o strappare i clienti l’uno all’altro fornendo prezzi più competitivi, il che ridurrà le entrate. La perdita di ogni grande cliente avrà un impatto drammatico sui dati finanziari di ciascuna di queste aziende.

Il futuro del mercato
La natura competitiva del mercato avrà l’effetto positivo di spingere le aziende di IA aziendali a innovare a un ritmo rapido. Ma ad un certo punto, il mercato dovrà affrontare la forte concorrenza delle grandi aziende tecnologiche.

Tutti e tre i fornitori di servizi cloud dispongono di prodotti che possono evolvere nel tipo di servizi forniti da Databricks. Google ha BigQuery, Microsoft ha Azure Synapse e Amazon ha Redshift.

Una volta che il mercato matura, aspettati che i giganti del cloud facciano la loro mossa per ottenere la loro parte. Date le loro tasche profonde, i tre grandi possono acquistare le società di gestione dei dati più piccole o acquistare i loro clienti a prezzi più competitivi.

Di particolare interesse per queste aziende è Microsoft, che ha già una grande penetrazione nei mercati non tecnologici in cui Databricks e altri sono fiorenti, grazie ai suoi strumenti di collaborazione aziendale.

Microsoft è anche in partnership con Databricks e un numero considerevole di grandi clienti di Databricks si trova sulla piattaforma Azure Databricks. E Microsoft ha una storia di trasformare le partnership in acquisizioni .

Nelle discussioni con i media, Ghodsi non ha escluso la possibilità di un’IPO. Ma non sarei sorpreso se la sua azienda finisse per diventare una sussidiaria di Microsoft.

Ben Dickson da Bdtechtalks.com 

Di ihal