Il machine learning, l’intelligenza artificiale e il panorama dei dati del 2021
 
È stato un anno caldo e torrido nel mondo dei dati, dell’apprendimento automatico e dell’intelligenza artificiale.
Proprio quando pensavi che non potesse crescere in modo più esplosivo, il panorama dei dati/AI lo ha fatto: il ritmo rapido della creazione di aziende, nuovi entusiasmanti lanci di prodotti e progetti, un diluvio di finanziamenti VC , creazione di unicorni, IPO, ecc.

È stato anche un anno di molteplici discussioni e storie che si intrecciano.

 
Una storia è stata la maturazione dell’ecosistema, con i leader di mercato che hanno raggiunto su larga scala e hanno aumentato le loro ambizioni per il dominio del mercato globale, in particolare attraverso un’offerta di prodotti sempre più ampia. Alcune di queste società, come Snowflake, hanno prosperato nei mercati pubblici (vedi il nostro indice MAD Public Company ), e un certo numero di altre (Databricks, Dataiku, DataRobot, ecc.) hanno raccolto molto grandi ( o nel caso di Databricks , gigantesco ) gira a valutazioni multimiliardarie e bussa alla porta dell’IPO (vedi il nostro Indice delle società Emerging MAD ).

 
Ma dall’altra parte dello spettro, quest’anno ha visto anche il rapido emergere di un’intera nuova generazione di startup di dati e ML . Che siano stati fondati pochi anni o pochi mesi fa, molti hanno sperimentato uno scatto di crescita nell’ultimo anno o giù di lì. Parte di esso è dovuto a un ambiente di finanziamento VC rabbioso e parte di esso, più fondamentalmente, è dovuto a punti di flessione nel mercato.

Nell’ultimo anno, ci sono state meno discussioni accattivanti sulle applicazioni futuristiche dell’intelligenza artificiale (veicoli a guida autonoma, ecc.) e di conseguenza un po’ meno clamore sull’intelligenza artificiale. Indipendentemente da ciò, le aziende di dati e applicazioni basate su ML/AI hanno continuato a prosperare, in particolare quelle focalizzate sui casi di tendenza d’uso aziendale. Nel frattempo, gran parte dell’azione si è svolta dietro le quinte dal lato dei dati e dell’infrastruttura ML, con la comparsa o l’accelerazione drastica di categorie completamente nuove (osservabilità dei dati, ETL inverso, archivi di metriche, ecc.).

Per tenere traccia di questa evoluzione, questo è il nostro ottavo panorama annuale e lo “stato dell’unione” dei dati e dell’ecosistema di intelligenza artificiale, coautore quest’anno con il mio collega di FirstMark John Wu . (Per chiunque fosse interessato, ecco le versioni precedenti: 2012 , 2014 , 2016 , 2017 , 2018 , 2019: Parte I e Parte II e 2020. )

Per coloro che hanno notato nel corso degli anni quanto sia follemente occupato il grafico, adorerai il nostro nuovo acronimo: Machine learning, intelligenza artificiale e dati (MAD): questo è ora ufficialmente il panorama MAD!

Abbiamo imparato nel corso degli anni che quei post vengono letti da un ampio gruppo di persone, quindi abbiamo cercato di fornire un po’ per tutti: una visione macro che si spera sia interessante e accessibile ai più, e poi un po’ più granulare panoramica delle tendenze nell’infrastruttura dei dati e ML/AI per le persone con una maggiore familiarità con il settore.

Note rapide:

Il mio collega John ed io siamo VC nella fase iniziale di FirstMark e investiamo molto attivamente nello spazio dati/AI. Le nostre società in portafoglio sono contrassegnate con un (*) in questo post.
Scaviamo.

La vista macro: dare un senso alla complessità dell’ecosistema
Cominciamo con una visione di alto livello del mercato. Poiché il numero di aziende nello spazio continua ad aumentare ogni anno, le domande inevitabili sono: perché sta succedendo? Per quanto tempo può andare avanti? Il settore subirà un’ondata di consolidamento?

Riavvolgi: il megatrend
I lettori delle versioni precedenti di questo panorama sapranno che siamo inesorabilmente ottimisti sui dati e sull’ecosistema di intelligenza artificiale.

ANNUNCIO

Come abbiamo detto negli anni precedenti, la tendenza fondamentale è che ogni azienda diventi non solo una società di software, ma anche una società di dati.

Storicamente, e ancora oggi in molte organizzazioni, i dati hanno significato dati transazionali archiviati in database relazionali, e forse qualche dashboard per l’analisi di base di ciò che è accaduto al business negli ultimi mesi.

Ma ora le aziende stanno marciando verso un mondo in cui i dati e l’intelligenza artificiale sono incorporati in una miriade di processi interni e applicazioni esterne, sia per scopi analitici che operativi. Questo è l’inizio dell’era dell’impresa intelligente e automatizzata: in cui le metriche aziendali sono disponibili in tempo reale , le domande di mutuo vengono elaborate automaticamente, i chatbot AI forniscono assistenza clienti 24 ore su 24, 7 giorni su 7, si prevede l’abbandono, le minacce informatiche vengono rilevate in tempo reale, e le catene di approvvigionamento si adeguano automaticamente alle fluttuazioni della domanda.

Questa evoluzione fondamentale è stata alimentata da notevoli progressi nella tecnologia sottostante, in particolare una relazione simbiotica tra l’infrastruttura dei dati da un lato e l’apprendimento automatico e l’intelligenza artificiale dall’altro.

Entrambe le aree hanno avuto la loro storia e i loro collegi elettorali separati, ma negli ultimi anni hanno operato sempre più di pari passo. La prima ondata di innovazione è stata l’era dei “Big Data”, all’inizio degli anni 2010, in cui l’innovazione si è concentrata sulla costruzione di tecnologie per sfruttare le enormi quantità di dati digitali creati ogni giorno. Quindi, si è scoperto che se si applicavano i big data ad alcuni algoritmi di intelligenza artificiale vecchi di dieci anni (apprendimento profondo), si ottenevano risultati sorprendenti e questo ha innescato l’intera ondata di eccitazione attuale intorno all’intelligenza artificiale. A sua volta, l’intelligenza artificiale è diventata un fattore trainante per lo sviluppo dell’infrastruttura dei dati: se possiamo creare tutte quelle applicazioni con l’intelligenza artificiale, allora avremo bisogno di una migliore infrastruttura dei dati e così via.

Avanti veloce al 2021: i termini stessi (big data, AI, ecc.) hanno sperimentato gli alti e bassi del ciclo di hype, e oggi si sentono molte conversazioni sull’automazione, ma fondamentalmente questo è lo stesso megatrend.


Il grande sblocco
Gran parte dell’accelerazione odierna nello spazio dati/AI può essere ricondotta all’ascesa dei data warehouse su cloud (e dei loro cugini Lakehouse, ne parleremo più avanti) negli ultimi anni.


È ironico perché i data warehouse rispondono a una delle esigenze più basilari, pedonali, ma anche fondamentali nell’infrastruttura dei dati: dove memorizzi tutto? L’archiviazione e l’elaborazione sono alla base della “gerarchia dei bisogni” dati/AI – vedi il famoso post sul blog di Monica Rogati qui – il che significa, cosa devi avere in atto prima di poter fare cose più fantasiose come l’analisi e l’intelligenza artificiale.

Penseresti che oltre 15 anni dopo la rivoluzione dei big data, quella necessità era stata risolta molto tempo fa, ma non era così.

In retrospettiva, il successo iniziale di Hadoop è stato un po’ un falso per lo spazio: Hadoop, la tecnologia big data OG, ha provato a risolvere il livello di archiviazione ed elaborazione. Ha svolto un ruolo davvero importante in termini di trasmissione dell’idea che il valore reale potesse essere estratto da enormi quantità di dati, ma la sua complessità tecnica complessiva alla fine ha limitato la sua applicabilità a un piccolo gruppo di aziende e non ha mai realmente raggiunto la penetrazione del mercato che anche i data warehouse più vecchi (ad es. Vertica) avevano qualche decennio fa.

Oggi, i data warehouse cloud (Snowflake, Amazon Redshift e Google BigQuery) e i Lakehouse (Databricks) offrono la possibilità di archiviare enormi quantità di dati in un modo utile, non del tutto proibitivo in termini di costi e non richiede un esercito di personale tecnico da mantenere. In altre parole, dopo tutti questi anni, ora è finalmente possibile archiviare ed elaborare i big data.

Questo è un grosso problema e ha dimostrato di essere un importante sblocco per il resto dello spazio dati / AI, per diversi motivi.

Innanzitutto, l’ascesa dei data warehouse aumenta notevolmente le dimensioni del mercato non solo per la sua categoria, ma per l’intero ecosistema di dati e AI. A causa della loro facilità d’uso e dei prezzi basati sul consumo (dove paghi mentre vai), i data warehouse diventano la porta d’ingresso per ogni azienda che diventa una società di dati. Che tu sia un’azienda Global 2000 o una startup in fase iniziale, ora puoi iniziare a costruire la tua infrastruttura di dati di base con il minimo sforzo. (Anche FirstMark, una società di venture capital con diversi miliardi in gestione e 20 membri del team, ha la sua istanza Snowflake.)


In secondo luogo, i data warehouse hanno sbloccato un intero ecosistema di strumenti e aziende che ruotano attorno a loro: ETL, ELT, reverse ETL, strumenti di qualità dei dati incentrati sul magazzino, archivi di metriche, analisi aumentata, ecc. Molti si riferiscono a questo ecosistema come “dati moderni stack” (di cui abbiamo discusso nel nostro panorama del 2020 ). Un certo numero di fondatori ha visto l’emergere del moderno stack di dati come un’opportunità per lanciare nuove startup e non sorprende che gran parte della febbrile attività di finanziamento di VC nell’ultimo anno si sia concentrata sulle moderne società di stack di dati. Le startup che erano all’inizio della tendenza (e hanno svolto un ruolo fondamentale nella definizione del concetto) stanno ora raggiungendo la scala, tra cui DBT Labs, un fornitore di strumenti di trasformazione per gli ingegneri di analisi (vedi il nostroFireside Chat con Tristan Handy, CEO di DBT Labs e Jeremiah Lowin, CEO di Prefect ), e Fivetran, un fornitore di soluzioni automatizzate di integrazione dei dati che inviano i dati in data warehouse (vedi la nostra Fireside Chat con George Fraser, CEO di Fivetran ), entrambi di cui recentemente hanno raccolto grandi round (vedere la sezione Finanziamento).

In terzo luogo, poiché risolvono il livello di storage fondamentale, i data warehouse consentono alle aziende di iniziare a concentrarsi su progetti di alto valore che appaiono più in alto nella gerarchia delle esigenze dei dati. Ora che hai archiviato i tuoi dati, è più facile concentrarsi seriamente su altre cose come l’elaborazione in tempo reale, l’analisi aumentata o l’apprendimento automatico. Ciò a sua volta aumenta la domanda del mercato per tutti i tipi di altri dati e strumenti e piattaforme di intelligenza artificiale. Viene creato un volano in cui una maggiore domanda dei clienti crea più innovazione dalle aziende di dati e infrastrutture ML.

Poiché hanno un impatto diretto e indiretto sullo spazio, i data warehouse sono un importante punto di riferimento per l’intero settore dei dati: man mano che crescono, cresce anche il resto dello spazio.

La buona notizia per il settore dei dati e dell’intelligenza artificiale è che i data warehouse e le case sul lago stanno crescendo molto rapidamente, su larga scala. Snowflake, ad esempio, ha mostrato una crescita anno su anno del 103% nei risultati del secondo trimestre più recenti, con un’incredibile ritenzione di entrate nette del 169% (il che significa che i clienti esistenti continuano a utilizzare e pagare per Snowflake sempre di più nel tempo). Snowflake punta a un fatturato di 10 miliardi di dollari entro il 2028. C’è una reale possibilità che possano arrivare prima. È interessante notare che, con i prezzi basati sul consumo in cui i ricavi iniziano a fluire solo dopo che il prodotto è stato completamente distribuito, l’attuale trazione dei clienti dell’azienda potrebbe essere ben superiore ai suoi numeri di fatturato più recenti.


Questo potrebbe certamente essere solo l’inizio di come potrebbero diventare i big data warehouse. Alcuni osservatori ritengono che data warehouse e lakehouse, collettivamente, potrebbero raggiungere nel tempo la penetrazione del mercato del 100% (nel senso che ogni azienda rilevante ne ha uno), in un modo che non è mai stato vero per le tecnologie di dati precedenti come i data warehouse tradizionali come Vertica (anche costoso e ingombrante da implementare) e Hadoop (troppo sperimentale e tecnico).

Anche se questo non significa che ogni fornitore di data warehouse e ogni avvio di dati, o anche segmento di mercato, avrà successo, dal punto di vista direzionale questo è di buon auspicio per l’intero settore dei dati/AI.

Lo shock titanico: Snowflake contro Databricks
Fiocco di neve è stato recentemente il figlio manifesto dello spazio dati. La sua IPO nel settembre 2020 è stata la più grande IPO di software di sempre (l’avevamo trattato all’epoca nel nostro Quick S-1 Teardown: Snowflake ). Al momento in cui scriviamo, e dopo alcuni alti e bassi, è una società pubblica con capitalizzazione di mercato da 95 miliardi di dollari.

Tuttavia, Databricks sta emergendo come uno dei principali rivali del settore. Il 31 agosto, la società ha annunciato un massiccio round di finanziamento da $ 1,6 miliardi con una valutazione di $ 38 miliardi, pochi mesi dopo un round da $ 1 miliardo annunciato nel febbraio 2021 (con una misera valutazione di $ 28 miliardi).

Fino a poco tempo, Snowflake e Databricks si trovavano in segmenti del mercato abbastanza diversi (e in effetti sono stati partner stretti per un po’).

Snowflake, in quanto data warehouse cloud, è principalmente un database per archiviare ed elaborare grandi quantità di dati strutturati, ovvero dati che possono adattarsi perfettamente a righe e colonne. Storicamente, è stato utilizzato per consentire alle aziende di rispondere a domande sulle prestazioni passate e attuali (“quali erano le nostre regioni in più rapida crescita nell’ultimo trimestre?”), collegando strumenti di business intelligence (BI). Come altri database, sfrutta SQL, un linguaggio di query molto popolare e accessibile, che lo rende utilizzabile da milioni di potenziali utenti in tutto il mondo.


Databricks proveniva da un angolo diverso del mondo dei dati. Ha iniziato nel 2013 per commercializzare Spark, un framework open source per elaborare grandi volumi di dati generalmente non strutturati (qualsiasi tipo di testo, audio, video, ecc.). Gli utenti di Spark hanno utilizzato il framework per creare ed elaborare quelli che divennero noti come “data lake”, dove scaricavano praticamente qualsiasi tipo di dati senza preoccuparsi della struttura o dell’organizzazione. Un uso primario dei data lake era quello di addestrare le applicazioni ML/AI, consentendo alle aziende di rispondere a domande sul futuro (“quali clienti hanno maggiori probabilità di acquistare il prossimo trimestre?”, ovvero analisi predittiva). Per aiutare i clienti con i loro data lake, Databricks ha creato Delta e per aiutarli con ML/AI, ha creato ML Flow. Per l’intera storia di quel viaggio, guarda il mioFireside Chat con Ali Ghodsi, CEO, Databricks .

Più recentemente, tuttavia, le due società sono convergenti l’una verso l’altra.

Databricks ha iniziato ad aggiungere funzionalità di data warehousing ai suoi data lake, consentendo agli analisti di dati di eseguire query SQL standard, oltre ad aggiungere strumenti di business intelligence come Tableau o Microsoft Power BI. Il risultato è ciò che Databricks chiama Lakehouse, una piattaforma pensata per combinare il meglio di data warehouse e data lake.

Poiché Databricks ha reso i suoi data lake più simili a data warehouse, Snowflake ha fatto sembrare i suoi data warehouse più simili a data lake. Ha annunciato il supporto per dati non strutturati come audio, video, PDF e dati di imaging a novembre 2020 e lo ha lanciato in anteprima solo pochi giorni fa.

E dove Databricks ha aggiunto la BI alle sue capacità di intelligenza artificiale, Snowflake sta aggiungendo l’intelligenza artificiale alla sua compatibilità con la BI. Snowflake ha stretto collaborazioni con le migliori piattaforme di intelligenza artificiale aziendali. Snowflake ha investito in Dataiku e l’ha nominata Data Science Partner of the Year. Ha anche investito nel rivale della piattaforma ML DataRobot .

In definitiva, sia Snowflake che Databricks vogliono essere il centro di tutti i dati: un repository per archiviare tutti i dati, strutturati o non strutturati, ed eseguire tutte le analisi, storiche (business intelligence) o predittive (data science, ML/AI).

ANNUNCIO

Ovviamente non mancano altri competitor con una visione simile. Gli hyperscaler cloud, in particolare, hanno i propri data warehouse, oltre a una suite completa di strumenti analitici per BI e intelligenza artificiale e molte altre funzionalità, oltre all’enorme scala. Ad esempio, ascoltare questo grande episodio della Dati Ingegneria Podcast sulla capacità di dati e di analisi del GCP .

Sia Snowflake che Databricks hanno avuto rapporti molto interessanti con i fornitori di cloud, sia come amici che come nemici. Notoriamente, Snowflake è cresciuto sul retro di AWS (nonostante il prodotto competitivo di AWS, Redshift) per anni prima di espandersi su altre piattaforme cloud. Databricks ha creato una solida partnership con Microsoft Azure e ora sfrutta le sue capacità multi-cloud per aiutare i clienti a evitare il lock-in del fornitore cloud. Per molti anni, e fino ad oggi in una certa misura, i detrattori hanno sottolineato che sia i modelli di business di Snowflake che quelli di Databricks rivendono efficacemente il calcolo sottostante dai fornitori di cloud, il che mette i loro margini lordi in balia di qualsiasi decisione sui prezzi che gli hyperscaler avrebbero preso.

Guardare la danza tra i fornitori di cloud e i colossi dei dati sarà una storia determinante dei prossimi cinque anni.

Raggruppamento, disaggregazione, consolidamento?
Data l’ascesa di Snowflake e Databricks, alcuni osservatori del settore si chiedono se questo sia l’inizio di un’ondata di consolidamento tanto attesa nel settore: consolidamento funzionale in quanto le grandi aziende raggruppano una quantità crescente di capacità nelle loro piattaforme e rendono gradualmente irrilevanti le startup più piccole , e/o consolidamento aziendale , poiché le grandi aziende acquistano quelle più piccole o le escludono dal mercato.

Certamente, il consolidamento funzionale sta avvenendo nello spazio dei dati e dell’intelligenza artificiale, poiché i leader del settore aumentano le loro ambizioni. Questo è chiaramente il caso di Snowflake e Databricks e degli hyperscaler cloud, come appena discusso.

ANNUNCIO

Ma anche altri hanno grandi progetti. Man mano che crescono, le aziende vogliono raggruppare sempre più funzionalità: nessuno vuole essere un’azienda con un unico prodotto.

Ad esempio, Confluent, una piattaforma per lo streaming di dati che è appena stata resa pubblica nel giugno 2021, vuole andare oltre i casi d’uso dei dati in tempo reale per cui è nota e “unificare l’elaborazione dei dati in movimento e dei dati a riposo” (vedi il nostro smontaggio rapido S-1: Confluent ).

Come altro esempio, Dataiku* copre nativamente tutte le funzionalità altrimenti offerte da dozzine di startup specializzate nell’infrastruttura di dati e intelligenza artificiale, dalla preparazione dei dati all’apprendimento automatico, DataOps, MLOps, visualizzazione, spiegazione dell’intelligenza artificiale, ecc., tutte raggruppate in un’unica piattaforma, con un concentrarsi sulla democratizzazione e la collaborazione (vedi la nostra Fireside Chat con Florian Douetteau, CEO, Dataiku ).

Probabilmente, l’ascesa del “moderno stack di dati” è un altro esempio di consolidamento funzionale. Al suo centro, è un’alleanza di fatto tra un gruppo di aziende (per lo più startup) che, come gruppo, copre funzionalmente tutte le diverse fasi del viaggio dei dati dall’estrazione al data warehouse alla business intelligence – l’obiettivo generale è quello di offrire al mercato un insieme coerente di soluzioni che si integrano tra loro.

Per gli utenti di tali tecnologie, questa tendenza al raggruppamento e alla convergenza è salutare e molti la accoglieranno a braccia aperte. Man mano che matura, è tempo che l’industria dei dati si evolva oltre i suoi grandi divari tecnologici: transazionale vs. analitico, batch vs. real-time, BI vs. AI .

Queste divisioni in qualche modo artificiali hanno radici profonde, sia nella storia dell’ecosistema dei dati che nei vincoli tecnologici. Ogni segmento aveva le sue sfide ed evoluzioni, risultando in uno stack tecnologico diverso e un diverso insieme di fornitori. Ciò ha portato a molta complessità per gli utenti di tali tecnologie. Gli ingegneri hanno dovuto mettere insieme suite di strumenti e soluzioni e mantenere sistemi complessi che spesso finiscono per assomigliare alle macchine Rube Goldberg.


Man mano che continuano a crescere, ci aspettiamo che i leader del settore accelerino i loro sforzi di raggruppamento e continuino a trasmettere messaggi come “analisi dei dati unificata”. Questa è una buona notizia in particolare per le aziende Global 2000, che sono state il principale cliente target per le piattaforme di dati e AI più grandi e in bundle. Queste aziende hanno sia un enorme guadagno dall’implementazione di moderne infrastrutture dati e ML/AI, e allo stesso tempo un accesso molto più limitato ai dati principali e al talento di ingegneria ML necessari per costruire o assemblare l’infrastruttura dati internamente (poiché tali talenti tendono preferire lavorare o in aziende Big Tech o in startup promettenti, nel complesso).

Tuttavia, per quanto Snowflake e Databricks vorrebbero diventare l’unico fornitore per tutto ciò che riguarda i dati e l’intelligenza artificiale, riteniamo che le aziende continueranno a lavorare con più fornitori, piattaforme e strumenti, in qualsiasi combinazione si adatti meglio alle loro esigenze.

Il motivo principale: il ritmo dell’innovazione è semplicemente troppo esplosivo nello spazio perché le cose rimangano statiche per troppo tempo. I fondatori lanciano nuove startup; Le grandi aziende tecnologiche creano strumenti interni di dati/AI e poi li rendono open-source; e per ogni tecnologia o prodotto consolidato, ogni settimana sembra emergere uno nuovo. Anche lo spazio del data warehouse, forse il segmento più consolidato dell’ecosistema di dati attualmente, ha nuovi entranti come Firebolt , che promettono prestazioni di gran lunga superiori.

Mentre le grandi piattaforme in bundle hanno le imprese Global 2000 come base di clienti principali, esiste un intero ecosistema di aziende tecnologiche, sia startup che Big Tech, che sono avidi consumatori di tutti i nuovi strumenti e tecnologie, offrendo alle startup dietro di loro un grande mercato iniziale . Queste aziende hanno accesso ai dati giusti e al talento di ingegneria ML e sono disposte e in grado di creare nuovi strumenti all’avanguardia per fornire le soluzioni più personalizzate.

Nel frattempo, proprio mentre i fornitori di big data warehouse e data lake stanno spingendo i loro clienti verso la centralizzazione di tutte le cose sulle loro piattaforme, emergono nuovi framework come il data mesh, che sostengono un approccio decentralizzato, in cui diversi team sono responsabili del proprio prodotto dati. Sebbene ci siano molte sfumature, un’implicazione è quella di evolversi da un mondo in cui le aziende spostano semplicemente tutti i loro dati in un unico grande repository centrale. Se dovesse prendere piede, la mesh di dati potrebbe avere un impatto significativo sulle architetture e sul panorama generale dei fornitori (più sulla mesh di dati più avanti in questo post).


Oltre al consolidamento funzionale, non è chiaro anche quanto consolidamento aziendale (M&A) avverrà nel prossimo futuro .

È probabile che assisteremo ad alcune acquisizioni molto grandi e multimiliardarie poiché i grandi giocatori sono desiderosi di fare grandi scommesse in questo mercato in rapida crescita per continuare a costruire le loro piattaforme in bundle. Tuttavia, le alte valutazioni delle società tecnologiche nel mercato attuale continueranno probabilmente a scoraggiare molti potenziali acquirenti. Ad esempio, la voce di settore preferita da tutti è che Microsoft vorrebbe acquisire Databricks. Tuttavia, poiché la società potrebbe ottenere una valutazione di $ 100 miliardi o più nei mercati pubblici, anche Microsoft potrebbe non essere in grado di permetterselo.

C’è anche un vorace appetito per l’acquisto di startup più piccole in tutto il mercato, in particolare perché le startup in fase avanzata continuano a raccogliere e hanno un sacco di soldi a portata di mano. Tuttavia, c’è anche un vorace interesse da parte dei venture capitalist per continuare a finanziare quelle startup più piccole. Al giorno d’oggi è raro che le startup di dati e intelligenza artificiale promettenti non siano in grado di raccogliere il prossimo round di finanziamenti. Di conseguenza, al giorno d’oggi vengono conclusi relativamente pochi accordi di M&A, poiché molti fondatori e i loro VC vogliono continuare a girare la carta successiva, invece di unire le forze con altre società, e hanno le risorse finanziarie per farlo.

Immergiamoci ulteriormente nelle tendenze di finanziamento e di uscita.

Finanziamenti, IPO, M&A: un mercato pazzesco
Come sa chiunque segua il mercato delle startup, è stato pazzesco là fuori.

Secondo CB Insights, il capitale di rischio è stato impiegato a un ritmo senza precedenti, salendo del 157% su base annua a livello globale a 156 miliardi di dollari nel secondo trimestre del 2021. Valutazioni sempre più alte hanno portato alla creazione di 136 unicorni appena coniati solo nella prima metà del 2021, e la finestra IPO è stata spalancata , con finanziamenti pubblici (IPO, DL, SPAC) in crescita del +687% (496 vs 63) in il periodo dal 1 gennaio al 1 giugno 2021 rispetto allo stesso periodo del 2020.

In questo contesto generale di slancio del mercato, i dati e ML/AI sono state ancora una volta categorie di investimento calde lo scorso anno.

Mercati pubblici
Non molto tempo fa, non c’erano quasi nessuna società di dati “pure play” / AI quotata nei mercati pubblici.

Tuttavia, l’elenco sta crescendo rapidamente dopo un anno forte per le IPO nel mondo dei dati/AI. Abbiamo avviato un indice del mercato pubblico per aiutare a monitorare le prestazioni di questa categoria in crescita di società pubbliche: consulta il nostro indice MAD Public Company (aggiornamento in arrivo).

Sul fronte IPO, particolarmente degni di nota sono stati UiPath, una società di automazione RPA e AI, e Confluent, una società di infrastrutture dati focalizzata sullo streaming di dati in tempo reale (vedi il nostro smontaggio Confluent S-1 per la nostra analisi). Altre IPO degne di nota sono state C3.ai, una piattaforma AI (vedi il nostro smontaggio C3 S-1 ) e Couchbase, un database senza SQL.

Diverse società di AI verticali hanno avuto anche IPO degne di nota: SentinelOne, una piattaforma di sicurezza degli endpoint AI autonoma; TuSimple, uno sviluppatore di camion a guida autonoma; Zymergen, un’azienda di bioproduzione; Recursion, una società di scoperta di farmaci basata sull’intelligenza artificiale; e Darktrace, “un’azienda leader mondiale nell’intelligenza artificiale per la sicurezza informatica”.

Nel frattempo, le società pubbliche di dati/AI esistenti hanno continuato a ottenere ottimi risultati.

ANNUNCIO

Mentre sono entrambi fuori dai loro massimi storici, Snowflake è una formidabile società con capitalizzazione di mercato da $ 95 miliardi e, nonostante tutte le controversie, Palantir è una società con capitalizzazione di mercato da $ 55 miliardi, al momento della stesura.

Sia Datadog che MongoDB sono ai massimi storici. Datadog è ora una società con capitalizzazione di mercato da 45 miliardi di dollari (una lezione importante per gli investitori). MongoDB è un’azienda da 33 miliardi di dollari, spinta dalla rapida crescita del suo prodotto cloud, Atlas.

Nel complesso, come gruppo, le società di dati e ML/AI hanno ampiamente sovraperformato il mercato più ampio. E continuano a imporre premi elevati: delle prime 10 società con la più alta capitalizzazione di mercato per più entrate, 4 di esse (incluse le prime 2) sono società di dati/AI.

 

Sopra: Fonte: Jamin Ball, Clouded Judgement, 24 settembre 2021

Un’altra caratteristica distintiva dei mercati pubblici nell’ultimo anno è stata l’ ascesa delle SPAC come alternativa al tradizionale processo di IPO. Gli SPAC si sono dimostrati un veicolo molto vantaggioso per la parte più “tecnologica di frontiera” del mercato dell’IA (veicoli autonomi, biotecnologie, ecc.). Alcuni esempi di aziende che hanno annunciato o completato transazioni SPAC (e de-SPAC) includono Ginkgo Bioworks, una società che progetta nuovi organismi per produrre materiali e sostanze utili, ora una società pubblica da 24 miliardi di dollari al momento della stesura; società di veicoli autonomi Aurora ed Embark; e Babylon Health.
Mercati privati
La schiumosità del mercato del capitale di rischio è un argomento per un altro post sul blog (solo una conseguenza della macroeconomia e dei tassi di interesse bassi, o un riflesso del fatto che siamo davvero entrati nella fase di sviluppo di Internet?). Ma basti dire che, nel contesto di un mercato VC in piena espansione, gli investitori hanno mostrato un enorme entusiasmo per le startup di dati/AI.



Secondo CB Insights, nella prima metà del 2021, gli investitori avevano versato 38 miliardi di dollari in startup di intelligenza artificiale, superando l’intero importo del 2020 di 36 miliardi di dollari a sei mesi dalla fine. Ciò è stato guidato da oltre 50 mega round da oltre 100 milioni di dollari, anch’essi un nuovo massimo. Quarantadue società di intelligenza artificiale hanno raggiunto valutazioni unicorno nella prima metà dell’anno, rispetto alle sole 11 per l’intero 2020.

Una caratteristica inevitabile del mercato VC 2020-2021 è stata l’ascesa di fondi crossover, come Tiger Global, Coatue, Altimeter, Dragoneer o D1 e altri mega-fondi come Softbank o Insight. Sebbene questi fondi siano stati attivi in ​​Internet e nel panorama del software, i dati e l’ML/AI sono stati chiaramente un tema di investimento chiave.

Ad esempio, Tiger Global sembra amare le società di dati/AI. Solo negli ultimi 12 mesi, l’hedge fund di New York ha firmato grossi assegni su molte delle società che compaiono nel nostro panorama, tra cui, ad esempio, Deep Vision, Databricks, Dataiku*, DataRobot, Imply, Prefect, Gong, PathAI, Ada *, Vast Data, Scale AI, Redis Labs, 6sense, TigerGraph, UiPath, Cockroach Labs*, Hyperscience* e molti altri.

Questo eccezionale ambiente di finanziamento è stato principalmente un’ottima notizia per i fondatori. Molte aziende di dati/AI si sono trovate oggetto di round preventivi e guerre di offerte, dando pieno potere ai fondatori di controllare i loro processi di raccolta fondi. Mentre le aziende di VC facevano a gara per investire, le dimensioni e le valutazioni arrotondate sono aumentate drasticamente. Le dimensioni dei tondi della serie A erano comprese tra $ 8 e $ 12 milioni solo pochi anni fa. Ora sono abitualmente nell’intervallo $ 15-20 milioni. Le valutazioni di serie A che erano comprese tra $ 25 e $ 45 milioni (pre-money) ora raggiungono spesso $ 80- $ 120 milioni – valutazioni che sarebbero state considerate una grande valutazione di serie B solo pochi anni fa.

Il rovescio della medaglia, l’ondata di capitali ha portato a un mercato del lavoro sempre più serrato, con una forte concorrenza per i dati, l’apprendimento automatico e i talenti dell’intelligenza artificiale tra molte startup ben finanziate e la corrispondente inflazione dei compensi.
Un altro aspetto negativo: poiché i VC hanno investito in modo aggressivo nei settori emergenti su e giù per lo stack di dati, spesso scommettendo sulla crescita futura rispetto alla trazione commerciale esistente, alcune categorie sono passate da nascenti ad affollate molto rapidamente: ETL inverso, qualità dei dati, cataloghi di dati, annotazione dei dati e MLOp.

Indipendentemente dal nostro ultimo panorama, un numero senza precedenti di aziende di dati/AI sono diventate unicorni e quelle che erano già unicorni sono diventate ancora più apprezzate, con un paio di decacorni (Databricks, Celonis).

Alcuni finanziamenti di tipo unicorno degni di nota (in ordine cronologico inverso): Fivetran, una società ETL, ha raccolto $ 565 milioni con una valutazione di $ 5,6 miliardi; Matillion, una società di integrazione dei dati, ha raccolto 150 milioni di dollari con una valutazione di 1,5 miliardi di dollari; Neo4j, un provider di database grafici, ha raccolto $ 325 milioni con una valutazione di oltre $ 2 miliardi; Databricks, un fornitore di data lakehouse, ha raccolto 1,6 miliardi di dollari con una valutazione di 38 miliardi di dollari; Dataiku*, una piattaforma di intelligenza artificiale aziendale collaborativa, ha raccolto 400 milioni di dollari con una valutazione di 4,6 miliardi di dollari; DBT Labs (fka Fishtown Analytics), un fornitore di strumenti di ingegneria analitica open source, ha raccolto $ 150 milioni di serie C; DataRobot, una piattaforma di intelligenza artificiale aziendale, ha raccolto 300 milioni di dollari con una valutazione di 6 miliardi di dollari; Celonis, una società di process mining, ha raccolto $ 1 miliardo di serie D con una valutazione di $ 11 miliardi; Anduril, una società di tecnologia di difesa pesantemente IA, ha raccolto 450 milioni di dollari con una valutazione di 4,6 miliardi di dollari; Gong, una piattaforma di intelligenza artificiale per l’analisi e il coaching del team di vendita, ha raccolto 250 milioni di dollari con una valutazione di 7,25 miliardi di dollari; Alation, una società di data discovery e governance, ha raccolto 110 milioni di dollari di serie D con una valutazione di 1,2 miliardi di dollari; Ada*, una società di chatbot di intelligenza artificiale, ha raccolto 130 milioni di dollari di serie C con una valutazione di 1,2 miliardi di dollari; Signifyd, una società di software di protezione dalle frodi basata sull’intelligenza artificiale, ha raccolto $ 205 milioni con una valutazione di $ 1,34 miliardi; Redis Labs, una piattaforma di dati in tempo reale, ha raccolto $ 310 milioni di serie G con una valutazione di $ 2 miliardi; Sift, una società di prevenzione delle frodi basata sull’intelligenza artificiale, ha raccolto 50 milioni di dollari con una valutazione di oltre 1 miliardo di dollari; Tractable, una prima compagnia di assicurazioni AI, ha raccolto $ 60 milioni con una valutazione di $ 1 miliardo; Sistemi SambaNova, una piattaforma di elaborazione e semiconduttori AI specializzata, ha raccolto $ 676 milioni con una valutazione di $ 5 miliardi; Scale AI, una società di annotazione dei dati, ha raccolto $ 325 milioni con una valutazione di $ 7 miliardi; Vectra, una società di intelligenza artificiale per la sicurezza informatica, ha raccolto 130 milioni di dollari con una valutazione di 1,2 miliardi di dollari; Shift Technology, una società di software basata sull’intelligenza artificiale creata per gli assicuratori, ha raccolto $ 220 milioni; Dataminr, una piattaforma di rilevamento dei rischi AI in tempo reale, ha raccolto $ 475 milioni; Feedzai, una società di rilevamento delle frodi, ha raccolto $ 200 milioni con una valutazione di oltre $ 1 miliardo; Cockroach Labs*, un provider di database SQL cloud-native, ha raccolto 160 milioni di dollari con una valutazione di 2 miliardi di dollari; Starburst Data, un motore di query di dati basato su SQL, ha raccolto $ 100 milioni con una valutazione di $ 1,2 miliardi; K Health, il primo fornitore di servizi sanitari virtuali mobile basato sull’intelligenza artificiale, ha raccolto $ 132 milioni con una valutazione di $ 1,5 miliardi; Graphcore, un chipmaker AI, ha raccolto $ 222 milioni; e Forter, una società di software di rilevamento delle frodi, ha raccolto un round di $ 125 milioni con una valutazione di $ 1,3 miliardi.

acquisizioni
Come accennato in precedenza, le acquisizioni nello spazio MAD sono state robuste ma non sono aumentate tanto quanto si sarebbe immaginato, dato il mercato caldo. La quantità senza precedenti di liquidità che fluttua nell’ecosistema taglia in entrambe le direzioni: più aziende hanno bilanci solidi per acquisirne potenzialmente altre, ma molti potenziali obiettivi hanno anche accesso a liquidità, sia nei mercati privati/VC o nei mercati pubblici, e hanno meno probabilità di vogliono essere acquisiti.



Naturalmente, ci sono state diverse acquisizioni molto grandi: Nuance, una società di riconoscimento vocale e di testo pubblico (con un focus particolare sull’assistenza sanitaria), è in procinto di essere acquisita da Microsoft per quasi $ 20 miliardi (rendendola la seconda più grande acquisizione di Microsoft mai, dopo LinkedIn); Blue Yonder, una società di software per la catena di approvvigionamento basata sull’intelligenza artificiale per clienti di vendita al dettaglio, produzione e logistica, è stata acquisita da Panasonic per un massimo di $ 8,5 miliardi; Segment, una piattaforma di dati dei clienti, è stata acquisita da Twilio per 3,2 miliardi di dollari; Kustomer, un CRM che consente alle aziende di gestire efficacemente tutte le interazioni con i clienti attraverso i canali, è stato acquisito da Facebook per 1 miliardo di dollari; e Turbonomic, una società di “Application Resource Management basata sull’intelligenza artificiale”, è stata acquisita da IBM per un valore compreso tra 1,5 e 2 miliardi di dollari.

Ci sono state anche un paio di acquisizioni take-private di società pubbliche da parte di società di private equity: Cloudera, una precedente piattaforma dati di alto livello, è stata acquisita da Clayton Dubilier & Rice e KKR, forse la fine ufficiale dell’era Hadoop; e Talend, un fornitore di integrazione dei dati, è stato privato da Thoma Bravo.

Alcune altre importanti acquisizioni di società apparse nelle versioni precedenti di questo panorama MAD: ZoomInfo ha acquisito Chorus.ai ed Everstring; DataRobot ha acquisito Algorithmia; Cloudera ha acquisito Cazena; Relatività acquisita Testo IQ*; Datadog ha acquisito Sqreen e Timber*; SmartEye ha acquisito Affectiva; Facebook ha acquisito Kustomer; ServiceNow ha acquisito Element AI; Vista Equity Partners ha acquisito Gainsight; AVEVA acquisisce OSIsoft; e American Express ha acquisito Kabbage.

Novità per il panorama MAD 2021
Dato il ritmo esplosivo dell’innovazione, della creazione di aziende e dei finanziamenti nel 2020-21, in particolare nell’infrastruttura dei dati e nelle MLOps, abbiamo dovuto cambiare parecchio le cose nel panorama di quest’anno.

Un cambiamento strutturale significativo: poiché non potevamo più inserire tutto in un’unica categoria, abbiamo suddiviso “Analytics e Machine Intelligence” in due categorie separate, “Analytics” e “Machine Learning & Artificial Intelligence”.

Abbiamo aggiunto diverse nuove categorie:

In “Infrastrutture”, abbiamo aggiunto:” Reverse ETL “: prodotti che convogliano i dati dal data warehouse nelle applicazioni SaaS
” Data Observability “: un componente emergente di DataOps focalizzato sulla comprensione e la risoluzione dei problemi alla radice dei problemi di qualità dei dati, con la derivazione dei dati come base principale
” Privacy e sicurezza “: la privacy dei dati è sempre più al primo posto e nella categoria sono emerse numerose startup
In “Analytics”, abbiamo aggiunto:“ Data Catalogs & Discovery ” — una delle categorie più impegnate degli ultimi 12 mesi; questi sono prodotti che consentono agli utenti (sia tecnici che non tecnici) di trovare e gestire i set di dati di cui hanno bisogno
” Augmented Analytics ” — Gli strumenti di BI stanno sfruttando i progressi di NLG/NLP per generare automaticamente approfondimenti, in particolare democratizzando i dati per un pubblico meno tecnico
” Metrics Stores ” — un nuovo concorrente nello stack di dati che fornisce un luogo standardizzato centrale per servire le metriche aziendali chiave
” Motori di query “
In “Apprendimento automatico e intelligenza artificiale”, abbiamo suddiviso diverse categorie MLOps in sottocategorie più granulari:“ Costruzione di modelli ”
” Negozi di funzionalità “
“ Distribuzione e produzione ”
In “Open Source”, abbiamo aggiunto:“ Formato ”
“ orchestrazione ”
“ Qualità e osservabilità dei dati ”
Un’altra evoluzione significativa: in passato, tendevamo a includere in modo schiacciante nel panorama le aziende più affermate: startup in fase di crescita (serie C o successive) e società pubbliche. Tuttavia, data l’emergere della nuova generazione di società di dati/AI menzionata in precedenza, quest’anno abbiamo presentato molte più startup iniziali (serie A, a volte seed) che mai.

Senza ulteriori indugi, ecco il paesaggio:


Sopra: grafico di mattturck.com che mostra le tendenze chiave del 2021 nell’infrastruttura dei dati.

Credito immagine: Matt Turk
GUARDA LA GRAFICA A DIMENSIONE INTERA e ALTA RISOLUZIONE: CLICCA QUI
ELENCO COMPLETO IN FORMATO FOGLIO DI CALCOLO: Nonostante quanto sia occupato il panorama, non possiamo assolutamente inserirci in ogni azienda interessante sul grafico stesso. Di conseguenza, abbiamo un intero foglio di calcolo che non solo elenca tutte le aziende del panorama, ma anche centinaia di altre — CLICCA QUI
Tendenze chiave nell’infrastruttura dei dati
Nel panorama dello scorso anno , avevamo identificato alcune delle tendenze chiave dell’infrastruttura dati del 2020:

Come promemoria, ecco alcune delle tendenze che abbiamo scritto su LAST YEAR (2020):

Il moderno stack di dati diventa mainstream
ETL contro ELT
Automazione dell’ingegneria dei dati?
L’ascesa dell’analista di dati
Data lake e data warehouse si fondono?
La complessità rimane
Naturalmente, il resoconto del 2020 ha meno di un anno e si tratta di tendenze pluriennali che sono ancora molto in via di sviluppo e continueranno a farlo.

Ora, ecco il nostro riepilogo di alcune tendenze chiave per QUEST’ANNO (2021):

La rete di dati
Un anno impegnativo per DataOps
È l’ora del tempo reale
Negozi di metriche
ETL . inverso
Condivisione dei dati
La rete di dati
Il nuovo argomento preferito da tutti del 2021 è il “data mesh” ed è stato divertente vederlo dibattuto su Twitter tra il gruppo (certamente piuttosto piccolo) di persone ossessionate da questi argomenti.

ANNUNCIO

Il concetto è stato introdotto per la prima volta da Zhamak Dehghani nel 2019 (vedi il suo articolo originale, ” Come passare da un data lake monolitico a una rete di dati distribuita “), e ha raccolto molto slancio nel 2020 e nel 2021.

Il concetto di mesh di dati è in gran parte un’idea organizzativa. Finora un approccio standard alla creazione di infrastrutture e team di dati è stato la centralizzazione: un’unica grande piattaforma, gestita da un unico team di dati, che soddisfa le esigenze degli utenti aziendali. Questo ha dei vantaggi, ma può anche creare una serie di problemi (colli di bottiglia, ecc.). Il concetto generale della mesh di dati è il decentramento: creare team di dati indipendenti responsabili del proprio dominio e fornire dati “come prodotto” ad altri all’interno dell’organizzazione. Concettualmente, questo non è del tutto diverso dal concetto di microservizi che è diventato familiare nell’ingegneria del software, ma applicato al dominio dei dati.

La rete di dati ha una serie di importanti implicazioni pratiche che vengono attivamente discusse nei circoli di dati.

Se dovesse prendere piede, sarebbe un grande vantaggio per le startup che forniscono il tipo di strumenti mission-critical in uno stack di dati decentralizzato.

Starburst, un motore di query SQL per accedere e analizzare i dati attraverso i repository, si è rinominato come “il motore di analisi per la mesh di dati”. Sta persino sponsorizzando il nuovo libro di Dehghani sull’argomento.

Tecnologie come i motori di orchestrazione (Airflow, Prefect, Dagster) che aiutano a gestire pipeline complesse diventerebbero ancora più mission-critical. Guarda la mia chiacchierata Fireside con Nick Schrock (Fondatore e CEO, Elementl) , la società dietro il motore di orchestrazione Dagster.

Il monitoraggio dei dati tra repository e pipeline diventerebbe ancora più essenziale per la risoluzione dei problemi, nonché per la conformità e la governance, rafforzando la necessità di derivazione dei dati. L’industria si sta preparando per questo mondo, con ad esempio OpenLineage , una nuova iniziativa intersettoriale per la raccolta di linee di dati standard. Guarda la mia Fireside Chat con Julien Le Dem, CTO di Datakin *, l’azienda che ha contribuito all’avvio dell’iniziativa OpenLineage.

*** Per chiunque sia interessato, ospiteremo Zhamak Dehghani al Data Driven NYC il 14 ottobre 2021. Sarà una sessione Zoom, aperta a tutti! Inserisci qui il tuo indirizzo email per ricevere una notifica sull’evento. ***

Un anno impegnativo per DataOps
Sebbene il concetto di DataOps sia in circolazione da anni (e lo abbiamo menzionato nelle versioni precedenti di questo panorama), l’attività è davvero aumentata di recente.

Come tende ad essere il caso per le categorie più recenti, la definizione di DataOps è alquanto nebulosa. Alcuni lo vedono come l’applicazione di DevOps (dal mondo dei software di ingegneria) al mondo dei dati; altri lo vedono in modo più ampio come tutto ciò che implica la creazione e la manutenzione di pipeline di dati e la garanzia che tutti i produttori e i consumatori di dati possano fare ciò che devono fare, sia trovare il set di dati giusto (tramite un catalogo di dati) sia distribuire un modello in produzione. Indipendentemente da ciò, proprio come DevOps, è una combinazione di metodologia, processi, persone, piattaforme e strumenti.

L’ampio contesto è che gli strumenti e le pratiche di ingegneria dei dati sono ancora molto indietro rispetto al livello di sofisticazione e automazione dei loro cugini di ingegneria del software.

L’ascesa di DataOps è uno degli esempi di ciò che abbiamo menzionato in precedenza nel post: poiché le esigenze fondamentali relative all’archiviazione e all’elaborazione dei dati sono ora adeguatamente affrontate e i dati/l’intelligenza artificiale stanno diventando sempre più mission-critical nell’azienda, il settore è naturalmente evolvere verso i livelli successivi della gerarchia delle esigenze dei dati e creare strumenti e pratiche migliori per garantire che l’infrastruttura dei dati possa funzionare e essere mantenuta in modo affidabile e su larga scala.

Un intero ecosistema di startup DataOps in fase iniziale che sono sorte di recente, coprendo diverse parti della categoria, ma con più o meno la stessa ambizione di diventare il “Datadog del mondo dei dati” (mentre Datadog viene talvolta utilizzato per scopi DataOps e può entrare nello spazio in un punto o in un altro, è stato storicamente focalizzato sull’ingegneria e le operazioni del software).

Le startup stanno lottando per definire la loro sottocategoria, quindi molti termini sono in circolazione, ma qui ci sono alcuni dei concetti chiave.

L’osservabilità dei dati è il concetto generale di utilizzo di monitoraggio, avvisi e triage automatizzati per eliminare il “tempo di inattività dei dati”, un termine coniato da Monte Carlo Data, un fornitore nello spazio (insieme ad altri come BigEye e Databand).

L’osservabilità ha due pilastri fondamentali. Uno è la derivazione dei dati, che è la capacità di seguire il percorso dei dati attraverso le pipeline e capire dove sorgono i problemi e da dove provengono i dati (a fini di conformità). Data Lineage ha il proprio set di startup specializzate come Datakin* e Manta.

L’altro pilastro è la qualità dei dati, che ha visto un’ondata di nuovi entranti. Rilevare problemi di qualità nei dati è essenziale e molto più spinoso che nel mondo dell’ingegneria del software, poiché ogni set di dati è leggermente diverso. Diverse startup hanno approcci diversi. Uno è dichiarativo, il che significa che le persone possono impostare esplicitamente regole per cosa è un set di dati di qualità e cosa non lo è. Questo è l’approccio di Superconductive, l’azienda dietro il popolare progetto open source Great Expectations (vedi la nostra Fireside Chat con Abe Gong, CEO, Superconductive ). Un altro approccio si basa maggiormente sull’apprendimento automatico per automatizzare il rilevamento dei problemi di qualità (pur utilizzando alcune regole): Anomalo è una startup con un tale approccio.

Un concetto emergente correlato è l’ingegneria dell’affidabilità dei dati (DRE), che fa eco alla disciplina sorella dell’ingegneria dell’affidabilità del sito (SRE) nel mondo dell’infrastruttura software. I DRE sono ingegneri che risolvono problemi operativi/di scala/affidabilità per l’infrastruttura dei dati. Aspettatevi che sul mercato compaiano più strumenti (avviso, comunicazione, condivisione delle conoscenze, ecc.) per soddisfare le loro esigenze.

Infine, l’accesso ai dati e la governance sono un’altra parte di DataOps (definita in senso lato) che ha registrato un’esplosione di attività. Le startup in fase di crescita come Collibra e Alation forniscono funzionalità di catalogo da alcuni anni, fondamentalmente un inventario dei dati disponibili che aiuta gli analisti di dati a trovare i dati di cui hanno bisogno. Tuttavia, un certo numero di nuovi operatori si è unito al mercato più di recente, tra cui Atlan e Stemma, la società commerciale dietro il catalogo di dati open source Amundsen (iniziato a Lyft).

È l’ora del tempo reale
I dati “in tempo reale” o “in streaming” sono dati che vengono elaborati e consumati immediatamente dopo essere stati generati. Questo è in opposizione al “batch”, che è stato il paradigma dominante nell’infrastruttura dei dati fino ad oggi.

Un’analogia che ci è venuta in mente per spiegare la differenza: Batch è come bloccare un’ora per passare attraverso la tua casella di posta e rispondere alla tua email; lo streaming è come mandare messaggi avanti e indietro con qualcuno.

L’elaborazione dei dati in tempo reale è stata un argomento scottante sin dai primi giorni dell’era dei Big Data, 10-15 anni fa: in particolare, la velocità di elaborazione è stata un vantaggio chiave che ha accelerato il successo di Spark (un framework di micro-batch) rispetto ad Hadoop MapReduce .

Tuttavia, per anni, lo streaming di dati in tempo reale è sempre stato il segmento di mercato che stava “per esplodere” in modo molto importante, ma non lo è mai stato del tutto. Alcuni osservatori del settore hanno sostenuto che il numero di applicazioni per i dati in tempo reale è, forse controintuitivamente, abbastanza limitato, e ruota attorno a un numero finito di casi d’uso come il rilevamento di frodi online, la pubblicità online, i consigli sui contenuti in stile Netflix o la sicurezza informatica.

Il clamoroso successo dell’IPO Confluent ha dimostrato che gli oppositori si sbagliavano. Confluent è ora una società con una capitalizzazione di mercato da $ 17 miliardi al momento della stesura, essendo quasi raddoppiata dalla sua IPO del 24 giugno 2021. Confluent è la società dietro Kafka, un progetto di streaming di dati open source originariamente sviluppato su LinkedIn. Nel corso degli anni, l’azienda si è evoluta in una piattaforma di streaming di dati su vasta scala che consente ai clienti di accedere e gestire i dati come flussi continui e in tempo reale (di nuovo, il nostro smontaggio S-1 è qui ).

Al di là di Confluent, l’intero ecosistema di dati in tempo reale ha subito un’accelerazione.

L’analisi dei dati in tempo reale, in particolare, ha visto molta attività. Solo pochi giorni fa, ClickHouse, un database di analisi in tempo reale originariamente un progetto open source lanciato dal motore di ricerca russo Yandex, ha annunciato di essere diventato una società commerciale con sede negli Stati Uniti finanziata con $ 50 milioni di capitale di rischio. All’inizio di quest’anno, Imply, un’altra piattaforma di analisi in tempo reale basata sul progetto di database open source Druid, ha annunciato un round di finanziamento di 70 milioni di dollari. Materialise è un’altra azienda molto interessante nello spazio: vedi la nostra Fireside Chat con Arjun Narayan, CEO, Materialise .

A monte dell’analisi dei dati, i player emergenti aiutano a semplificare le pipeline di dati in tempo reale. Meroxa si concentra sulla connessione di database relazionali a data warehouse in tempo reale — vedi la nostra Fireside Chat con DeVaris Brown, CEO, Meroxa . Estuary* si concentra sull’unificazione dei paradigmi in tempo reale e batch nel tentativo di astrarre la complessità.

Negozi di metriche
Negli ultimi anni, nelle aziende, i dati e l’utilizzo dei dati sono aumentati sia in frequenza che in complessità. Con questo aumento della complessità si accompagna un aumento dei mal di testa causati dalle incoerenze dei dati. Per qualsiasi metrica specifica, qualsiasi leggera derivazione nella metrica, causata da dimensione, definizione o altro, può causare output disallineati. I team percepiti come lavorare sulla base delle stesse metriche potrebbero lavorare completamente su diversi tagli di dati o le definizioni delle metriche potrebbero cambiare leggermente tra i momenti in cui l’analisi viene condotta portando a risultati diversi, seminando sfiducia quando sorgono incongruenze. I dati sono utili solo se i team possono fidarsi che i dati siano accurati, ogni volta che li usano.

Ciò ha portato all’emergere del negozio di metriche che Benn Stancil, chief analytics officer di Mode, ha etichettato come il pezzo mancante del moderno stack di dati . Le soluzioni sviluppate in casa che cercano di centralizzare la definizione delle metriche sono state annunciate presso aziende tecnologiche, tra cui AirBnB, dove Minerva ha una visione di “definire una volta, utilizzare ovunque” e su Pinterest. Questi archivi di metriche interne servono a standardizzare le definizioni delle metriche aziendali chiave e tutte le relative dimensioni e forniscono alle parti interessate set di dati accurati e pronti per l’analisi basati su tali definizioni. Centralizzando la definizione delle metriche, questi negozi aiutano i team a creare fiducia nei dati che stanno utilizzando e a democratizzare l’accesso interfunzionale alle metriche, guidando l’allineamento dei dati in tutta l’azienda.

L’archivio delle metriche si trova sopra il data warehouse e informa i dati inviati a tutte le applicazioni a valle in cui vengono consumati i dati, comprese le piattaforme di business intelligence, gli strumenti di analisi e data science e le applicazioni operative. I team definiscono le metriche aziendali chiave nell’archivio delle metriche, garantendo che chiunque utilizzi una metrica specifica la derivi utilizzando definizioni coerenti. I negozi di metriche come Minerva assicurano anche che i dati siano coerenti storicamente, riempiendo automaticamente il backfill se la logica aziendale viene modificata. Infine, l’archivio delle metriche serve le metriche al consumatore di dati nei formati standardizzati e convalidati. L’archivio delle metriche consente ai consumatori di dati di diversi team di non dover più creare e mantenere le proprie versioni della stessa metrica e di poter fare affidamento su un’unica fonte di verità centralizzata.

Alcune startup interessanti che costruiscono negozi di metriche includono Transform , Trace * e Supergrain .

ETL . inverso
È stato sicuramente un anno impegnativo nel mondo di ETL/ELT, i prodotti che mirano a estrarre dati da una varietà di fonti (sia database che prodotti SaaS) e caricarli in data warehouse cloud. Come accennato, Fivetran è diventata una società da 5,6 miliardi di dollari; nel frattempo, i nuovi arrivati ​​Airbyte (una versione open source) hanno raccolto $ 26 milioni di serie A e Meltano è uscito da GitLab.

Tuttavia, uno sviluppo chiave nel moderno stack di dati nell’ultimo anno o giù di lì è stato l’emergere di ETL inversocome categoria. Con il moderno stack di dati, i data warehouse sono diventati l’unica fonte di verità per tutti i dati aziendali che sono stati storicamente distribuiti su vari sistemi aziendali a livello di applicazione. Gli strumenti ETL inversi si trovano sul lato opposto del magazzino rispetto ai tipici strumenti ETL/ELT e consentono ai team di spostare i dati dal loro data warehouse di nuovo in applicazioni aziendali come CRM, sistemi di automazione del marketing o piattaforme di assistenza clienti per utilizzare il consolidato e derivato dati nei loro processi aziendali funzionali. Gli ETL inversi sono diventati parte integrante della chiusura del ciclo nel moderno stack di dati per portare dati unificati, ma presentano sfide dovute al reinserimento dei dati nei sistemi attivi.

Con gli ETL inversi, i team funzionali come le vendite possono trarre vantaggio da dati aggiornati arricchiti da altre applicazioni aziendali come il coinvolgimento del prodotto da strumenti come Pendo* per capire come un potenziale cliente è già coinvolto o dalla programmazione di marketing di Marketo per tessere un approccio più coerente narrativa di vendita. Gli ETL inversi aiutano ad abbattere i silos di dati e a guidare l’allineamento tra le funzioni portando i dati centralizzati dal data warehouse nei sistemi in cui questi team funzionali già vivono quotidianamente.

Un certo numero di aziende nello spazio ETL inverso hanno ricevuto finanziamenti nell’ultimo anno, tra cui Census, Rudderstack, Grouparoo, Hightouch, Headsup e Polytomic.

Condivisione dei dati
Un altro tema in accelerazione quest’anno è stato l’aumento della condivisione e della collaborazione dei dati non solo all’interno delle aziende, ma anche tra le organizzazioni.

Le aziende potrebbero voler condividere i dati con il loro ecosistema di fornitori, partner e clienti per tutta una serie di motivi, tra cui visibilità della catena di approvvigionamento, formazione di modelli di apprendimento automatico o iniziative condivise di go-to-market.

La condivisione dei dati tra organizzazioni è stato un tema chiave per i fornitori di “cloud dati” in particolare:

Nel maggio 2021, Google ha lanciato Analytics Hub , una piattaforma per combinare set di dati e condividere dati e approfondimenti, inclusi dashboard e modelli di apprendimento automatico, sia all’interno che all’esterno di un’organizzazione. Ha inoltre lanciato Datashare , un prodotto più specificamente rivolto ai servizi finanziari e basato su Analytics Hub.
Lo stesso giorno (!) di maggio 2021, Databricks ha annunciato Delta Sharing , un protocollo open source per la condivisione sicura dei dati tra le organizzazioni.
Nel giugno 2021, Snowflake ha annunciato la disponibilità generale del suo mercato dei dati, nonché funzionalità aggiuntive per la condivisione sicura dei dati.
C’è anche una serie di interessanti startup nello spazio:

Habr, un fornitore di scambi di dati aziendali
Crossbeam*, una piattaforma di ecosistema partner
L’abilitazione della collaborazione tra organizzazioni è particolarmente strategica per i fornitori di cloud di dati perché offre la possibilità di costruire un fossato aggiuntivo per le loro attività. Man mano che la concorrenza si intensifica e i fornitori cercano di battersi a vicenda su caratteristiche e capacità, una piattaforma di condivisione dei dati potrebbe aiutare a creare un effetto di rete. Più aziende si uniscono, ad esempio, a Snowflake Data Cloud e condividono i propri dati con altri, più diventa prezioso per ogni nuova azienda che si unisce alla rete (e più difficile è lasciare la rete).

Tendenze chiave in ML/AI
Nel panorama dello scorso anno , avevamo identificato alcune delle tendenze chiave dell’infrastruttura dati del 2020.

Come promemoria, ecco alcune delle tendenze che abbiamo scritto su LAST YEAR (2020)

Tempo di boom per le piattaforme di data science e machine learning (DSML)
Il machine learning viene distribuito e incorporato
L’anno della PNL
Ora, ecco il nostro riepilogo di alcune tendenze chiave per QUEST’ANNO (2021):

Negozi di funzionalità
L’ascesa di ModelOps
Generazione di contenuti AI
L’emergere continuo di uno stack di intelligenza artificiale cinese separato
La ricerca sull’intelligenza artificiale continua a migliorare a un ritmo rapido. Alcuni progetti degni di nota rilasciati o pubblicati nell’ultimo anno includono Alphafold di DeepMind, che prevede in quali forme si ripiegano le proteine, insieme a molteplici scoperte di OpenAI tra cui GPT-3, DALL-E e CLIP.

Inoltre, il finanziamento delle startup è drasticamente accelerato attraverso lo stack di machine learning, dando origine a un gran numero di soluzioni puntuali. Con il panorama in crescita, è probabile che emergano problemi di compatibilità tra le soluzioni man mano che gli stack di machine learning diventano sempre più complicati. Le aziende dovranno prendere una decisione tra l’acquisto di una soluzione full-stack completa come DataRobot o Dataiku* o il tentativo di concatenare le migliori soluzioni puntuali. Anche il consolidamento tra soluzioni di punti adiacenti è inevitabile man mano che il mercato matura e le aziende in più rapida crescita raggiungono una scala significativa.

Negozi di funzionalità
I feature store sono diventati sempre più comuni nello stack di machine learning operativo da quando l’idea è stata introdotta per la prima volta da Uber nel 2017 , con diverse aziende che hanno raccolto round nell’ultimo anno per costruire feature store gestiti tra cui Tecton , Rasgo , Logical Clocks e Kaskada .

Una caratteristica (a volte indicata come variabile o attributo) nell’apprendimento automatico è una proprietà o una caratteristica di input misurabile individuale, che potrebbe essere rappresentata come una colonna in uno snippet di dati. I modelli di apprendimento automatico possono essere utilizzati ovunque, da una singola funzionalità a milioni di utenti.

Storicamente, l’ingegneria delle funzionalità è stata eseguita in modo più ad hoc, con modelli e pipeline sempre più complicati nel tempo. Ingegneri e data scientist spesso dedicavano molto tempo alla riestrazione delle funzionalità dai dati grezzi. I divari tra gli ambienti di produzione e di sperimentazione potrebbero anche causare incongruenze impreviste nelle prestazioni e nel comportamento del modello. Le organizzazioni sono anche più interessate alla governance, alla riproducibilità e alla spiegabilità dei loro modelli di apprendimento automatico e le funzionalità in silos lo rendono difficile nella pratica.

I Feature Store promuovono la collaborazione e aiutano ad abbattere i silos. Riducono la complessità del sovraccarico e standardizzano e riutilizzano le funzionalità fornendo un’unica fonte di verità sia per la formazione (offline) che per la produzione (online). Funziona come un luogo centralizzato per archiviare i grandi volumi di funzionalità curate all’interno di un’organizzazione, esegue le pipeline di dati che trasformano i dati grezzi in valori di funzionalità e fornisce accesso in lettura a bassa latenza direttamente tramite API. Ciò consente uno sviluppo più rapido e aiuta i team a evitare la duplicazione del lavoro e a mantenere set di funzionalità coerenti tra gli ingegneri e tra i modelli di formazione e di servizio. Gli archivi di funzionalità inoltre producono e fanno emergere metadati come la derivazione dei dati per le funzionalità, il monitoraggio dello stato, la deriva sia per le funzionalità che per i dati online e altro ancora.

L’ascesa di ModelOps
A questo punto, la maggior parte delle aziende riconosce che portare i modelli dalla sperimentazione alla produzione è impegnativo e che i modelli in uso richiedono un monitoraggio e una riqualificazione costanti man mano che i dati cambiano. Secondo IDC, il 28% di tutti i progetti ML/AI è fallito e Gartner osserva che l’ 87% dei progetti di data science non arriva mai in produzione. Machine Learning Operations (MLOps), di cui abbiamo scritto nel 2019 , è nato negli anni successivi quando le aziende hanno cercato di colmare queste lacune applicando le best practice DevOps. MLOps cerca di semplificare il rapido sviluppo continuo e l’implementazione di modelli su larga scala e, secondo Gartner , ha raggiunto un picco nel ciclo di hype.

Il nuovo concetto caldo nelle operazioni di intelligenza artificiale è in ModelOps, un superset di MLOps che mira a rendere operativi tutti i modelli di intelligenza artificiale, incluso il machine learning, a un ritmo più rapido in ogni fase del ciclo di vita, dalla formazione alla produzione. ModelOps copre sia gli strumenti che i processi, richiedendo un impegno culturale interfunzionale che unisca i processi, standardizzando l’orchestrazione del modello end-to-end, creando un repository centralizzato per tutti i modelli insieme a capacità di governance complete (affrontare il lignaggio, il monitoraggio, ecc.) e l’implementazione migliore governance, monitoraggio e audit trail per tutti i modelli in uso.

In pratica, ModelOps ben implementato aiuta ad aumentare la spiegabilità e la conformità riducendo i rischi per tutti i modelli fornendo un sistema unificato per distribuire, monitorare e governare tutti i modelli. I team possono effettuare migliori confronti tra i modelli in base a processi standardizzati durante la formazione e l’implementazione, rilasciare modelli con cicli più rapidi, essere avvisati automaticamente quando i benchmark delle prestazioni del modello scendono al di sotto delle soglie accettabili e comprendere la cronologia e la discendenza dei modelli in uso in tutto il organizzazione.

Generazione di contenuti AI
L’intelligenza artificiale è maturata notevolmente negli ultimi anni e ora viene sfruttata nella creazione di contenuti su tutti i tipi di mezzi, inclusi testo, immagini, codice e video. Lo scorso giugno, OpenAI ha rilasciato il suo primo prodotto beta commerciale: un’API incentrata sugli sviluppatori che conteneva GPT-3, un potente modello di linguaggio generico con 175 miliardi di parametri. All’inizio di quest’anno, decine di migliaia di sviluppatori avevano creato più di 300 applicazioni sulla piattaforma, generando in media 4,5 miliardi di parole al giorno.

OpenAI ha già firmato una serie di primi accordi commerciali, in particolare con Microsoft, che ha sfruttato GPT-3 all’interno di Power Apps per restituire formule basate su ricerche semantiche, consentendo agli “sviluppatori cittadini” di generare codice con capacità di codifica limitate. Inoltre, GitHub ha sfruttato OpenAI Codex, un discendente di GPT-3 contenente sia il linguaggio naturale che miliardi di righe di codice sorgente da repository di codice pubblico, per lanciare il controverso GitHub Copilot , che mira a rendere la codifica più veloce suggerendo intere funzioni per il completamento automatico del codice all’interno l’editore del codice.

Con OpenAI focalizzato principalmente su modelli incentrati sull’inglese, un numero crescente di aziende sta lavorando su modelli non inglesi. In Europa, la startup tedesca Aleph Alpha ha raccolto 27 milioni di dollari all’inizio di quest’anno per costruire una “infrastruttura di elaborazione sovrana basata sull’UE” e ha creato un modello linguistico multilingue in grado di restituire risultati testuali coerenti in tedesco, francese, spagnolo e italiano. in inglese. Altre aziende che lavorano su modelli specifici per la lingua includono AI21 Labs che costruisce Jurassic-1 in inglese ed ebraico, PanGu-α di Huawei e Wudao dell’Accademia di intelligenza artificiale di Pechino in cinese e HyperCLOVA di Naver in coreano.

Per quanto riguarda le immagini, lo scorso gennaio OpenAI ha introdotto il suo modello di parametri da 12 miliardi chiamato DALL-E , che è stato addestrato per creare immagini plausibili dalle descrizioni di testo. DALL-E offre un certo livello di controllo su più oggetti, i loro attributi, le loro relazioni spaziali e persino la prospettiva e il contesto.

Inoltre, i media sintetici sono maturati in modo significativo dopo il ironico Buzzfeed del 2018 e il deepfake di Jordan Peele Obama . Le aziende di consumo hanno iniziato a sfruttare i media generati sinteticamente per qualsiasi cosa, dalle campagne di marketing all’intrattenimento. All’inizio di quest’anno, Synthesia* ha collaborato con Lay’s e Lionel Messi per creare Messi Messages, una piattaforma che ha permesso agli utenti di generare videoclip di Messi personalizzati con i nomi dei loro amici. Alcuni altri esempi degni di nota nell’ultimo anno includono l’uso dell’intelligenza artificiale per invecchiare Mark Hamill sia nell’aspetto che nella voce in The Mandalorian, far narrare ad Anthony Bourdain dialoghi che non ha mai detto in Roadrunner , creare uno spot di State Farm che ha promosso The Last Dance,e creare una voce sintetica per Val Kilmer, che ha perso la voce durante il trattamento per il cancro alla gola.

Con questo progresso tecnologico arriva un dilemma etico e morale. I media sintetici rappresentano potenzialmente un rischio per la società, anche creando contenuti con cattive intenzioni, come l’uso di incitamento all’odio o altri linguaggi dannosi per l’immagine, stati che creano false narrazioni con attori sintetici o pornografia deepfake di celebrità e vendetta. Alcune aziende hanno adottato misure per limitare l’accesso alla loro tecnologia con codici etici come Synthesia* e Sonantic. Il dibattito sui guardrail, come l’etichettatura del contenuto come sintetico e l’identificazione del suo creatore e proprietario, è appena iniziato e probabilmente rimarrà irrisolto nel lontano futuro.

L’emergere continuo di uno stack di intelligenza artificiale cinese separato
La Cina ha continuato a svilupparsi come potenza globale dell’IA, con un enorme mercato che è il più grande produttore mondiale di dati. L’ultimo anno ha visto la prima vera proliferazione della tecnologia consumer AI cinese con il successo occidentale transfrontaliero di TikTok, basato su uno dei migliori algoritmi di raccomandazione AI mai creati.

Con il governo cinese che ha conferito mandato nel 2017 alla supremazia dell’IA entro il 2030 e con il sostegno finanziario sotto forma di miliardi di dollari di finanziamenti a sostegno della ricerca sull’IA insieme alla creazione di 50 nuove istituzioni di intelligenza artificiale nel 2020, il ritmo dei progressi è stato rapido. È interessante notare che, sebbene gran parte dell’infrastruttura tecnologica cinese si basi ancora su strumenti creati in Occidente (ad esempio Oracle per ERP, Salesforce per CRM), ha iniziato a emergere uno stack locale separato.

Gli ingegneri cinesi che utilizzano l’infrastruttura occidentale devono affrontare barriere culturali e linguistiche che rendono difficile contribuire ai progetti open source occidentali. Inoltre, dal punto di vista finanziario, secondo Bloomberg , gli investitori cinesi in società statunitensi di intelligenza artificiale dal 2000 al 2020 rappresentano solo il 2,4% degli investimenti totali di intelligenza artificiale negli Stati Uniti Huawei e il litigio di ZTE con il governo degli Stati Uniti ha accelerato la separazione dei due stack infrastrutturali. , che ha già affrontato i venti contrari dell’unificazione.

Con il sentimento nazionalista ai massimi livelli, la localizzazione (国产化替代) per sostituire la tecnologia occidentale con infrastrutture locali ha preso piede. L’industria di Xinchuang (信创) è guidata da un’ondata di aziende che cercano di costruire infrastrutture localizzate, dal livello del chip fino al livello dell’applicazione. Sebbene Xinchuang sia stato associato a tecnologie di qualità e funzionalità inferiori, nell’ultimo anno sono stati compiuti chiari progressi all’interno di Xinchuang cloud (信创云), con lanci notevoli tra cui Huayun (华云), CECstack di China Electronics Cloud e Easystack (易捷).

A livello di infrastruttura, gli operatori infrastrutturali cinesi locali stanno iniziando a farsi strada nelle grandi imprese e nelle organizzazioni gestite dal governo. ByteDance ha lanciato Volcano Engine rivolto a terze parti in Cina, basato su un’infrastruttura sviluppata per i suoi prodotti di consumo che offre funzionalità tra cui raccomandazione e personalizzazione dei contenuti, strumenti incentrati sulla crescita come test A/B e monitoraggio delle prestazioni, traduzione e sicurezza, oltre al cloud tradizionale soluzioni di hosting. Inspur Group serve il 56% delle imprese statali nazionali e il 31% delle prime 500 aziende cinesi, mentre Wuhan Dameng è ampiamente utilizzato in più settori. Altri esempi di infrastruttura interna includono PolarDB di Alibaba, GaussDB di Huawei, TBase di Tencent, TiDB di PingCAP, Boray Data e TDengine di Taos Data.

Dal punto di vista della ricerca, ad aprile, Huawei ha introdotto il già citato PanGu-α, un modello linguistico pre-addestrato da 200 miliardi di parametri addestrato su 1,1 TB di testo cinese da una varietà di domini. Ciò è stato rapidamente messo in ombra quando l’Accademia di intelligenza artificiale di Pechino (BAAI) ha annunciato il rilascio di Wu Dao 2.0 a giugno. Wu Dao 2.0 è un’intelligenza artificiale multimodale che ha 1,75 trilioni di parametri, 10 volte il numero di GPT-3, il che lo rende il più grande sistema linguistico di intelligenza artificiale fino ad oggi. Le sue capacità includono la gestione della PNL e il riconoscimento delle immagini, oltre a generare media scritti in cinese tradizionale, prevedere strutture 3D di proteine ​​come AlphaFold e altro ancora. Anche la formazione del modello è stata gestita tramite un’infrastruttura sviluppata in Cina: per addestrare Wu Dao rapidamente (la versione 1.0 è stata rilasciata solo a marzo), i ricercatori BAAI hanno creato FastMoE,

Guarda la nostra chiacchierata con Chip Huyen per ulteriori discussioni sullo stato dell’intelligenza artificiale e delle infrastrutture cinesi.

Di Matt Turk da Matturk.com

 

Di ihal