Quando pensiamo ai sistemi di intelligenza artificiale che agiscono in autonomia — gli “agenti” digitali che possono orchestrare processi, generare applicazioni e reagire ai dati in tempo reale — ci immaginiamo spesso un mondo dove le macchine “parlano” fra loro e prendono decisioni complesse. Ma nella realtà concreta, sotto il cofano, c’è un ostacolo tecnico che può rallentare tutto: lo spostamento dei dati.
La maggior parte delle imprese utilizza database transazionali, come PostgreSQL, per le proprie operazioni operative quotidiane (registrazione di ordini, utenti, eventi, modifiche di stato). Ma quando serve analizzare questi dati, estrarre insight, alimentarli in modelli di IA, serve un formato diverso: dati colonnari, ottimizzati per le interrogazioni analitiche. Tradizionalmente, per passare da un formato “operativo” a uno “analitico”, serve un ETL — Extract, Transform, Load — ovvero una pipeline separata che copia, trasforma e aggrega i dati. Queste pipeline sono fragili, costose e lente: spesso richiedono ingegneria dedicata, e introducono ritardi che possono andare da ore a giorni.
Databricks, azienda già nota per la sua piattaforma Lakehouse (cioè architetture che cercano di unire aspetti di database operativi e sistemi analitici), ha deciso che tutto questo non va più bene — almeno se vogliamo spingere l’IA agentica al suo massimo potenziale. Ha acquisito Mooncake, una startup specializzata nell’interfacciamento tra PostgreSQL e formati lakehouse, con l’obiettivo di eliminare del tutto la necessità delle pipeline ETL. In questo modo, i dati operativi diventano “disponibili” per analisi e modelli in modo quasi istantaneo.
L’impatto promesso è notevole: per alcune operazioni di movimento dati, Databricks stima guadagni di performance da 10× a 100× rispetto ai metodi tradizionali. E in scenari particolarmente massicci e paralleli, i miglioramenti potrebbero essere ancora superiori.
Mooncake non è soltanto una tecnologia di “trasporto dati”. La sua struttura è più sofisticata:
- pgmooncake: un’estensione per PostgreSQL che consente di eseguire carichi di lavoro analitici direttamente su dati che risiedono nel database operativo.
- Moonlink: un componente di accelerazione che gestisce la trasformazione in tempo reale tra dati orientati per righe (tipici dei database transazionali) e formati colonnari (tipici dei data lakehouse come Iceberg o Delta). In sostanza, Moonlink crea uno “specchio” dei dati operativi in formato analitico senza bisogno di pipeline ETL esterne.
L’innovazione chiave è che non serve più copiare fisicamente i dati, trasformarli e spostarli manualmente: Moonlink fa tutto in tempo reale, rendendo disponibile una rappresentazione analitica aggiornata istantaneamente. Questo riduce notevolmente le latenze associate alle fasi di metadata lookup, lettura/scrittura da storage esterno, lag operativi, ecc.
Nel linguaggio di Databricks, si parla di “creare tubi infiniti” anziché uno stretto canale JDBC (tipico collegamento database tradizionale): il che consente throughput molto più ampio e parallelo.
Per capire l’urgenza dietro l’acquisizione di Mooncake, occorre considerare come stanno evolvendo gli agenti intelligenti. Sempre più applicazioni — script autonomi, modelli che generano codice o azioni, sistemi che reagiscono in tempo reale — si aspettano che l’infrastruttura dati sia “fluida”, senza barriere tra operazioni e analisi. Un agente che costruisce tabelle, eventi e workflow a velocità macchina non può rimanere vincolato a pipeline ETL lente o fragili.
Secondo Databricks, già l’80 % dei database PostgreSQL dei clienti Neon (un servizio recentemente acquisito anch’esso) era stato creato da agenti automatici — segno che siamo nel pieno della transizione verso sistemi che “si costruiscono da soli”.
La sfida è che quegli stessi dati, una volta creati, devono poter essere subito analizzati o alimentare modelli IA. Se serve aspettare che un data engineer costruisca un flusso ETL, l’agilità è compromessa. Dunque, ciò che gli agenti “si aspettano”, dice Databricks, è un accesso uniforme e rapido ai dati, senza passaggi intermedi.
Con Mooncake, Databricks non punta soltanto a migliorare la propria architettura interna: si pone come concorrente diretto dei servizi PostgreSQL gestiti offerti da grandi cloud provider, come Google AlloyDB o Amazon Aurora.
Tutte queste soluzioni cercano di separare lo storage dal calcolo, per scalare meglio. Ma Databricks sostiene che la sua integrazione interna tra operazioni e analisi offra vantaggi fondamentali: spostamenti dati più rapidi, minori latenze e un’unica infrastruttura da governare.
Un dettaglio interessante: dopo l’acquisizione, il prezzo del servizio Neon (PostgreSQL serverless) è stato drasticamente abbassato — da 25 USD a soli 5 USD per la versione minima. Una mossa che probabilmente punta a scalare il servizio su vasta scala, guadagnando clienti e competendo in termini di costo oltre che di tecnologia.