Immagine AI

Uno dei principali ostacoli allo sviluppo di agenti AI aziendali non riguarda i modelli linguistici, ma il modo in cui i dati vengono raccolti, trasformati e resi disponibili ai sistemi che devono utilizzarli. Nella maggior parte delle organizzazioni, le informazioni necessarie agli agenti sono distribuite tra database operativi, data warehouse, applicazioni SaaS, sistemi legacy, file e flussi di dati in tempo reale. Per renderle utilizzabili è necessario costruire pipeline ETL ed ELT spesso complesse, mantenute manualmente e soggette a continue modifiche.

Databricks punta ad affrontare questo problema con Lakeflow Declarative Pipelines, una tecnologia che introduce un approccio dichiarativo alla gestione delle pipeline dati. Invece di descrivere nel dettaglio ogni singola operazione di orchestrazione, scheduling, gestione degli errori e ottimizzazione delle risorse, gli sviluppatori definiscono semplicemente il risultato desiderato e le trasformazioni logiche da applicare ai dati. Il sistema si occupa automaticamente dell’esecuzione, dell’ottimizzazione e della gestione operativa della pipeline.

L’idea nasce da un problema storico del settore. Per decenni le pipeline dati sono state costruite come sequenze di attività rigidamente collegate tra loro. Ogni cambiamento nelle sorgenti, nei formati o nei requisiti applicativi richiede aggiornamenti del codice, riconfigurazioni operative e attività di monitoraggio continue. Quando queste pipeline diventano la base informativa di agenti AI che devono operare in tempo reale, le complessità aumentano ulteriormente, poiché i sistemi devono poter accedere a dati aggiornati, affidabili e contestualizzati senza introdurre latenze o errori nei processi decisionali.

Lakeflow utilizza un modello dichiarativo che separa la logica di business dagli aspetti infrastrutturali. Gli sviluppatori definiscono dataset, trasformazioni e dipendenze, mentre la piattaforma genera automaticamente il piano di esecuzione più efficiente. Questo approccio permette di gestire sia elaborazioni batch sia flussi streaming attraverso un unico framework operativo, mantenendo meccanismi integrati di qualità dei dati, monitoraggio e recupero automatico dagli errori.

Un elemento particolarmente rilevante per gli agenti AI è la possibilità di integrare direttamente funzionalità di intelligenza artificiale all’interno delle pipeline. Databricks ha esteso Lakeflow con funzioni AI che consentono di elaborare documenti, classificare contenuti, estrarre informazioni da dati non strutturati e generare metadati utilizzabili successivamente dagli agenti. In questo modo la preparazione dei dati e l’utilizzo dell’intelligenza artificiale diventano parte dello stesso workflow, eliminando la necessità di costruire servizi separati per ogni fase del processo.

La piattaforma introduce inoltre meccanismi che riducono una delle principali criticità operative delle pipeline moderne: la gestione concorrente degli aggiornamenti. Le recenti evoluzioni di Lakeflow consentono di accodare automaticamente più richieste di esecuzione, evitando conflitti tra processi simultanei e riducendo la necessità di coordinamento manuale tra team e applicazioni. Questo aspetto assume particolare importanza quando più agenti AI o più workflow automatizzati accedono contemporaneamente agli stessi dataset.

Dal punto di vista architetturale, la soluzione si inserisce nella strategia più ampia di Databricks orientata alla costruzione di una piattaforma unificata per dati, analytics e agenti AI. Lakeflow gestisce l’ingestione, la trasformazione e l’orchestrazione dei dati, mentre gli strumenti Agent Bricks consentono di costruire, ottimizzare e valutare agenti AI utilizzando direttamente i dati preparati all’interno dell’ecosistema Databricks. L’obiettivo è ridurre il numero di passaggi intermedi normalmente necessari tra raccolta dei dati, preparazione, addestramento e utilizzo operativo degli agenti.

Per le aziende che stanno sperimentando architetture agentiche, il valore principale non risiede soltanto nella velocità di sviluppo delle pipeline, ma nella possibilità di trasformare processi storicamente manuali in workflow più autonomi e governabili. In un contesto in cui gli agenti AI richiedono accesso continuo a dati aggiornati e verificabili, la semplificazione dell’infrastruttura dati diventa infatti un elemento essenziale tanto quanto la qualità dei modelli linguistici utilizzati.

Con Lakeflow Declarative Pipelines, Databricks cerca quindi di spostare l’attenzione dalla gestione tecnica delle pipeline alla definizione del risultato finale, automatizzando gran parte delle attività operative che tradizionalmente hanno rappresentato uno dei principali colli di bottiglia nella realizzazione di sistemi AI aziendali su larga scala.

Di Fantasy