Dataiku ha recentemente rilasciato la versione 10 della sua piattaforma AI unificata. Dan Darnell , responsabile del marketing di prodotto presso Dataiku ed ex vicepresidente del marketing di prodotto presso H2O.ai, spiega come la nuova versione fornisca una maggiore governance e supervisione degli sforzi di apprendimento automatico dell’azienda, migliori le operazioni di machine learning e consenta alle aziende di scalare i loro sforzi di machine learning e intelligenza artificiale.
Governance e supervisione
Per Darnell, il nome del gioco è governance. “Fino a poco tempo fa gli strumenti per la scienza dei dati in molte aziende erano il selvaggio west, con diversi gruppi che adottavano i loro strumenti preferiti”. Tuttavia, vede un notevole cambiamento negli strumenti che si stanno consolidando “poiché le aziende si stanno rendendo conto di non avere visibilità in questi ambienti isolati, il che pone un enorme rischio operativo e di conformità. Stanno cercando un unico repository ML per fornire una migliore governance e supervisione. Dataiku non è il solo a individuare questa tendenza, con prodotti concorrenti come AWS MLOps che affrontano lo stesso spazio.
Avere un unico punto di governance è utile per gli utenti aziendali . Darnell lo paragona a un’unica “torre di guardia, da cui visualizzare tutti i progetti di dati di un’organizzazione”. Per Dataiku, ciò consente flussi di lavoro di progetto che forniscono schemi per i progetti, flussi di lavoro di approvazione che richiedono l’approvazione del management prima di distribuire nuovi modelli, valutazione del rischio e del valore per valutare i propri progetti di intelligenza artificiale e un registro dei modelli centralizzato per la versione dei modelli e il monitoraggio delle prestazioni del modello.
Per la sua nuova versione, la governance è incentrata sul “progetto”, che contiene anche le origini dati, il codice, i taccuini, i modelli, le regole di approvazione e i wiki di markdown associati a tale sforzo. Proprio come GitHub è andato oltre il semplice hosting del codice per ospitare il contesto attorno alla codifica che facilita la collaborazione, come richieste pull, CI/CD, wiki markdown e flusso di lavoro del progetto, gli eponimi “progetti” di Dataiku aspirano a fare lo stesso per i progetti di dati. “Sia che tu scriva il tuo modello all’interno di Dataiku o altrove, vogliamo che tu inserisca quel modello nel nostro prodotto”, ha affermato Darnell.
Operazioni di machine learning
La governance e la supervisione si estendono anche al campo emergente delle operazioni di machine learning, una disciplina in rapida crescita che applica diverse best practice DevOps per i modelli di machine learning. Nel suo comunicato stampa , Dataiku definisce le operazioni di machine learning come un aiuto per “gli operatori IT e i data scientist a valutare, monitorare e confrontare i modelli di apprendimento automatico, sia in fase di sviluppo che in produzione”. In quest’area, Dataiku compete con prodotti come Model Monitor di Sagmaker , Vertex AI Model Monitoring di GCP o MLOps di Azure .
L’analisi automatica della deriva è un’importante funzionalità appena rilasciata. Nel tempo, i dati possono fluttuare a causa di sottili cambiamenti sottostanti al di fuori del controllo del modellatore. Ad esempio, con il progredire della pandemia e i consumatori che hanno iniziato a vedere ritardi nelle riaperture delle palestre, le vendite di attrezzature per esercizi a casa hanno iniziato ad aumentare. Questa deriva dei dati può portare a prestazioni scadenti per i modelli che sono stati addestrati su dati non aggiornati.
Gli scenari What-If sono una delle caratteristiche più interessanti della nuova piattaforma AI. I modelli di apprendimento automatico di solito vivono nel codice, accessibile solo a data scientist e data engineer formati e ai sistemi informatici che li elaborano. Ma gli stakeholder aziendali non tecnici vogliono vedere come funziona il modello per se stessi. Questi esperti di dominio hanno spesso una conoscenza significativa e spesso vogliono prendere confidenza con un modello prima di approvarlo. Le “simulazioni” ipotetiche di Dataiku avvolgono un modello in modo che le parti interessate non tecniche possano interrogare il modello impostando input diversi in una GUI interattiva, senza immergersi nel codice. “Il potenziamento degli utenti non tecnici come parte del flusso di lavoro della scienza dei dati è una componente fondamentale di MLOps”, ha affermato Darnell.
Ridimensionamento ML e AI
“Pensiamo che il machine learning e l’intelligenza artificiale saranno ovunque nell’organizzazione e dobbiamo sbloccare il collo di bottiglia del data scientist che è l’unica persona in grado di svolgere attività di machine learning”, ha affermato Darnell.
Un modo in cui Dataiku sta affrontando il problema è ridurre il lavoro duplicato di scienziati e analisti di dati. Il lavoro duplicato è la rovina di qualsiasi grande impresa in cui i silos di codice dilagano. Gli scienziati dei dati ripetono il lavoro perché semplicemente non sanno se è stato fatto altrove. Un catalogo di frammenti di codice può fornire a scienziati e analisti di dati una maggiore visibilità sul lavoro precedente in modo che possano stare sulle spalle dei colleghi piuttosto che reinventare la ruota. Il fatto che il catalogo funzioni o meno dipenderà dalle prestazioni di ricerca, un problema notoriamente complicato , nonché dal fatto che la ricerca possa identificare facilmente il lavoro precedente pertinente, liberando quindi gli scienziati dei dati per svolgere attività più preziose.
Oltre a cercare di rendere più efficaci i data scientist, la piattaforma AI di Dataiku fornisce anche GUI senza codice per la preparazione dei dati e funzionalità AutoML per eseguire ETL , addestrare modelli e valutarne la qualità. Questa funzionalità è rivolta agli utenti tecnicamente esperti che non sono in grado di codificare e consente loro di svolgere molte delle attività di data science. Attraverso una GUI senza codice, gli utenti possono controllare quali modelli ML sono disponibili per l’algoritmo AutoML ed eseguire manipolazioni delle funzionalità di base sui dati di input. Dopo l’addestramento, la pagina fornisce elementi visivi per facilitare l’interpretazione del modello, non solo i coefficienti di regressione, la selezione degli iperparametri e le metriche delle prestazioni, ma anche una diagnostica più sofisticata come l’analisi della sottopopolazione. Quest’ultimo è molto utile per i pregiudizi dell’intelligenza artificiale,dove le prestazioni del modello possono essere complessivamente molto buone ma deboli per una sottopopolazione vulnerabile, portando a bias. Le soluzioni senza codice sono calde, con AWS che rilascia anche Sagemaker Canvas , un prodotto concorrente.
Maggiori informazioni su Dataiku
Il prodotto iniziale di Dataiku, il ” Data Science Studio “, si concentrava sulla fornitura di strumenti per consentire al singolo scienziato di dati di diventare più produttivo. Con Dataiku 10, la sua attenzione è spostata sull’azienda, con funzionalità che prendono di mira il CTO e il rank and file data scientist. Questo cambiamento non è raro tra i fornitori di data science che inseguono accordi aziendali a sette cifre più appiccicosi con multipli di investitori più elevati. Questa direzione rispecchia mosse simili di concorrenti affermati nello spazio della scienza dei dati aziendali cloud, tra cui Databricks , Autonomous DataWarehouse di Oracle , GCP Vertex , Azure ML di Microsoft e AWS Sagemake.