Oggi, Comet, la piattaforma MLOps, ha annunciato una partnership strategica con Snowflake al fine di consentire ai data scientist di costruire modelli di machine learning (ML) avanzati in modo accelerato.
Secondo Comet, questa collaborazione consentirà l’integrazione delle soluzioni di Comet nella piattaforma unificata di Snowflake, consentendo agli sviluppatori di tracciare e verificare le versioni delle query e dei set di dati di Snowflake all’interno del proprio ambiente Snowflake.
L’integrazione tra Comet e Snowflake permetterà di tracciare il lignaggio e le prestazioni di un modello, fornendo una maggiore visibilità e comprensione rispetto ai tradizionali processi di sviluppo. Ciò avrà un impatto sulle prestazioni del modello in risposta ai cambiamenti nei dati.
In generale, l’azienda ritiene che l’utilizzo dei dati di Snowflake nella piattaforma Comet semplificherà e renderà più trasparente il processo di sviluppo del modello.
La combinazione del Data Cloud di Snowflake e della piattaforma ML di Comet consentirà ai clienti di creare, addestrare, distribuire e monitorare i modelli in modo molto più rapido, secondo quanto affermato dalle aziende.
Il CEO di Comet, Gideon Mendels, ha dichiarato: “Inoltre, questa partnership favorisce un ciclo di feedback tra lo sviluppo del modello in Comet e la gestione dei dati in Snowflake”. Mendels ha affermato che l’integrazione di tale ciclo può continuamente migliorare i modelli e colmare il divario tra l’esperimento dei modelli e la loro distribuzione, mantenendo la capacità chiave del ML di apprendere e adattarsi nel tempo. Ha sottolineato che il controllo chiaro delle versioni tra i set di dati e i modelli consentirà alle organizzazioni di gestire meglio le modifiche ai dati e il loro impatto sui modelli in produzione.
Questa nuova offerta di Comet segue il recente lancio di una suite di strumenti e integrazioni progettati per accelerare i flussi di lavoro dei data scientist che lavorano con modelli di linguaggio di grandi dimensioni (LLM).
Per migliorare i modelli di machine learning attraverso un feedback costante, quando i data scientist o gli sviluppatori eseguono query per estrarre set di dati da Snowflake per i loro modelli ML, Comet sarà in grado di registrare, versionare e collegare direttamente queste query ai modelli risultanti.
Secondo Mendels, questo approccio offre diversi vantaggi, come una maggiore riproducibilità, collaborazione, verificabilità e miglioramento iterativo.
“L’integrazione tra Comet e Snowflake mira a fornire un framework più robusto, trasparente ed efficiente per lo sviluppo di ML, consentendo il monitoraggio e il controllo delle versioni delle query e dei set di dati di Snowflake all’interno di Snowflake stesso”, ha spiegato Mendels. “Attraverso il controllo delle versioni delle query SQL e dei set di dati, i data scientist possono sempre risalire all’esatta versione dei dati utilizzati per addestrare una specifica versione del modello. Questo è fondamentale per la riproducibilità del modello”.
Nei modelli di machine learning, i dati di addestramento sono importanti quanto il modello stesso. Le modifiche ai dati, come l’introduzione di nuove caratteristiche, la correzione di valori mancanti o la modifica delle distribuzioni dei dati, possono influire notevolmente sulle prestazioni di un modello.
Comet sostiene che tracciando il lignaggio di un modello, diventa possibile stabilire una connessione tra i cambiamenti nelle prestazioni del modello e le specifiche modifiche ai dati. Ciò non solo aiuta nel debug e nella comprensione delle prestazioni, ma guida anche la qualità dei dati e l’ingegnerizzazione delle caratteristiche.
Mendels ha affermato che il monitoraggio delle query e dei dati nel tempo può creare un ciclo di feedback che porta a continui miglioramenti sia nella gestione dei dati che nelle fasi di sviluppo del modello.
Secondo l’azienda, i clienti che attualmente utilizzano Comet, come Uber, Etsy e Shopify, segnalano in genere un miglioramento della velocità di machine learning compreso tra il 70% e l’80%. Mendels ha affermato: “Ciò è dovuto a cicli di ricerca più rapidi, alla capacità di comprendere le prestazioni del modello e rilevare i problemi più rapidamente, a una migliore collaborazione e altro ancora. Con la soluzione congiunta, questo miglioramento dovrebbe aumentare ulteriormente, poiché attualmente ci sono ancora sfide nel collegare i due sistemi. I clienti risparmiano sui costi di ingresso e consumo conservando i dati all’interno di Snowflake anziché trasferirli e salvarli altrove”.