Cleanlab, una startup specializzata nella cura dei dati per modelli di linguaggio di grandi dimensioni (LLM) utilizzati nell’intelligenza artificiale aziendale, ha annunciato oggi di aver ottenuto un finanziamento iniziale di 5 milioni di dollari. Il round di investimento è stato guidato da Bain Capital Ventures, segnando un importante riconoscimento alla missione di Cleanlab di risolvere il “problema dei dati sporchi” che affligge lo spazio del machine learning.
La startup, fondata da Curtis Northcutt, Jonas Mueller e Anish Athalye, ha sviluppato un prodotto open source che identifica, comprende e corregge le etichette errate nei dati. Questo approccio unico promette di migliorare significativamente l’efficacia dei modelli di machine learning, spesso ostacolati dalla scarsa qualità dei dati.
“Il segreto sporco dell’apprendimento automatico è che la validità del tuo modello dipende unicamente dalla qualità dei tuoi dati”, ha affermato Northcutt, CEO di Cleanlab. “Se ci sono etichette errate nei tuoi dati, come accade spesso, le prestazioni del tuo modello possono essere compromesse.”
Northcutt ha aggiunto che la cura dei dati è spesso un processo manuale e noioso che richiede molto tempo e risorse da parte dei team di dati. Cleanlab spera di automatizzare e semplificare questo processo utilizzando un metodo denominato “apprendimento sicuro”, che Northcutt ha sviluppato durante il suo dottorato di ricerca al MIT.
L’apprendimento sicuro è un metodo che stima la distribuzione congiunta delle etichette corrette e errate e utilizza queste informazioni per individuare gli errori più probabili nel set di dati. Inoltre, può valutare l’accuratezza di ogni etichetta e di ogni esempio, fornendo un punteggio di affidabilità per ciascuna etichetta.
“Stiamo costruendo informazioni statistiche sulla tipica rappresentazione di una classe di punti dati e stiamo considerando la distribuzione di probabilità che un modello produrrebbe per quella classe, indipendentemente dalla rilevanza statistica dei dati forniti per quell’esempio. Ciò ci consente di costruire un modello teoricamente solido che fornisce garanzie precise nella ricerca degli errori di etichettatura”, ha spiegato Northcutt.
Cleanlab offre due prodotti: Cleanlab Open Source e Cleanlab Studio. Cleanlab Open Source è una libreria Python gratuita e open source che consente a chiunque di applicare l’apprendimento sicuro ai propri set di dati. Cleanlab Studio, invece, è un prodotto SaaS basato su cloud che fornisce un’interfaccia intuitiva e funzionalità avanzate per la cura dei dati. Cleanlab Studio si integra anche con framework e piattaforme LLM popolari come Hugging Face Transformers, Google Cloud AI Platform, Amazon SageMaker, Microsoft Azure Machine Learning e IBM Watson.
Northcutt ha dichiarato che Cleanlab ha già coinvolto più di 10.000 utenti nel loro progetto open source e ha acquisito oltre 100 clienti per il prodotto cloud. I clienti includono aziende Fortune 500, agenzie governative, istituti di ricerca e startup provenienti da vari settori come e-commerce, sanità, social media, istruzione, intrattenimento e finanza.
Con i nuovi finanziamenti, Cleanlab prevede di espandere il proprio team, sviluppare ulteriormente il prodotto e ampliare la base di clienti. Northcutt si dice entusiasta di collaborare con Bain Capital Ventures, che ha una solida esperienza negli investimenti in startup di intelligenza artificiale.
Aaref Hilaly, partner di Bain Capital Ventures, e Rak Garg, direttore, hanno espresso la loro impressione nei confronti del team, della tecnologia e della visione di Cleanlab. Ritengono che Cleanlab stia risolvendo un problema enorme e poco affrontato nel settore dell’IA aziendale.
“Cleanlab è la soluzione leader nella cura dei dati per i modelli di linguaggio di grandi dimensioni, che rappresenta un’enorme necessità insoddisfatta nel settore aziendale. La cura dei dati è fondamentale per le prestazioni e l’affidabilità del modello e Cleanlab offre agli utenti un maggiore controllo e un prodotto più facilmente adottabile attraverso l’open source. Siamo molto entusiasti di sostenere Curtis e i suoi co-fondatori Jonas e Anish, che hanno creato un prodotto straordinario e una comunità intorno all’apprendimento sicuro”, ha affermato Hilaly.
Garg ha aggiunto che Cleanlab fa parte dell’enfasi più ampia sull’intelligenza artificiale da parte di Bain Capital Ventures, che investe sia nei modelli di base che nell’infrastruttura che li circonda. Ha sottolineato che Cleanlab è una delle numerose startup di intelligenza artificiale in cui Bain ha investito quest’anno, tra cui Contextual AI, Evenup e Unstructured.
Cleanlab è solo una delle tante startup emergenti che rispondono alla crescente domanda di soluzioni AI aziendali, soprattutto per i modelli di linguaggio di grandi dimensioni. Secondo un recente rapporto di Gartner, entro il 2024 il 69% delle attività di routine svolte dai manager sarà completamente automatizzato, il che implicherà molto probabilmente l’utilizzo di LLM per attività come la pianificazione, la generazione di report e la presa di decisioni. Uno dei principali ostacoli che impediscono l’adozione e l’implementazione dei LLM in ambito aziendale è la qualità dei dati e la cura dei dati.
La soluzione di cura dei dati di Cleanlab può aiutare le aziende a superare tali sfide e a sbloccare il pieno potenziale dei LLM per una vasta gamma di casi d’uso e applicazioni. Utilizzando Cleanlab, le aziende possono migliorare la qualità e l’affidabilità dei propri set di dati e modelli, ridurre i tempi e i costi della cura dei dati e garantire un utilizzo etico e responsabile dei LLM. Cleanlab può inoltre aiutare le aziende a ottenere un vantaggio competitivo e a creare valore dalle proprie risorse dati.