Deepset, una startup con sede in Germania specializzata nell’ottimizzazione dei modelli linguistici di grandi dimensioni (LLM) all’interno dei flussi di lavoro aziendali, ha annunciato oggi una raccolta di fondi di 30 milioni di dollari in un nuovo round di finanziamento. L’obiettivo principale di questa iniezione di capitale è il potenziamento dell’offerta commerciale di Deepset, denominata deepset Cloud, con l’aggiunta di nuove funzionalità. Queste includono ottimizzazioni specifiche per configurazioni di cloud privato virtuale (VPC) e una maggiore enfasi sull’aspetto osservabile dei processi.
La guida finanziaria di questo round è stata assunta da Balderton Capital, con la partecipazione di investitori aziendali già esistenti come GV (Google Ventures), Harpoon, System.One e Lunar. Con questo investimento, il totale di finanziamenti raccolti da Deepset raggiunge la cifra di 46 milioni di dollari. Tra i sostenitori precedenti dell’azienda figurano nomi noti come Alex Ratner di Snorkel AI, Mustafa Suleyman di Deepmind, Spencer Kimball di Cockroach Labs, Jeff Hammerbacher di Cloudera ed Emil Eifrem di Neo4j.
Questa mossa arriva in un momento in cui le aziende di diverse industrie e provenienti da tutto il mondo stanno cercando di sfruttare al meglio le potenzialità offerte dai modelli linguistici di grandi dimensioni per affrontare la sfida dei crescenti volumi di dati e ottimizzare le operazioni dei loro team.
Entro il 2025, il volume globale dei dati dovrebbe raggiungere la sorprendente cifra di 163 zettabyte. Di questi, quasi il 60% costituirà dati aziendali, mettendo così i team di lavoro di fronte a una sfida monumentale nella gestione di queste risorse informative. Questo rende il processo di ricerca, recupero, sintesi ed analisi delle informazioni rilevanti per il lavoro un compito impegnativo.
Sebbene i modelli linguistici di grandi dimensioni siano in grado di sviluppare una comprensione semantica e linguistica avanzata, applicarli con successo all’interno delle operazioni aziendali può risultare complesso, soprattutto per le aziende non specializzate nell’ambito dell’intelligenza artificiale. Ed è qui che entra in gioco Deepset.
L’azienda mette a disposizione un framework open source chiamato Haystack, che permette agli sviluppatori di selezionare i componenti necessari per progetti NLP moderni. Questi componenti vanno dai modelli LLM proprietari e open source fino ai database vettoriali, dai convertitori di file fino ai modelli di incorporamento del testo. Una volta scelti i componenti, il framework li assembla all’interno di pipeline o agenti per creare applicazioni basate sui modelli linguistici di grandi dimensioni.
Queste applicazioni possono spaziare dall’implementazione di un motore di ricerca simile a quello di Google per i documenti aziendali fino alla creazione di intelligenza artificiale conversazionale o di un efficace helpdesk interno.
Deepset ha avviato la propria attività cinque anni fa fornendo soluzioni NLP personalizzate, e successivamente ha lanciato Haystack nel 2019. L’anno scorso, ha ampliato ulteriormente il suo portafoglio con deepset Cloud, una piattaforma cloud indipendente dal modello e certificata SOC 2. Questa piattaforma consente ai team di intelligenza artificiale di creare progetti su misura e sistemi LLM flessibili, mantenendo il controllo totale dei propri dati.
L’approccio di deepset Cloud copre l’intero ciclo di vita delle applicazioni NLP moderne, dall’ambito sperimentale a quello di produzione, con un’attenzione particolare alla monitorizzazione. Questo facilita il confronto e la condivisione di diversi modelli linguistici, fornendo un ambiente unificato in cui le parti interessate possono collaborare, iterare rapidamente e personalizzare le soluzioni.
“Le aziende possono ottenere enormi vantaggi dall’impiego dei modelli LLM. Con Deepset, stiamo mettendo a disposizione una piattaforma che traduce decenni di ricerca nell’apprendimento automatico e nell’informatica in applicazioni pronte per la produzione. Così come non è necessario conoscere in dettaglio l’architettura dei microchip per sviluppare software, allo stesso modo non occorre essere esperti ricercatori nel campo dell’NLP o dei modelli LLM per utilizzare il nostro framework Haystack e deepset Cloud”, ha spiegato Milos Rusic, uno dei cofondatori di Deepset, in una dichiarazione.
Con una squadra composta da cinquanta professionisti, Deepset collabora con aziende nel Regno Unito, in Europa e negli Stati Uniti, come ad esempio la casa editrice legale Manz. Quest’ultima è riuscita a impiegare deepset Cloud per sviluppare soluzioni basate su modelli LLM, che aiutano a individuare precedenti legali, normative rilevanti e altri pattern all’interno di milioni di documenti.
Parallelamente, il team di ricerca e sviluppo di Airbus, noto produttore di aeromobili, sta utilizzando Haystack per creare un’applicazione che supporta i piloti nell’identificazione e nell’utilizzo delle linee guida operative più rilevanti direttamente dalla cabina di pilotaggio. Il framework open source ha registrato un aumento del 250% degli utenti attivi, secondo quanto dichiarato dall’azienda stessa.
Con l’acquisizione di questi finanziamenti, Deepset intende proseguire la sua espansione a livello internazionale e arricchire ulteriormente i propri prodotti con nuove funzionalità.
“La nostra prossima fase di sviluppo si concentrerà sul perfezionamento delle applicazioni deepset Cloud per RAG (retrieval-augmented generation), concentrandoci in particolare sul miglioramento della valutazione di ciascun componente all’interno di una pipeline RAG. Inoltre, lavoreremo per rendere la piattaforma adeguata alle esigenze dei clienti con elevate restrizioni sulla privacy, ottimizzando le configurazioni del cloud privato virtuale (VPC)”, ha sottolineato l’azienda in un articolo sul suo blog.
L’obiettivo è anche quello di migliorare l’osservabilità dei modelli linguistici di grandi dimensioni all’interno del cloud profondo, conferendo ai clienti maggiore fiducia nelle prestazioni delle proprie applicazioni LLM all’interno degli ambienti di produzione, come indicato nell’articolo sul blog.