Cloudera ha fatto la sua comparsa durante l’era dei Big Data e adesso sta velocemente spostandosi nell’era della Big AI, grazie all’uso di modelli di linguaggio di grandi dimensioni (LLM).
Oggi, Cloudera ha annunciato la sua strategia e gli strumenti per aiutare le aziende ad integrare la potenza degli LLM e dell’IA generativa nella Cloudera Data Platform (CDP) dell’azienda. La piattaforma di Cloudera offre un modello di data lakehouse aperto che consente alle organizzazioni di eseguire operazioni di analisi dei dati sullo storage di un data lake.
Con l’integrazione degli LLM, Cloudera semplifica alle aziende l’utilizzo diretto di LLM open source di Hugging Face e di database vettoriali open source per creare applicazioni di intelligenza artificiale. Oltre all’integrazione degli LLM, Cloudera ha anche annunciato la disponibilità generale della sua piattaforma di osservabilità, che aiuterà le organizzazioni a monitorare i carichi di lavoro dei dati eseguiti su CDP.
“Ora puoi sfruttare questa nuova modalità di elaborazione dei dati e ottenere informazioni in tempo reale su una scala mai vista prima”, ha dichiarato Ram Venkatesh, CTO di Cloudera, a VentureBeat. “Da sempre mi sono dedicato al linguaggio SQL, ma posso assicurarti che non abbiamo mai avuto la capacità di analizzare tutti i tuoi dati, specialmente quelli non strutturati o semi-strutturati, come ora possiamo fare con gli LLM.”
Cloudera non sta sviluppando i propri LLM, ma sta rendendo più facile per le aziende utilizzarli per ottenere informazioni dai dati già presenti nel proprio data lakehouse.
Cloudera dispone già di un catalogo di architetture di riferimento per i suoi utenti, che includono casi d’uso come modelli di intelligenza artificiale per la gestione della clientela e l’analisi delle frodi. Ora l’azienda sta ampliando il catalogo con architetture per l’IA conversazionale e gli LLM. Venkatesh ha spiegato che gli utenti di CDP possono selezionare la nuova architettura di riferimento LLM dal catalogo e installarla nel loro ambiente in pochi minuti.
L’approccio alla formazione che Cloudera sta adottando è noto come “apprendimento zero-shot”, in cui un LLM esistente può beneficiare rapidamente di una sorgente dati esistente. I primi LLM con cui Cloudera si sta integrando sono modelli open source che possono essere eseguiti completamente all’interno della piattaforma Cloudera. Venkatesh ha osservato che eseguendo gli LLM sulla stessa piattaforma dei dati, le organizzazioni possono garantire che i dati non escano mai dal controllo aziendale e che non si effettuino chiamate API esterne. Ha sottolineato che mantenere i dati sotto stretto controllo è fondamentale per molte aziende.
Parte dell’architettura di riferimento degli LLM di Cloudera è l’integrazione di database vettoriali open source nello stack.
Venkatesh ha affermato che Cloudera permette ai suoi utenti di scegliere quale database vettoriale open source utilizzare. Tra le opzioni ci sono Milvus, Weaviate e qdrant.
La tecnologia dei data lakehouse si basa sull’archiviazione di oggetti dati, che secondo Venkatesh rappresenta un ottimo modo per le organizzazioni di conservare dati non strutturati o semi-strutturati. Per lavorare con l’intelligenza artificiale, è necessario organizzare i dati con un database vettoriale.
Venkatesh ha sottolineato che la creazione di un database vettoriale per un’implementazione degli LLM con Cloudera non significa che le aziende duplicano i dati, con una copia nel data lakehouse e un’altra nel database vettoriale. Al contrario, un database vettoriale fornisce un indice funzionale dei dati sotto forma di vettori, senza duplicare i dati.
Quando Cloudera è stata fondata nel 2008, i Big Data, rappresentati dal progetto Hadoop open source, costituivano la base dell’azienda.
Negli anni, il mercato dei Big Data si è spostato verso i data lakehouse, dove le organizzazioni utilizzano motori di query, solitamente basati su SQL, per l’analisi dei dati archiviati nei repository di storage di oggetti cloud. Venkatesh considera gli LLM come il passo successivo naturale nel percorso evolutivo dei Big Data.
Ha spiegato che i Big Data hanno creato un approccio piramidale all’analisi dei dati, in cui i Big Data risiedono nella parte inferiore e solo una piccola quantità di dati può essere analizzata nella parte superiore. Con gli LLM, questa struttura piramidale si appiattisce, consentendo l’analisi di una quantità molto maggiore di dati in modo più semplice.
“Quello che vedo con gli LLM e la nuova ondata di intelligenza artificiale è un’era in cui è possibile analizzare tutti i dati a un livello superiore e, invece di eseguire query solo con SQL o Spark, è possibile eseguire query in inglese o in linguaggio naturale”, ha affermato Venkatesh. “Basta importare i dati una volta e puoi trarre vantaggio da quell’importazione con più incorporamenti vettorializzati, in modo che tutte le tue query possano sfruttare l’archivio semantico.