DataStax, il fornitore di piattaforme dati, sta ampliando la propria offerta nel campo dei database vettoriali. Ha appena annunciato la disponibilità generale della ricerca vettoriale nel suo database cloud di punta, Astra DB.
DataStax è noto come uno dei principali contributori al database open source Apache Cassandra. Astra DB, il suo servizio Cloud Database-as-a-Service (DBaaS), supporta commercialmente Cassandra, che è un database NoSQL. Negli ultimi anni, Cassandra ha ampliato il suo supporto per vari tipi di dati e casi d’uso, in particolare nell’ambito dell’IA/ML.
DataStax ha fatto un importante passo verso l’IA/ML nel corso del 2023 acquisendo Kaskada, un fornitore di funzionalità di intelligenza artificiale, a gennaio. La tecnologia di Kaskada è stata integrata nel servizio DataStax Luna ML, lanciato a maggio.
L’aggiornamento di Astra DB per il supporto vettoriale amplia ulteriormente le capacità di IA/ML di DataStax, offrendo alle organizzazioni una piattaforma di database affidabile e ampiamente distribuita che può essere utilizzata per carichi di lavoro tradizionali e nuovi carichi di lavoro di intelligenza artificiale.
La funzionalità vettoriale è stata presentata in anteprima su Google Cloud Platform a giugno e ora è disponibile nativamente anche su Amazon Web Services (AWS) e Microsoft Azure.
I database vettoriali sono fondamentali per le operazioni di IA/ML in quanto consentono di archiviare il contenuto come incorporamento vettoriale, una rappresentazione numerica dei dati.
Secondo Anuff di DataStax, i vettori sono un ottimo modo per rappresentare il significato semantico del contenuto e hanno un’ampia applicabilità in modelli linguistici di grandi dimensioni (LLM) e per migliorare la pertinenza nella ricerca di contenuti.
Oggi esistono molti approcci e fornitori diversi nel campo dei database vettoriali. Alcuni fornitori specializzati includono Pinecone, il cui presidente e COO hanno parlato recentemente della “esplosione” dei database vettoriali per l’IA generativa durante l’evento VB Transform. Un’altra opzione popolare è Milvus, un database vettoriale open source. Un approccio sempre più comune è aggiungere la ricerca vettoriale come sovrapposizione o estensione a una piattaforma di database esistente. Ad esempio, MongoDB ha annunciato il supporto per la ricerca vettoriale a giugno. Anche il diffuso database PostgreSQL supporta i vettori attraverso la tecnologia pgvector.
Secondo Anuff, la ricerca vettoriale di DataStax utilizza colonne vettoriali come tipo di dati nativo in Astra DB. Con i vettori come tipo di dati, gli utenti di Astra DB possono interrogare e cercare i dati proprio come farebbero con qualsiasi altro tipo di dati.
Le funzionalità vettoriali stanno arrivando su Astra DB di DataStax prima rispetto alla disponibilità nel progetto open source Cassandra. Anuff ha spiegato che la funzionalità è stata aggiunta al progetto open source, ma sarà disponibile nella prossima versione di Cassandra 5.0 entro la fine dell’anno. DataStax, come fornitore commerciale, è in grado di integrare il codice nella propria piattaforma in anticipo, ed è per questo che Astra DB dispone già della funzionalità.
Anuff ha spiegato che l’architettura di base di Cassandra si basa sull’idea di tipi di dati estensibili, quindi il database può incorporare nel tempo tipi di dati nativi aggiuntivi. I vettori, così come altri tipi di dati, sono integrati nel sistema di indice distribuito di Cassandra.
Un approccio sempre più comune per lo sviluppo di applicazioni basate sull’intelligenza artificiale consiste nell’utilizzo di più LLM insieme. Ciò è possibile grazie all’integrazione con LangChain, un progetto open source che supporta anche Astra DB di DataStax.
Questa integrazione consente di utilizzare i risultati della ricerca vettoriale di Astra DB nei modelli LangChain per generare risposte. Ciò semplifica la creazione di agenti in tempo reale da parte degli sviluppatori, che non solo possono fare previsioni, ma possono anche formulare raccomandazioni utilizzando i risultati della ricerca vettoriale da Astra DB e i modelli LangChain correlati.
Anuff ha sottolineato che l’avere capacità vettoriali disponibili sulla piattaforma rappresenta un grande passo avanti per rendere l’IA generativa una realtà per le aziende.