Il database vettoriale è un nuovo tipo di database per l’era dell’IA
 
Dai un’occhiata a tutte le sessioni on-demand dell’Intelligent Security Summit qui .Le aziende di ogni settore comprendono sempre più che prendere decisioni basate sui dati è una necessità per competere ora, nei prossimi cinque anni, nei prossimi 20 e oltre. La crescita dei dati, in particolare la crescita dei dati non strutturati, è fuori scala e una recente ricerca di mercato stima che il mercato globale dell’intelligenza artificiale (AI) , alimentato dai dati, “si espanderà a un tasso di crescita annuale composto (CAGR) del 39,4% per raggiungere $ 422,37 miliardi entro il 2028”. Non si può tornare indietro dall’inondazione di dati e dall’era dell’IA che è alle porte.

Implicito in questa realtà è che l’intelligenza artificiale può ordinare ed elaborare il flusso di dati in modo significativo, non solo per giganti della tecnologia come Alphabet, Meta e Microsoft con le loro enormi operazioni di ricerca e sviluppo e strumenti di intelligenza artificiale personalizzati, ma per l’impresa media e persino per le PMI. 
Le cose da fare e da non fare per migliorare le competenze e ridimensionare gli sviluppatori cittadini all’interno dell’organizzazione – Summit Low-Code/No-Code
Le applicazioni basate sull’intelligenza artificiale ben progettate setacciano set di dati estremamente grandi in modo estremamente rapido per generare nuove informazioni e, in ultima analisi, alimentare nuovi flussi di entrate, creando così valore reale per le aziende. Ma nessuna crescita dei dati viene veramente resa operativa e democratizzata senza il nuovo arrivato: i database vettoriali. Questi segnano una nuova categoria di gestione del database e un cambio di paradigma per l’utilizzo dei volumi esponenziali di dati non strutturati che non vengono sfruttati negli archivi di oggetti. I database vettoriali offrono un nuovo livello di capacità sbalorditivo per la ricerca di dati non strutturati in particolare, ma possono anche gestire dati semi-strutturati e persino strutturati.    

Immergersi nei vettori e cercare
I dati non strutturati , come immagini, video, audio e comportamenti degli utenti, in genere non si adattano al modello di database relazionale; non può essere facilmente ordinato in relazioni di riga e colonna. Modi terribilmente dispendiosi in termini di tempo per gestire i dati non strutturati spesso si riducono alla codifica manuale dei dati (si pensi alle etichette e alle parole chiave sulle piattaforme video).

 

I tag possono essere pieni di classificazioni e relazioni non così ovvie. La codifica manuale si presta a una ricerca lessicale tradizionale che corrisponde esattamente a parole e stringhe. Ma una ricerca semantica che comprenda il significato e il contesto di un’immagine o di altri dati non strutturati, così come una query di ricerca, è praticamente impossibile con i processi manuali.

Inserisci i vettori di incorporamento, chiamati anche incorporamenti di vettori, vettori di caratteristiche o semplicemente incorporamenti. Sono valori numerici – coordinate di sorta – che rappresentano oggetti o caratteristiche di dati non strutturati, come un componente di una fotografia, una parte del profilo di acquisto di una persona, fotogrammi selezionati in un video, dati geospaziali o qualsiasi elemento che non si adatta perfettamente a un tabella di database relazionale. Questi incorporamenti rendono possibile una “ricerca di somiglianza” scalabile in una frazione di secondo. Ciò significa trovare elementi simili in base alle corrispondenze più vicine.

 
Dati di qualità e approfondimenti
Gli incorporamenti nascono essenzialmente come sottoprodotto computazionale di un modello di intelligenza artificiale o, più specificamente, di una macchina o di un modello di deep learning addestrato su set molto grandi di dati di input di qualità. Per dividere ulteriormente i capelli importanti, un modello è l’ output computazionale di un algoritmo (metodo o procedura) di machine learning (ML) eseguito sui dati. Algoritmi sofisticati e ampiamente utilizzati includono STEGO per la visione artificiale, CNN per l’elaborazione delle immagini e BERT di Google per l’elaborazione del linguaggio naturale. I modelli risultanti trasformano ogni singolo pezzo di dati non strutturati in un elenco di valori in virgola mobile: il nostro incorporamento che abilita la ricerca.

Pertanto, un modello di rete neurale ben addestrato produrrà incorporamenti che si allineano con contenuti specifici e possono essere utilizzati per condurre una ricerca di somiglianza semantica. Lo strumento per archiviare, indicizzare e cercare in questi incorporamenti è un database vettoriale, creato appositamente per gestire gli incorporamenti e la loro struttura distinta.

La chiave del mercato è che gli sviluppatori ovunque possono ora aggiungere un database vettoriale, con le sue capacità pronte per la produzione e la ricerca fulminea di dati non strutturati, alle applicazioni AI. Si tratta di potenti applicazioni che possono aiutare un’azienda a raggiungere i propri obiettivi di business.

 
La strategia del database vettoriale inizia con casi d’uso che hanno senso per la tua azienda
È sempre più comune che la strategia dati completa di un’azienda includa l’intelligenza artificiale, ma è fondamentale considerare quali business unit e casi d’uso ne beneficeranno maggiormente. Le applicazioni AI basate su database vettoriali possono analizzare voluminosi dati non strutturati per scopi di marketing, vendita, ricerca e sicurezza. I sistemi di raccomandazione, tra cui la raccomandazione di contenuti generati dagli utenti, la ricerca di e -commerce personalizzata , l’analisi di video e immagini, la pubblicità mirata, la sicurezza informatica antivirus, i chatbot con competenze linguistiche migliorate, la scoperta di farmaci, la ricerca di proteine ​​e il rilevamento antifrode bancario sono tra i primi casi d’uso importanti ben gestito da database vettoriali con velocità e precisione.

Considera uno scenario di e-commerce in cui sono disponibili centinaia di milioni di prodotti diversi. Uno sviluppatore di app che crea un motore di raccomandazione desidera essere in grado di consigliare nuovi tipi di prodotti che attirino i singoli consumatori. Gli incorporamenti acquisiscono profili, prodotti e query di ricerca e le ricerche produrranno risultati vicini, spesso in linea con gli interessi dei consumatori in modo quasi inquietante.

 
Scegli uno strumento appositamente costruito e open source
Alcuni tecnologi hanno esteso i database relazionali tradizionali per supportare gli incorporamenti. Ma quell’approccio unico per tutti di aggiungere una tabella “colonna vettoriale” non è ottimizzato per la gestione degli incorporamenti e, di conseguenza, li tratta come cittadini di seconda classe. Le aziende traggono vantaggio da database vettoriali open source appositamente creati che sono maturati al punto da offrire prestazioni di ricerca più elevate su dati vettoriali su larga scala a un costo inferiore rispetto ad altre opzioni.

Tali database vettoriali appositamente creati dovrebbero essere progettati per incorporare facilmente nuovi indici per scenari applicativi emergenti e supportare la scalabilità orizzontale flessibile su più nodi per adattarsi a volumi di dati in continua crescita.

Quando le aziende adottano una strategia open source, i loro sviluppatori vedono tutto ciò che accade con uno strumento. Non ci sono righe di codice nascoste. C’è il supporto della comunità. Milvus , un progetto di intelligenza artificiale e dati della Linux Foundation, ad esempio, è un noto database vettoriale preferito dalle aziende che è facile da provare grazie al suo vivace sviluppo open source. È più facile immaginarlo all’interno di un ecosistema di intelligenza artificiale più ampio e creare strumenti integrati per esso. Più SDK e un’API rendono l’interfaccia il più semplice possibile in modo che gli sviluppatori possano eseguire rapidamente l’onboarding e provare le loro idee che utilizzano dati non strutturati.

 
Superare le sfide future
La nuova tecnologia grande e rivoluzionaria comporta inevitabilmente alcune sfide: tecniche e organizzative. I database vettoriali possono eseguire ricerche in miliardi di incorporamenti e la loro indicizzazione è tecnicamente diversa da quella dei database relazionali. Non sorprende che lo sviluppo di indici vettoriali richieda competenze specializzate. I database vettoriali sono anche computazionalmente pesanti, data la loro genesi di intelligenza artificiale e apprendimento automatico. Risolvere le loro sfide computazionali su larga scala è un’area di continuo sviluppo.

Dal punto di vista organizzativo, aiutare i team aziendali e la leadership a capire perché e come i database vettoriali sono loro utili rimane una parte fondamentale della normalizzazione del loro utilizzo. La stessa ricerca vettoriale esiste da un po’ di tempo, ma su scala molto ridotta. Molte aziende non sono realmente abituate ad avere accesso al tipo di ricerca di dati e alla potenza di mining offerta dai moderni database vettoriali. I team possono sentirsi incerti su dove iniziare. Quindi diffondere il messaggio su come funzionano e perché apportano valore rimane una priorità assoluta per i loro creatori.

Di ihal