La moderna ricerca di dati è un dominio complesso. La ricerca per somiglianza vettoriale, o VSS, rappresenta i dati con profondità contestuale e restituisce informazioni più pertinenti ai consumatori in risposta a una query di ricerca. Facciamo un semplice esempio. 

Query di ricerca come “data science” e “fantascienza” si riferiscono a diversi tipi di contenuto nonostante entrambi abbiano una parola comune (“scienza”). Una tecnica di ricerca tradizionale corrisponderebbe a frasi comuni per restituire risultati pertinenti, che in questo caso sarebbero imprecisi. La ricerca per somiglianza vettoriale prenderebbe in considerazione l’intento di ricerca effettivo e il significato di queste query di ricerca per restituire una risposta più accurata.

Questo articolo discuterà vari aspetti della ricerca per somiglianza vettoriale, come i suoi componenti, le sfide, i vantaggi e i casi d’uso. Cominciamo.

Che cos’è la ricerca per somiglianza vettoriale (VSS)?
La ricerca per somiglianza vettoriale trova e recupera informazioni contestualmente simili da grandi raccolte di dati strutturati o non strutturati trasformandole in rappresentazioni numeriche note come vettori o incorporamenti.

VSS può gestire una varietà di formati di dati, inclusi numerici, categorici, testuali, immagini e video. Converte ogni oggetto in un corpus di dati in una rappresentazione vettoriale ad alta dimensione corrispondente al relativo formato (discusso nella sezione successiva). 

Più comunemente, VSS individua oggetti comparabili, come frasi o paragrafi simili, o trova immagini correlate in vasti sistemi di recupero di immagini. Le grandi aziende di consumo come Amazon, eBay e Spotify utilizzano questa tecnologia per migliorare i risultati di ricerca per milioni di utenti, ovvero fornire contenuti pertinenti che molto probabilmente gli utenti vorrebbero acquistare, guardare o ascoltare.

Tre componenti principali della ricerca per somiglianza vettoriale
Prima di capire come funziona la ricerca per somiglianza vettoriale, diamo un’occhiata ai suoi componenti principali. In primo luogo, ci sono tre componenti essenziali per implementare una metodologia VSS efficace:

Incorporamenti vettoriali: gli incorporamenti rappresentano diversi tipi di dati in un formato matematico, ad esempio un array ordinato o un insieme di numeri. Identificano modelli nei dati utilizzando calcoli matematici.
Metriche di distanza o somiglianza: si tratta di funzioni matematiche che calcolano quanto sono simili o strettamente correlati due vettori.
Algoritmi di ricerca: gli algoritmi aiutano a trovare vettori simili a una determinata query di ricerca. Ad esempio, l’algoritmo K-Nearest Neighbors o KNN viene spesso utilizzato nei sistemi di ricerca abilitati per VSS per determinare i vettori K in un set di dati che sono più simili a una determinata query di input.
Ora, discutiamo di come funzionano questi componenti in un sistema di ricerca.

Come funziona la ricerca per somiglianza vettoriale?
Il primo passaggio nell’implementazione della ricerca per similarità vettoriale consiste nel rappresentare o descrivere gli oggetti nel corpus di dati come incorporamenti vettoriali. Utilizza diversi metodi di incorporamento di vettori, come GloVe , Word2vec e BERT , per mappare gli oggetti nello spazio vettoriale. 

Per ogni formato di dati, come testo, audio e video, VSS crea diversi modelli di incorporamento, ma il risultato finale di questo processo è una rappresentazione di matrice numerica. 

Il passaggio successivo consiste nel creare un indice in grado di disporre insieme oggetti simili utilizzando queste rappresentazioni numeriche. Un algoritmo come KNN funge da base per implementare la somiglianza di ricerca. Tuttavia, per indicizzare termini simili, i sistemi di ricerca utilizzano approcci moderni, come Locality Sensitive Hashing (LSH) e Approximate Nearest Neighbor (ANNOY) . 

Inoltre, gli algoritmi VSS calcolano una misura di somiglianza o di distanza, come la distanza euclidea, la somiglianza del coseno o la somiglianza di Jaccard, per confrontare tutte le rappresentazioni vettoriali nella raccolta di dati e restituire un contenuto simile in risposta a una query dell’utente.

Principali sfide e vantaggi della ricerca per somiglianza vettoriale
Nel complesso, l’obiettivo è trovare caratteristiche comuni tra gli oggetti di dati. Tuttavia, questo processo presenta diverse sfide potenziali.

Principali sfide dell’implementazione di VSS
Diverse tecniche di incorporamento di vettori e misure di somiglianza presentano risultati diversi. La scelta delle configurazioni appropriate per i sistemi di ricerca per similarità è la sfida principale.
Per set di dati di grandi dimensioni, VSS è computazionalmente costoso e necessita di GPU ad alte prestazioni per creare indici su larga scala.
I vettori con troppe dimensioni potrebbero non rappresentare accuratamente la struttura e le connessioni autentiche dei dati. Pertanto, il processo di incorporamento del vettore deve essere privo di perdite, il che rappresenta una sfida.
Attualmente, la tecnologia VSS è in continuo sviluppo e miglioramento. Tuttavia, può ancora offrire molti vantaggi per l’esperienza di ricerca di un’azienda o di un prodotto.

Vantaggi di VSS
VSS consente ai sistemi di ricerca di individuare oggetti simili in modo incredibilmente veloce su vari tipi di dati.
VSS garantisce una gestione efficiente della memoria poiché converte tutti gli oggetti di dati in incorporamenti numerici che le macchine possono facilmente elaborare.
VSS può classificare oggetti su nuove query di ricerca che il sistema potrebbe non aver rilevato dai consumatori.
VSS è un metodo eccellente per gestire dati scadenti e incompleti perché può trovare oggetti contestualmente simili anche se non corrispondono perfettamente.
Soprattutto, può rilevare e raggruppare oggetti correlati su larga scala (volumi di dati variabili).
Principali casi d’uso aziendale della ricerca per somiglianza vettoriale
Nel settore commerciale, la tecnologia VSS può rivoluzionare un’ampia gamma di settori e applicazioni. Alcuni di questi casi d’uso includono:

Risposta alle domande: la ricerca per somiglianza vettoriale può individuare domande correlate nei forum di domande e risposte che sono quasi identiche, consentendo risposte più precise e pertinenti per gli utenti finali.
Ricerca web semantica: la ricerca per somiglianza vettoriale può individuare documenti o pagine Web correlati a seconda della “vicinanza” delle loro rappresentazioni vettoriali. Ha lo scopo di aumentare la pertinenza dei risultati di ricerca web.
Raccomandazioni sui prodotti: la ricerca per somiglianza vettoriale può fornire raccomandazioni personalizzate sui prodotti in base alla cronologia di navigazione o di ricerca del consumatore.
Migliore erogazione dell’assistenza sanitaria: i ricercatori e gli operatori sanitari utilizzano la ricerca per somiglianza vettoriale per ottimizzare gli studi clinici analizzando le rappresentazioni vettoriali della ricerca medica pertinente.
Oggi non è più possibile gestire, analizzare e ricercare i dati utilizzando tecniche convenzionali basate su SQL. I consumatori di Internet pongono domande complesse sul Web, apparentemente semplici per gli esseri umani ma incredibilmente complesse da interpretare per le macchine (motori di ricerca). È una sfida di lunga data per le macchine decifrare diverse forme di dati in un formato comprensibile dalla macchina. 

La ricerca per somiglianza vettoriale consente ai sistemi di ricerca di comprendere meglio il contesto delle informazioni commerciali.

 Haziqa Sajid da unite.ai

Di ihal