La startup di intelligenza artificiale con sede a Toronto, Cohere, ha recentemente presentato Embed V3, la versione più recente del proprio modello di embedding destinato all’uso in ricerche semantiche e altre applicazioni che si avvalgono di modelli linguistici di grandi dimensioni (LLM).
I modelli di embedding, che convertano i dati in rappresentazioni numeriche chiamate anch’esse “embedding”, sono diventati oggetto di crescente interesse grazie al proliferare degli LLM e alla loro ampia gamma di applicazioni nel contesto aziendale.
Embed V3 si pone in concorrenza con il modello Ada di OpenAI e diverse soluzioni open source, garantendo una qualità superiore sia in termini di prestazioni che di efficienza nella compressione dei dati. Quest’ultimo sviluppo punta a contenere i costi operativi per l’uso degli LLM nel settore business.
Questi embedding giocano un ruolo cruciale in numerosi processi, come il Retrieval-Augmented Generation (RAG), una funzionalità essenziale dei LLM in ambito aziendale.
Il RAG permette agli sviluppatori di integrare contesto ai LLM durante l’esecuzione, attingendo informazioni da varie fonti quali manuali d’uso, storici di email e chat, articoli o altri documenti non inclusi nel set di dati originale utilizzato per il training del modello.
Per attuare il RAG, le aziende devono innanzitutto generare embedding dei propri documenti e immagazzinarli in un database vettoriale. All’atto di una richiesta da parte di un utente, l’IA confronta l’embedding della domanda con quelli presenti nel database, identifica i documenti più pertinenti e utilizza le informazioni ivi contenute per arricchire la risposta del LLM, fornendogli così il contesto necessario.
Il RAG si propone di superare alcune difficoltà legate all’uso degli LLM, come l’accesso a informazioni non aggiornate e la generazione di risposte inaccurati o inverosimili, un fenomeno talvolta definito “allucinazione”.
Nonostante ciò, una delle principali sfide del RAG consiste nell’individuare i documenti che meglio corrispondono alla query dell’utente.
I modelli di embedding precedenti si scontravano con problemi di dati “rumorosi”, nei quali alcuni documenti potevano non essere scansionati correttamente o risultare carenti di informazioni pertinenti. Per esempio, dinanzi a una query come “sintomi COVID-19”, modelli meno avanzati potevano dare priorità a documenti meno dettagliati semplicemente per la presenza ripetuta del termine “COVID-19”.
Al contrario, Embed V3 di Cohere è stato riconosciuto per la sua eccellente capacità di accoppiare documenti a interrogativi fornendo dettagli semantici più raffinati riguardo al contenuto dei documenti.
Nel caso dell’esempio sui “sintomi del COVID-19”, Embed V3 priorizzerebbe un documento che elenca specifici sintomi come “febbre alta”, “tosse persistente” o “perdita del senso del gusto o dell’olfatto” rispetto a un testo che si limita a menzionare l’esistenza di numerosi sintomi legati al COVID-19.
Cohere afferma che Embed V3 supera altri modelli, inclusi quelli di OpenAI, secondo i benchmark standard per la valutazione delle prestazioni degli embedding.
Embed V3 è disponibile in varie dimensioni di embedding e include una versione che supporta più lingue, capace di associare interrogativi in una lingua a documenti in un’altra. Ad esempio, può identificare documenti in francese che corrispondono a una query in inglese. Inoltre, il modello è adattabile a differenti applicazioni quali ricerca, classificazione e raggruppamento.
Secondo Cohere, Embed V3 ha dimostrato capacità superiori anche nei casi d’uso più avanzati, come nelle query RAG multi-hop. In queste situazioni, dove il prompt di un utente comprende diverse domande, il modello deve riconoscere ciascuna di esse e recuperare i documenti pertinenti separatamente.
Solitamente, questo processo richiede più passaggi di analisi e recupero, ma la qualità dei risultati forniti da Embed V3 nei primi 10 documenti recuperati riduce il bisogno di interrogazioni multiple al database vettoriale.
Embed V3 ha migliorato anche la funzione di riclassificazione, introdotta da Cohere nella sua API qualche mese fa. La riclassificazione permette alle applicazioni di ricerca di riordinare i risultati basandosi su affinità semantiche.
“Il processo di riclassificazione è particolarmente efficace per query e documenti che trattano argomenti multipli, un ambito in cui i modelli di embedding tradizionali faticano a causa della loro struttura”, ha spiegato un portavoce di Cohere a VentureBeat. “Tuttavia, la riclassificazione richiede che un insieme iniziale di documenti venga fornito come input. È quindi cruciale che i documenti più rilevanti siano inclusi in questo set preliminare. Un modello di embedding avanzato come Embed V3 assicura che nessun documento importante venga omesso.”
Embed V3 aiuta anche a ridurre i costi legati alla gestione dei database vettoriali. Il modello è stato sviluppato attraverso un processo di addestramento in tre fasi, che include una tecnica speciale basata sulla compressione. “Un aspetto fondamentale dei costi, che può essere fino a 10-100 volte maggiore rispetto al calcolo degli embedding, è rappresentato dal database vettoriale”, ha dichiarato il portavoce. “Abbiamo implementato un tipo di addestramento particolare che ottimizza i modelli per la compressione vettoriale.”
Il blog di Cohere evidenzia come questa fase di compressione assicuri che i modelli siano compatibili con le tecniche di compressione vettoriale, riducendo in modo significativo i costi del database vettoriale, potenzialmente di svariati ordini di grandezza, mantenendo al contempo un’elevata qualità di ricerca, fino al 99,99%.