La generazione aumentata dal recupero (RAG) sta diventando un metodo sempre più popolare per integrare modelli linguistici di grandi dimensioni (LLM) con conoscenze esterne. I sistemi RAG utilizzano un modello di incorporamento per codificare i documenti in un corpus di conoscenze e selezionare quelli più pertinenti in base alla query dell’utente.

Tuttavia, i metodi di recupero tradizionali spesso non considerano dettagli specifici del contesto, che possono fare una grande differenza nei set di dati applicativi. Recentemente, i ricercatori della Cornell University hanno introdotto una nuova tecnica chiamata “incorporamenti di documenti contestuali”, che migliora le prestazioni dei modelli di incorporamento rendendoli più consapevoli del contesto in cui i documenti vengono recuperati.

L’approccio più comune per il recupero dei documenti nei sistemi RAG è l’utilizzo dei bi-encoder. In questo metodo, un modello di incorporamento crea una rappresentazione fissa di ciascun documento, che viene poi memorizzata in un database vettoriale. Durante l’inferenza, l’incorporamento della query viene calcolato e confrontato con gli incorporamenti memorizzati per trovare i documenti più pertinenti.

Sebbene i bi-encoder siano diventati popolari grazie alla loro efficienza e scalabilità, spesso incontrano difficoltà con set di dati specifici, poiché sono addestrati su dati generici. Ad esempio, in contesti specializzati, i bi-encoder possono risultare meno efficaci rispetto ai metodi statistici tradizionali, come il BM25.

John (Jack) Morris, uno studente di dottorato alla Cornell Tech e coautore del documento, ha spiegato che “più il set di dati è fuori dominio, più BM25 supera le reti neurali”. BM25 è flessibile perché calcola il peso delle parole nel contesto del corpus di dati, adattandosi così alle caratteristiche specifiche di diversi set di dati. Al contrario, i modelli di recupero basati su reti neurali impostano i pesi una volta sola, in base ai dati di addestramento.

I ricercatori della Cornell propongono due metodi complementari per migliorare le prestazioni dei bi-encoder, introducendo la nozione di contesto negli incorporamenti dei documenti.

Il primo metodo modifica il processo di addestramento del modello di incorporamento, raggruppando documenti simili prima dell’addestramento. Viene utilizzato un apprendimento contrastivo per insegnare al modello a distinguere i documenti all’interno di ciascun cluster. Questo approccio rende il modello più sensibile alle differenze sottili che sono importanti in contesti specifici.

Il secondo metodo potenzia l’architettura del bi-encoder, consentendo all’encoder di accedere al corpus durante il processo di incorporamento. Questo permette di tenere conto del contesto del documento quando si genera l’incorporamento.

Il nuovo approccio funziona in due fasi: prima calcola un embedding condiviso per il cluster di appartenenza del documento, poi combina questo embedding con le caratteristiche uniche del documento per creare un embedding contestualizzato. Questo consente al modello di catturare sia il contesto generale che i dettagli specifici di ciascun documento.

I ricercatori hanno testato il loro metodo su vari parametri di riferimento e hanno scoperto che supera costantemente le prestazioni dei bi-encoder standard, soprattutto in contesti fuori dominio. “Il nostro modello dovrebbe essere utile in qualsiasi dominio che differisca significativamente dai dati di addestramento e può rappresentare un’alternativa economica alla messa a punto di modelli di incorporamento specifici per il dominio,” ha affermato Morris.

Gli incorporamenti contestuali possono migliorare le prestazioni dei sistemi RAG in vari settori. Ad esempio, se tutti i documenti condividono una struttura simile, un modello di incorporamento tradizionale potrebbe memorizzare informazioni ridondanti. Gli incorporamenti contestuali, invece, sono in grado di riconoscere queste informazioni condivise e di eliminarle prima di decidere cosa archiviare.

I ricercatori hanno rilasciato una versione ridotta del loro modello di incorporamento di documenti contestuali (cde-small-v1), che può essere utilizzata come sostituto per strumenti open source come HuggingFace e SentenceTransformers, consentendo la creazione di incorporamenti personalizzati per diverse applicazioni.

Morris ha aggiunto che gli incorporamenti contestuali non si limitano ai modelli basati su testo, ma possono essere estesi anche ad altre modalità, come le architetture testo-immagine. C’è anche potenziale per migliorare ulteriormente questi modelli con algoritmi di clustering più avanzati e valutare l’efficacia della tecnica su scala più ampia.

Di Fantasy