Immagine AI

Le architetture tradizionali di tipo retrieval-augmented generation, pur migliorando la qualità delle risposte grazie all’accesso a basi di conoscenza esterne, introducono ritardi incompatibili con una conversazione naturale in tempo reale. La proposta di Salesforce, denominata VoiceAgentRAG, è progettata per superare questo problema attraverso una nuova architettura a doppio agente che separa il recupero delle informazioni dalla generazione della risposta.

Il problema principale riguarda il tempo necessario per eseguire le operazioni di retrieval. Nei sistemi RAG tradizionali, la pipeline prevede l’elaborazione della query, il calcolo degli embedding, la ricerca nel database vettoriale e la generazione della risposta. Questo processo introduce un ritardo significativo, con tempi di sola interrogazione del database compresi tra 50 e 300 millisecondi, ai quali si aggiunge il tempo di inferenza del modello linguistico, superando la soglia di circa 200 millisecondi considerata necessaria per un dialogo naturale.

VoiceAgentRAG affronta il problema introducendo una struttura definita “dual-agent”, composta da due componenti con ruoli distinti. Il primo, chiamato Fast Talker, gestisce l’interazione diretta con l’utente e utilizza una cache semantica locale per fornire risposte immediate. Il secondo, denominato Slow Thinker, opera in background analizzando il contesto della conversazione e anticipando le possibili domande future, recuperando preventivamente le informazioni rilevanti e inserendole nella cache.

Questa separazione funzionale introduce un cambio di paradigma rispetto alle pipeline sequenziali. Il sistema non attende più la domanda per avviare la ricerca, ma prevede le informazioni necessarie sulla base del contesto e le prepara in anticipo. Quando l’utente formula una richiesta, il Fast Talker può quindi rispondere immediatamente utilizzando dati già disponibili nella cache, eliminando il tempo di retrieval.

La cache semantica rappresenta l’elemento chiave dell’architettura. Essa memorizza informazioni indicizzate per significato, permettendo un accesso quasi istantaneo. Quando la cache contiene già il contenuto necessario, il tempo di risposta può scendere a circa 0,35 millisecondi. Questo valore rappresenta una riduzione drastica rispetto ai tempi medi di ricerca tradizionali, consentendo una conversazione fluida anche in scenari complessi.

Il ruolo del Slow Thinker è particolarmente rilevante perché introduce un meccanismo di pre-fetching basato sul contesto. Analizzando l’andamento della conversazione, l’agente predice le possibili domande successive e recupera in anticipo i documenti pertinenti. Questo processo avviene in parallelo rispetto all’interazione con l’utente, evitando di bloccare il flusso conversazionale.

L’architettura utilizza quindi due strategie principali: pre-fetching e parallelizzazione. La prima anticipa il recupero dei dati, la seconda consente di eseguire simultaneamente analisi e interazione. Questa combinazione riduce il tempo percepito dall’utente e migliora la continuità della conversazione vocale.

I risultati sperimentali riportati mostrano un miglioramento significativo. In test condotti su 200 query e 10 scenari, il sistema ha raggiunto un tasso di hit della cache di circa il 75%, che aumenta fino all’80% con il proseguire della conversazione e può arrivare al 95% in contesti specifici. Quando la cache viene utilizzata, il tempo di risposta si riduce da circa 110 millisecondi a 0,35 millisecondi, corrispondente a un miglioramento fino a 316 volte.

L’approccio è progettato per integrarsi con diversi ecosistemi AI. L’architettura è compatibile con modelli linguistici di vari fornitori e può essere combinata con sistemi di riconoscimento vocale, sintesi vocale e database vettoriali. Questa modularità consente l’adozione in contesti diversi, dai call center agli assistenti vocali in tempo reale.

VoiceAgentRAG rappresenta una transizione verso sistemi di orchestrazione multi-agente. Invece di utilizzare un singolo modello per tutte le operazioni, il sistema distribuisce le funzioni tra componenti specializzati. Questa strategia migliora la scalabilità e consente ottimizzazioni mirate per ciascun ruolo.

Di Fantasy