Immagine AI

I sistemi di Retrieval-Augmented Generation (RAG) sono diventati fondamentali per migliorare l’affidabilità delle risposte fornite dai modelli linguistici di grandi dimensioni (LLM), integrando informazioni esterne recuperate da database o documenti aziendali. Tuttavia, un recente studio condotto dai ricercatori di Google ha evidenziato una problematica cruciale: anche con l’ausilio del recupero di informazioni, i modelli non sempre riescono a determinare se il contesto fornito sia sufficiente per rispondere correttamente a una domanda. Questo fenomeno porta a risposte errate o fuorvianti, compromettendo l’affidabilità dei sistemi RAG nelle applicazioni aziendali.

Il concetto di “contesto sufficiente” proposto dallo studio si riferisce alla capacità di un sistema di valutare se le informazioni recuperate siano adeguate a rispondere correttamente a una query. Quando il contesto è insufficiente, il modello dovrebbe astenersi dal fornire una risposta o richiedere ulteriori informazioni. Tuttavia, i ricercatori hanno osservato che molti LLM, tra cui quelli proprietari come Gemini, GPT e Claude, tendono a fornire risposte errate anche in presenza di un contesto insufficiente, invece di astenersi o chiedere chiarimenti. Al contrario, modelli open-source come Llama, Mistral e Gemma mostrano una maggiore propensione ad astenersi, anche quando il contesto è sufficiente.

Questa tendenza ha implicazioni significative per le applicazioni aziendali basate su RAG. In contesti come il supporto clienti, la consulenza legale o la gestione delle risorse umane, la capacità di fornire risposte accurate e contestualizzate è essenziale. La generazione di risposte errate, anche se basate su informazioni recuperate, può portare a decisioni sbagliate, perdita di fiducia da parte degli utenti e potenziali rischi legali.

Per affrontare questo problema, lo studio suggerisce l’adozione di una “generazione selettiva”. Questo approccio implica che il modello valuti se il contesto recuperato è sufficiente per rispondere correttamente alla query. Se il contesto è adeguato, il modello procede a generare una risposta; altrimenti, si astiene o richiede ulteriori informazioni. Implementando questa strategia, i ricercatori hanno osservato un miglioramento nella precisione delle risposte, con un aumento del 2-10% nella correttezza delle risposte generate da modelli come Gemini, GPT e Gemma.

Di Fantasy