Ogni giorno, il lessico dell’intelligenza artificiale si arricchisce di nuovi acronimi, tra cui spicca RAG, acronimo di “Retrieval Augmented Generation”. Questa innovazione non è un semplice addendum al gergo tecnologico, ma segna un avanzamento significativo nel settore dei Large Language Models (LLM).
RAG si è guadagnato un posto di rilievo in quanto fonde le qualità dei modelli basati sul recupero di informazioni con quelli generativi. In pratica, RAG si avvale dell’associazione tra un database aggiuntivo e un modello di base per recuperare e successivamente generare nuovi contenuti informativi.
Questo sistema contribuisce a minimizzare le cosiddette “allucinazioni” del modello. Solitamente, si utilizza un database vettoriale, o in certi casi, come per GPT-4, si attinge direttamente da Internet.
Durante l’evento Cypher 2023, Dhruv Motwani, fondatore e CEO di SpringtownAI, ha discusso l’applicazione di RAG, presentandone architettura e potenzialità. I partecipanti hanno avuto l’opportunità di implementare applicazioni sui propri account AWS, verificando che le allucinazioni dei modelli erano ridotte all’uso di RAG.
Mark McQuade, co-fondatore di Arcee.ai, ha condiviso una panoramica di RAG definendolo “un esercizio di ingegneria tempestiva”. Secondo McQuade, il flusso standard di RAG attuale non tiene conto del contesto specifico dei dati. Ha poi illustrato il sistema DALM, sviluppato dal suo team, che si integra al di sopra del principale LLM.
Prima di esplorare ulteriormente RAG, è fondamentale per gli sviluppatori AI conoscere le opzioni disponibili nell’addestramento dei modelli di intelligenza artificiale: possono partire da zero, raffinare un modello preesistente o optare per la generazione aumentata del recupero. Ogni metodo presenta vantaggi e svantaggi; più il modello è grande, più è suscettibile ad allucinazioni.
RAG migliora i modelli basati su recupero e generativi per dare risposte più contestualizzate. Un modello di recupero seleziona informazioni da fonti esistenti, mentre il modello generativo elabora tali dati in risposte coerenti.
Il vantaggio principale di RAG risiede nella sua capacità di produrre risposte non solo corrette ma anche naturali, piuttosto che limitarsi a ripetere dati recuperati. Questa tecnica rappresenta un asset per gli ingegneri rapidi alla ricerca di un’impostazione di base per creare sistemi RAG efficaci.
Ricercatori hanno posto a confronto RAG con LLM dotati di finestre di contesto più estese, scoprendo che in alcuni casi un RAG semplice affiancato a un LLM da 4k può eguagliare le prestazioni di un LLM con un contesto più ampio.
Malgrado i suoi indiscutibili vantaggi, è importante non trascurare il rischio di errori nel recupero delle informazioni. Philipp Schmid di Hugging Face ha introdotto Self-RAG, un metodo che insegna ai modelli quando e come recuperare le informazioni in maniera efficace.
La strada verso sistemi AI sempre più precisi è ancora lunga, ma le tecniche di ingegnerizzazione rapidi come RAG ci avvicinano sempre di più all’obiettivo di creare modelli intelligenti e affidabili.