Recentemente, è stata introdotta la nuova versione di Google, Gemini 1.5, dotata di una finestra di contesto estesa a 1 milione. Questo sviluppo ha sollevato discussioni sull’attuale rilevanza della tecnica RAG (Retrieval Augmented Generation), soprattutto considerando la tendenza degli LLM (Large Language Models) a generare allucinazioni. Per risolvere questo problema, sono state proposte due soluzioni: una prevede l’ampliamento della finestra di contesto, mentre l’altra impiega RAG.
In vari test, Gemini 1.5 ha dimostrato eccellenti capacità. Ethan Mollick, professore alla Wharton, ha caricato “Il Grande Gatsby” con alcune modifiche, come la menzione di un “iPhone in una scatola” e di un “rasaerba laser”. Ha notato che Gemini 1.5 ha gestito bene il compito, mentre altri modelli come Claude hanno mostrato allucinazioni e RAG non ha funzionato bene. Mckay Wrigley ha inserito in Gemini 1.5 Pro un intero libro di testo di biologia, ottenendo risposte corrette al 100% a tre domande molto specifiche. Sully Omar, co-fondatore di Cognosys, ha lodato Gemini 1.5 Pro per aver elaborato con successo un’intera codebase da GitHub, identificando e risolvendo un problema urgente.
Questi esempi evidenziano l’efficacia di Gemini 1.5 nel recuperare informazioni cruciali all’interno di un documento, grazie alla sua ampia finestra di contesto. Tuttavia, non dimostrano i limiti di RAG. La distinzione tra finestra di contesto e RAG è ancora oggetto di confusione: la finestra di contesto si limita a informazioni in un intervallo di testo specifico, mentre RAG estende le capacità del modello a fonti esterne.
Oriol Vinyals, vicepresidente del team di ricerca e apprendimento profondo presso Google DeepMind, ha sottolineato che RAG rimane importante nonostante la capacità di gestire un milione o più token nel contesto. Ha paragonato il rapporto tra un contesto lungo e RAG al funzionamento combinato della cache L1/L2 e della memoria principale nelle CPU moderne.
Sebbene una finestra di contesto più ampia aumenti l’accuratezza e la coerenza delle risposte dei LLM, soprattutto in frasi lunghe e complesse, non elimina il problema delle allucinazioni. Una ricerca congiunta di Stanford, UC Berkeley e Samaya AI ha rilevato che i LLM sono molto precisi nel recuperare informazioni all’inizio e alla fine di un documento, ma meno nel mezzo.
Elvis Saravia, co-fondatore di DAIR.AI, ha evidenziato che i modelli a contesto lungo come Gemini 1.5 non sostituiranno RAG. Ha spiegato che mentre questi modelli sono efficaci con informazioni statiche, come libri e PDF, devono ancora essere testati su informazioni in rapida evoluzione. Ha suggerito che una combinazione di RAG e LLM a lungo contesto potrebbe creare un sistema robusto per l’analisi di informazioni storiche chiave.
Saravia ha concluso che, nonostante i progressi, siamo ancora lontani dal risolvere completamente sfide come la gestione di dati strutturati e dinamici. Ha sottolineato la necessità di diversi tipi di LLM per affrontare problemi vari, ribadendo che non esisterà un unico LLM dominante. Infine, ha affermato che, sebbene Gemini 1.5 superi altri modelli come Claude 2.1 e GPT-4 Turbo nella gestione di basi di codice e documenti, non ha eliminato la necessità di RAG.