Il 2024 si sta rivelando un anno di grande innovazione nel campo dell’intelligenza artificiale, con sviluppi significativi che stanno cambiando il panorama della ricerca e dell’applicazione dei modelli linguistici.

Claude 3 di Anthropic e Gemini 1.5 di Google stanno guidando questa trasformazione, con contesti estesi fino a 200.000 e 1 milione di token rispettivamente.

Il modello LLama 3 di Meta, in particolare, ha catturato l’attenzione della comunità sviluppatrice online, con utenti che sperimentano casi d’uso sempre più audaci, come il progetto Gradient, che ha esteso la lunghezza del contesto LLama-3 8B da 8k a oltre 1048K.

Questo ha riaccenduto il dibattito tra i sostenitori del “contesto lungo” e i sostenitori della “RAG” (Generazione Aumentata di Recupero). La RAG è stata considerata una soluzione per affrontare le sfide dei modelli linguistici lunghi, estendendo le capacità dei modelli a fonti esterne e ampliando la portata delle informazioni accessibili.

Tuttavia, con i modelli a contesto lungo che possono gestire milioni di token, alcuni si chiedono se la RAG sia ancora necessaria. Alcuni sostengono che i modelli a contesto lungo possano sostituire efficacemente la RAG, recuperando fatti specifici e ragionandoci sopra.

Tuttavia, sia la RAG che i modelli a contesto lungo presentano limitazioni. La RAG può essere costosa da eseguire su larga scala e può essere soggetta a problemi di latenza. D’altra parte, i modelli a contesto lungo possono essere distratti da contenuti irrilevanti e mostrare una diminuzione delle prestazioni con contesti più lunghi.

Alcuni sviluppatori stanno esplorando l’integrazione di entrambi i modelli per ottenere il meglio dei due mondi. Tecnologie come i Knowledge Graph e metodi come Raptor stanno migliorando le capacità di recupero della RAG, mentre i modelli a contesto lungo stanno diventando più efficienti nel trattare con documenti estesi.

In sintesi, il dibattito tra “contesto lungo” e “RAG” è ancora vivo e vegeto, ma potrebbe essere risolto attraverso l’integrazione di entrambi i modelli per creare sistemi più potenti e efficienti nel recupero e nell’analisi dei dati su larga scala.

Di Fantasy