Immagina di poter affrontare documenti più lunghi e complessi senza compromessi sulla velocità o sull’accuratezza: benvenuto nell’era di REFRAG (REpresentation For RAG), un framework innovativo recentemente presentato attraverso una collaborazione tra Meta’s Super Intelligence Lab (MSL), la National University of Singapore e la Rice University. L’articolo, pubblicato dall’AI Times l’8 settembre 2025, svela come questa nuova tecnologia rivoluzioni l’approccio al RAG, potenziando enormemente le sue prestazioni.

Nel cuore delle Large Language Models (LLM) c’è un limite noto quanto cruciale: man mano che il contesto si allunga — come accade durante l’attività di RAG, dove si applica la ricerca per arricchire il modello — aumenta esponenzialmente il carico computazionale. Il risultato? Ritardi, consumo di memoria e una scalabilità difficile da sostenere in applicazioni reali.

Qui entra in gioco REFRAG: suddivide i documenti recuperati in frag­menti da 16 token, che vengono compressi in embedding ad alta densità grazie a un encoder leggero. Invece di “leggere” migliaia di token, il modello lavora con sequenze compatte, riducendo la necessità di cambiare radicalmente l’architettura dei modelli esistenti.

Il risultato è sorprendente: fino a 16 volte più contesto elaborato, fino a 30,85 volte più velocità fino al primo token generato (Time to First Token, TTFT) — superando nettamente il benchmark con CEPE (Context Expansion with Parallel Encoding).

REFRAG non si limita alla compressione: un sistema di reinforcement learning (RL) filtra i frammenti più informativi, preservandoli nella forma originale per evitare perdite di precisione. Un equilibrio sofisticato fra performance e fedeltà informativa, ottenuto senza compromessi.

Il framework è stato testato su dataset e scenari reali: dall’abstract generativi a compiti multi-turno, dal sommario di testi lunghi fino a complessi input documentali. Utilizzando il corpus SlimPajama — con 20 miliardi di token di addestramento — e modelli come LLaMA-2, REFRA G ha dimostrato prestazioni superiori non solo in velocità ma anche nel mantenere, e in alcuni casi migliorare, la qualità e la complessità informativa rispetto a CEPE.

Cosa si apre all’orizzonte con REFRA G? Applicazioni su larga scala — come analisi di report aziendali, conversazioni multi-turno complesse, sistemi enterprise di ricerca conversazionale — diventano possibili senza ritardi né compromessi, grazie a efficienza, precisione e contesto esteso. Il codice sarà inoltre reso pubblico su GitHub, aprendo la strada a sperimentazione e adozione diffusa.

Di Fantasy