Uno dei principali limiti degli agenti AI moderni riguarda la gestione della memoria durante interazioni lunghe e multi-step. Nei workflow enterprise, gli agenti tendono a perdere continuità operativa tra chiamate successive, costringendo i sistemi a reinserire continuamente contesto nei prompt oppure ad affidarsi a pipeline RAG sempre più pesanti. Per risolvere questo problema, un gruppo di ricercatori ha sviluppato Delta-Mem, un modulo di memoria persistente che aggiunge appena lo 0,12% di parametri al modello di base ma permette agli agenti di mantenere e riutilizzare informazioni storiche durante l’esecuzione.
L’approccio si differenzia dai tradizionali sistemi RAG perché non recupera continuamente blocchi testuali da database esterni per reiniettarli nel prompt. Delta-Mem utilizza invece una struttura denominata OSAM, “Online State of Associative Memory”, che comprime le interazioni precedenti in una matrice dinamica a dimensione fissa. Questa memoria viene aggiornata in tempo reale e integrata direttamente nei calcoli inferenziali del modello, consentendo all’agente di mantenere stato operativo senza espandere in modo incontrollato la finestra di contesto.
Il sistema lavora proiettando lo stato nascosto corrente del modello all’interno della matrice di memoria, recuperando segnali contestuali precedentemente appresi e trasformandoli in correzioni numeriche applicate al reasoning dell’LLM. In pratica, il modello non “rilegge” continuamente il passato, ma utilizza rappresentazioni associative persistenti che influenzano direttamente il comportamento inferenziale. Questo approccio riduce latenza, consumo di token e overhead computazionale rispetto ai sistemi basati esclusivamente su retrieval esterno.
L’aggiornamento della memoria avviene tramite un meccanismo definito “gated delta-rule”, che controlla quanto della memoria precedente venga mantenuto e quanto delle nuove informazioni venga incorporato. Il sistema effettua continuamente una correzione dell’errore confrontando le previsioni interne della memoria con i nuovi valori osservati, modificando progressivamente la matrice associativa. Questa logica permette agli agenti di mantenere continuità su task lunghi senza saturare il contesto disponibile e senza dover rieseguire retrieval completi ad ogni passaggio operativo.
I test sono stati eseguiti su modelli come Qwen3-8B, Qwen3-4B-Instruct e SmolLM3-3B, utilizzando benchmark focalizzati sia sulle capacità generali sia sulla memoria a lungo termine. Nei benchmark specifici per agenti, Delta-Mem ha mostrato miglioramenti significativi rispetto ai sistemi RAG tradizionali, ai modelli parametrici e alle architetture di memoria esterna. In alcuni task di apprendimento durante l’inferenza, le performance risultano quasi raddoppiate rispetto ai backbone standard senza memoria persistente.
Uno degli aspetti più rilevanti riguarda l’efficienza infrastrutturale. Il modulo aggiunge circa 4,87 milioni di parametri su un backbone da miliardi di parametri e mantiene quasi invariato il consumo di memoria GPU anche con prompt superiori ai 32.000 token. Questo consente di introdurre memoria persistente in agenti enterprise senza dover aumentare drasticamente i requisiti hardware o i costi inferenziali.
I ricercatori sottolineano comunque che Delta-Mem non sostituisce completamente i sistemi RAG. La memoria compressa non è lossless e può introdurre fenomeni di interferenza tra informazioni concorrenti. Per questo motivo, il modello viene descritto come una “working memory” interna adatta a mantenere continuità comportamentale, preferenze operative, stato dei task e reasoning progressivo, mentre il retrieval tradizionale continua a essere necessario per conoscenza verificabile, compliance, auditabilità e recupero preciso di documenti esterni.
