Uno dei problemi più costosi nell’adozione enterprise dei modelli linguistici è l’aggiornamento continuo della conoscenza. Ogni volta che cambiano documentazione, procedure interne, dati di prodotto o informazioni di dominio, le aziende devono scegliere tra fine-tuning, sistemi RAG sempre più complessi oppure nuove sessioni di addestramento. Ognuna di queste soluzioni introduce limiti in termini di costi, latenza, manutenzione o rischio di degradazione delle capacità del modello.

MeMo (Memory as a Model), sviluppato da ricercatori di MIT, NUS, A*STAR e SMART, propone un’architettura differente: la memoria viene separata dal motore di ragionamento. Invece di modificare il modello principale, la nuova conoscenza viene codificata in un modello dedicato chiamato MEMORY, mentre il modello che genera le risposte, definito EXECUTIVE, rimane invariato e continua a operare come componente di reasoning.

L’approccio consente di integrare nuove informazioni senza accedere ai pesi del modello principale e senza dipendere da specifiche architetture. Il sistema può infatti essere utilizzato sia con modelli open source sia con modelli proprietari accessibili esclusivamente tramite API.

La costruzione della memoria avviene attraverso una pipeline in cinque fasi che trasforma un corpus documentale in un insieme di rappresentazioni domanda-risposta progettate per catturare relazioni, inferenze e collegamenti tra documenti differenti. Il MEMORY model apprende queste rappresentazioni tramite supervised fine-tuning, mentre in fase di utilizzo il modello EXECUTIVE scompone le richieste complesse in una serie di interrogazioni mirate verso la memoria, recuperando progressivamente gli elementi necessari alla risposta finale.

Nei benchmark BrowseComp-Plus, NarrativeQA e MuSiQue, MeMo ha mostrato prestazioni competitive rispetto ai principali sistemi di retrieval e una particolare resistenza al rumore documentale. Un risultato interessante riguarda la possibilità di sostituire il modello EXECUTIVE con uno più avanzato senza dover riaddestrare la memoria: nei test il passaggio da Qwen2.5-32B-Instruct a Gemini-3-Flash ha prodotto incrementi prestazionali fino al 26% mantenendo invariato il MEMORY model.

La ricerca introduce inoltre un meccanismo di aggiornamento incrementale tramite model merging. Nuovi corpus possono essere trasformati in modelli di memoria separati e successivamente combinati senza dover ripetere l’addestramento completo dell’intero sistema. Questo riduce significativamente il costo computazionale delle operazioni di aggiornamento e rende più praticabile la gestione di basi di conoscenza in continua evoluzione.

Il lavoro evidenzia una tendenza sempre più evidente nel settore: la memoria sta diventando un componente architetturale autonomo, distinto dal modello di ragionamento. Invece di concentrare tutto all’interno dei parametri di un singolo LLM o di affidarsi esclusivamente al retrieval esterno, i nuovi sistemi stanno sperimentando modelli specializzati dedicati alla conservazione, organizzazione e aggiornamento della conoscenza.

Di Fantasy