Immagine AI

Un assistente digitale che, come una persona curiosa, raccoglie esperienza mentre lavora, e che adatta le proprie decisioni future sulla base di ciò che ha imparato—tutto senza toccare una sola impalcatura interna. Non serve una costosa fase di riaddestramento: basta una memoria vivente, dinamica, che custodisce ogni successo come un piccolo tesoro. Questo non è un sogno futuristico, ma l’essenza di Memento, il nuovo framework sviluppato da UCL e Huawei Noah’s Ark Lab, che permette ai modelli linguistici di evolversi davvero… ma senza modificare il modello stesso.

Gli agenti IA finora si muovono dentro due paradigmi, entrambi limitati. Da un lato, ci sono agenti costruiti su workflow rigidi, che “sanno” fare bene solo ciò per cui sono programmati e faticano di fronte a novità. Dall’altro, abbiamo il fine-tuning: reinventare il modello tramite dati nuovi, ma a costo di elevati investimenti computazionali e con il rischio di compromettere le conoscenze acquisite precedentemente. Memento propone un nuovo percorso: non stravolgere, ma imparare.

Come fanno gli umani a imparare? Non cancellano pensieri precedenti: memorizzano esperienze. L’approccio Memento costruisce un “memory-augmented MDP” (un MDP arricchito di memoria), dove l’agente, invece di fare affidamento solo sull’input corrente, consulta un archivio con esperienze passate per guidare le sue azioni.

L’architettura di Memento ruota attorno a tre componenti principali:

  • Planner: un modulo alimentato da un LLM che, grazie alla memory bank, estrae casi simili del passato per costruire un prompt solido, capace di pianificare i passi necessari per il task attuale.
  • Executor: un altro LLM che agisce concretamente, seguendo la strategia delineata dal planner e interfacciandosi con strumenti esterni, grazie all’uso di Model Context Protocol (MCP), un’interfaccia che abilita la connessione a motori di ricerca, crawler, gestori di file, multimodalità, e tanto altro.
  • Case bank: l’archivio vero e proprio, che cresce man mano che l’agente lavora. Può essere di due tipi: Non-parametrico, dove i casi sono recuperati tramite somiglianza semantica (un po’ come il collaborative filtering) e Parametrico, in cui una rete leggera, tramite reinforcement learning, aiuta a gestire feedback rari nel tempo, “propagandoli” nelle giuste fasi decisionali.

Durante un task, dopo ogni sub-step, l’executor registra i risultati nel “subtask memory”, il planner ne verifica il progresso, e se necessario riformula la strategia. Quando il task si conclude, l’esperienza acquisita viene immortalata nella case bank.

Memento, usando GPT-4.1 come planner e modelli come o3 o o4-mini come executor, ha quasi raddoppiato i risultati ottenuti da metodi classici con chain-of-thought e RAG (retrieval-augmented generation) nel dataset DeepResearcher, raggiungendo un robusto F1 del 66,6 %.

Sul fronte accademico, questa visione è stata ulteriormente raffinata nel paper “AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs”. Il framework AgentFly applica lo stesso paradigma M-MDP e la memory-based learning, proponendo sia l’approccio parametrico sia quello non-parametrico, e si concretizza in prestazioni eccellenti: top-1 su GAIA validation, 66,6 % F1 su DeepResearcher, e un aumento tra 4,7 e 9,6 punti percentuali sui task “out-of-distribution”.

Di Fantasy