Immagine AI

Negli ultimi mesi è diventato sempre più evidente un limite strutturale degli agenti di intelligenza artificiale basati su grandi modelli linguistici: funzionano bene in ambienti controllati, ma faticano quando vengono calati in contesti reali, complessi e dinamici. Non si tratta solo di errori occasionali, ma di una difficoltà più profonda legata alla capacità di adattarsi ai compiti, agli strumenti e alle condizioni operative. Proprio per affrontare questo problema, un gruppo di ricercatori provenienti da Stanford University, Harvard University, University of California, Berkeley e California Institute of Technology ha presentato un framework unificato che ridefinisce il concetto di “adattamento” negli agenti di IA. Il lavoro, intitolato Adapting Agentic AI, propone una visione sistematica di come questi sistemi dovrebbero evolvere per migliorare prestazioni, affidabilità e versatilità.

Il punto di partenza della ricerca è una constatazione semplice ma cruciale: l’intelligenza artificiale non migliora solo aumentando i parametri o la potenza di calcolo, ma soprattutto adattandosi ai compiti che deve svolgere. In questo contesto, l’uso efficace degli strumenti diventa centrale. Gli agenti non sono più visti come modelli monolitici che rispondono a input testuali, ma come sistemi composti da più parti che cooperano tra loro per interagire con il mondo esterno.

I ricercatori descrivono l’agente come formato da tre moduli fondamentali. Il primo è il modulo di pianificazione, che risponde alla domanda “che cosa dovremmo fare?” e scompone un obiettivo complesso in una sequenza di azioni. Il secondo è il modulo di utilizzo degli strumenti, che permette all’IA di uscire dal proprio perimetro testuale e interagire con risorse esterne come motori di ricerca, API, ambienti di esecuzione del codice o browser automatizzati. Il terzo è il modulo di memoria, che conserva sia informazioni a breve termine, come il contesto di una conversazione recente, sia conoscenze accumulate nel tempo, rendendole recuperabili quando servono.

Quando i ricercatori parlano di “adattamento”, si riferiscono al processo di regolazione di questi moduli affinché lavorino meglio insieme. Questo può avvenire modificando il modo in cui vengono formulati i prompt, intervenendo su parametri interni o applicando tecniche di apprendimento specifiche. Tra queste rientrano la messa a punto supervisionata, che insegna al modello fornendo risposte corrette, l’apprendimento basato sulle preferenze, che favorisce risposte migliori rispetto ad altre, l’apprendimento per rinforzo, che utilizza meccanismi di ricompensa, e tecniche come LoRA, pensate per ottenere miglioramenti significativi con modifiche minime. Attraverso questi aggiustamenti, l’agente può trasformarsi da sistema fragile a entità più stabile e coerente.

Per rendere più chiaro come avvenga questo adattamento, il framework introduce due domande guida. La prima è cosa convenga cambiare: l’agente stesso, inteso come “cervello” del sistema, oppure gli strumenti che utilizza per cercare informazioni, calcolare o ricordare. La seconda riguarda il criterio di successo: valutare il processo, come l’uso corretto di uno strumento, oppure concentrarsi esclusivamente sulla qualità della risposta finale. Incrociando queste due dimensioni, emergono quattro approcci distinti all’adattamento.

Nel primo approccio, definito A1, l’agente impara dall’uso degli strumenti e dai risultati che ottiene. Il successo viene misurato osservando se lo strumento ha effettivamente svolto bene il proprio compito, ad esempio recuperando informazioni pertinenti o eseguendo correttamente del codice. In questo caso, l’apprendimento avviene replicando solo gli esempi riusciti, rafforzando il legame tra azione e risultato corretto. È un metodo che mira a migliorare direttamente il comportamento operativo dell’agente.

Il secondo approccio, A2, ignora invece il processo e valuta solo l’output finale. L’agente viene premiato se la risposta è corretta, indipendentemente da come ci sia arrivato. Questo può portare a situazioni in cui l’IA migliora le proprie prestazioni senza utilizzare realmente gli strumenti disponibili, motivo per cui questo metodo viene spesso affiancato da incentivi aggiuntivi che spingono comunque all’uso di risorse esterne.

Il terzo approccio, T1, sposta l’attenzione dagli agenti agli strumenti. Qui l’agente resta invariato, mentre vengono migliorati i tool, ad esempio rendendo più accurato un motore di ricerca o più affidabile un sistema di ordinamento dei risultati. Il vantaggio di questa strategia è la riusabilità: uno strumento migliorato può essere impiegato da molti agenti diversi, non solo in una singola applicazione.

Il quarto approccio, T2, è particolarmente rilevante negli ambienti reali, dove spesso si utilizzano modelli chiusi e molto potenti che non possono essere modificati internamente. In questo caso, l’agente resta fisso e si addestrano gli strumenti in modo che producano output migliori per l’agente stesso. È una strategia pragmatica, che consente di aumentare la qualità delle risposte senza toccare il modello di base.

All’interno di questa logica, la memoria a lungo termine viene considerata un caso speciale dell’approccio T2. Invece di essere integrata direttamente nel modello, la memoria viene collocata in un archivio esterno. L’agente rimane invariato, ma impara a scrivere e recuperare informazioni da questo deposito in modo più efficiente. Migliorando il meccanismo di ricerca e pianificazione della memoria, le capacità complessive dell’IA possono crescere in modo significativo, senza intervenire sul “cervello” centrale.

Di Fantasy