L’ascesa degli Agenti di Intelligenza Artificiale, capaci di orchestrare complesse sequenze di azioni e interazioni con sistemi esterni, sta promettendo una profonda trasformazione nei flussi di lavoro aziendali. Al centro di questa promessa c’è il Model Context Protocol (MCP), uno standard aperto che funge da interfaccia unificata, permettendo agli agenti di connettersi a una vasta gamma di strumenti, che vanno dalle query di database alle chiamate API e all’elaborazione di file. Tuttavia, proprio il meccanismo che rende l’MCP potente – la sua capacità di rendere gli strumenti accessibili – è diventato il suo tallone d’Achille in termini di scalabilità ed efficienza dei costi.
Il problema fondamentale risiede nel modo in cui l’MCP tradizionale utilizza la finestra di contesto del Modello Linguistico di Grande Dimensione (LLM). Affinché un agente possa decidere quale strumento utilizzare, il client MCP è costretto a precaricare tutte le definizioni degli strumenti (potenzialmente centinaia o migliaia) all’interno della finestra di contesto del modello. Inoltre, l’esecuzione di un flusso di lavoro complesso richiede un’orchestrazione incessante: ogni singola chiamata a uno strumento e il relativo risultato intermedio devono essere trasmessi avanti e indietro attraverso il modello.
Questa dinamica genera due conseguenze dannose: una significativa latenza nella risposta, a causa del ciclo continuo di messaggi, e, soprattutto, un’esplosione dei costi dei token. Un esempio eclatante di tale inefficienza emerge in attività apparentemente semplici, come scaricare dei verbali di riunione da Google Drive e allegarli a Salesforce: questo workflow può arrivare a consumare oltre 50.000 token per un paio d’ore di verbali, rendendo l’automazione su larga scala economicamente insostenibile per molte imprese.
Per affrontare questo vicolo cieco, Anthropic, una delle leader nello sviluppo di LLM, ha proposto un approccio radicalmente nuovo denominato “Esecuzione del codice con MCP”. Questa metodologia sposta il fulcro dell’azione dalla semplice chiamata diretta allo strumento da parte del modello, alla scrittura e all’esecuzione di codice da parte dell’agente stesso.
Il cuore di questa trasformazione risiede nel trattare gli strumenti MCP non più come entità da descrivere nel prompt testuale, ma come API a livello di codice. L’agente di intelligenza artificiale, anziché limitarsi a interagire verbalmente con lo strumento, scrive e poi esegue codice TypeScript in un ambiente protetto (sandbox). Questo passaggio offre vantaggi sistemici ineguagliabili:
- Scoperta Intelligente degli Strumenti (File-System Based Discovery)
Un elemento chiave è la scoperta degli strumenti basata sul file system. Invece di inondare il modello con l’elenco completo di tutti gli strumenti disponibili, la piattaforma di esecuzione del codice organizza il server MCP in una struttura di directory. L’agente è così in grado di caricare selettivamente solo i moduli di cui ha bisogno per la specifica attività, eliminando la necessità di includere tutte le definizioni di strumenti non pertinenti nella finestra di contesto. Questo riduce drasticamente l’ingombro del contesto, portando a una maggiore efficienza. - Elaborazione e Sintesi dei Dati nell’Ambiente di Esecuzione
Con l’approccio basato sul codice, la gestione dei dataset voluminosi viene spostata al di fuori della finestra di contesto del modello. I grandi set di dati, come i verbali delle riunioni menzionati in precedenza, non vengono passati integralmente all’LLM. Al contrario, il codice scritto dall’agente esegue il filtraggio, l’aggregazione e la riepilogazione dei dati direttamente nell’ambiente di esecuzione. Solo l’informazione necessaria e sintetica viene poi trasmessa al modello per la decisione finale o l’azione successiva, alleggerendo drasticamente il carico sui token. - Efficienza e Complessità Logica
L’introduzione dell’esecuzione di codice permette di implementare strutture di controllo complesse – come cicli (loop), istruzioni condizionali e sofisticata gestione degli errori – direttamente all’interno del codice. Nel modello precedente, l’LLM doveva tentare di orchestrare queste strutture con ripetute e lente chiamate agli strumenti. Ora, il codice prende in carico questa complessità, riducendo significativamente la latenza e minimizzando la possibilità di errori di orchestrazione da parte del modello. - Sicurezza e Riutilizzo
L’approccio migliora anche la sicurezza e il riutilizzo. Solo i dati effettivamente necessari raggiungono il modello, e le informazioni sensibili (come indirizzi e-mail o numeri di telefono) possono essere tokenizzate ed elaborate in modo sicuro nell’ambiente di esecuzione, minimizzando il rischio di fughe di dati. Inoltre, le implementazioni di codice e i file intermedi possono essere salvati per il riutilizzo futuro, consentendo agli agenti di costruire e sfruttare competenze riutilizzabili e con stato.
I risultati di questa innovazione sono impressionanti: in un caso d’uso specifico, un workflow che in precedenza richiedeva 150.000 token è stato ridotto a soli 2.000 token, generando un risparmio sui costi che sfiora il 98,7%. Anthropic sottolinea che, sebbene la creazione di un ambiente di esecuzione del codice richieda considerazioni operative come il sandboxing e il monitoraggio delle risorse, i benefici in termini di ottimizzazione dei costi, efficienza del contesto e miglioramento della sicurezza sono evidenti e aprono una nuova era per la scalabilità degli agenti AI.