Quando un agente AI lavora, non produce solo una risposta: dialoga con strumenti, chiede funzioni, invia e riceve dati strutturati. Giudicarlo solo dal risultato finale è un po’ come valutare un’orchestra ascoltando l’ultimo accordo, senza sapere se durante il concerto ci siano stati inciampi, cambi di tempo, errori salvati all’ultimo momento.
MCPEval, il toolkit open source presentato da Salesforce, nasce per rimettere al centro questa dinamica interna. Lo fa appoggiandosi a MCP, il Model Context Protocol introdotto da Anthropic, che definisce un modo standard e rigoroso per far parlare agenti e tool: richieste e risposte JSON con specifiche precise, capacità dichiarate, contesti condivisi in modo tracciabile.
È grazie a questo linguaggio comune che MCPEval può generare automaticamente task complessi, farli eseguire all’agente e registrare ogni scambio come se stesse stenografando una conversazione tecnica.
Da quel verbale dettagliato non esce solo un sì o un no sull’esito del compito, ma un’intera batteria di metriche: quante chiamate sono state necessarie, con che latenza, quante volte l’agente ha sbagliato formato, quante ha dovuto ritentare, quanto è costato in token completare la procedura. Questi numeri diventano dashboard, alert, dataset per allenare verificatori o per capire dove si inceppa il flusso.
Adottare MCPEval significa prima di tutto uniformare gli strumenti al protocollo MCP o costruire adapter che traducano le chiamate esistenti; poi significa schedulare esecuzioni periodiche, come si fa con i test di regressione, per accorgersi quando qualcosa degrada.
È una forma di osservabilità che sposta l’attenzione dalla sola “risposta giusta” al “come ci sei arrivato”: un cambio di mentalità indispensabile in un’epoca in cui gli agenti non sono più semplici completatori di testo, ma operatori in un sistema complesso. Guardare dentro il protocollo è, in fondo, un atto di trasparenza: serve a fidarsi non della magia, ma del meccanismo che la rende possibile.