Guardare dentro il protocollo: MCPEval e la nuova arte di valutare gli agenti
Quando un agente AI lavora, non produce solo una risposta: dialoga con strumenti, chiede funzioni, invia e riceve dati strutturati. Giudicarlo solo dal risultato finale è un po’ come valutare…