Immaginate un’intelligenza artificiale capace di scrivere codice, comporre testi complessi, perfino conversare con eleganza. Poi, immaginate di chiedere la stessa IA di interagire con strumenti reali—come navigare in Google Maps, manipolare repository su GitHub, consultare dati finanziari, disegnare in Blender o automatizzare un browser. Potrebbe apparire semplice, ma qui inizia la vera sfida. E secondo Salesforce AI Research, il nuovo benchmark MCP‑Universe mostra quanto GPT‑5, nonostante la sua fama, cada spesso davanti alle esigenze del mondo concreto.
I benchmark convenzionali tendono a testare le IA in ambienti controllati: seguire istruzioni, risolvere problemi logici, chiamare funzioni. Ma MCP‑Universe cambia radicalmente prospettiva. Progettato da Salesforce, questo strumento misura la capacità dei modelli di interagire effettivamente con MCP servers reali—strumenti e dati operativi che simulano scenari aziendali autentici.
I test coprono sei aree critiche:
- Navigazione geografica (con Google Maps),
- Gestione di repository (GitHub),
- Analisi finanziaria (Yahoo Finance),
- Progettazione 3D (Blender),
- Automazione browser (Playwright)
- Ricerca sul web. Sono stati creati 231 compiti reali distribuiti su 11 server veri, valutati in base all’esecuzione effettiva, non a giudizio astratto.
I risultati sono sorprendenti. GPT‑5 ha completato con successo solo il 43,7 % dei task (circa 44%). Anche altri modelli emergono in difficoltà: Grok‑4 si attesta al 33,3%, mentre Claude‑4.0‑Sonnet si ferma al 29,4%.
Questi numeri suggeriscono una discrepanza netta tra la potenza teorica dei modelli e la loro effettiva capacità operativa, quando devono davvero “muovere le mani” nel mondo digitale reale.
Secondo Junnan Li di Salesforce, le difficoltà principali sono tre:
- Contesti lunghi – Con sequenze complesse e multi-step, i modelli possono confondersi e perdere il filo del ragionamento.
- Strumenti sconosciuti – L’IA fatica ad adattarsi a strumenti nuovi o poco familiari, diversamente da un utente umano che impara rapidamente sul campo.
- Orchestrazione fragile – Anche agenti progettati per uso enterprise, come Cursor, non ottengono risultati migliori rispetto a sistemi più semplici come ReAct.
Questo benchmark lancia un chiaro avvertimento: per impieghi reali, non basta un modello potente. Occorrono piattaforme robusti, contesto dati affidabile, ragionamenti supportati e guardrail di sicurezza. Non basta adottare un modello chiuso e sperare che funzioni: serve un’architettura pensata per l’ecosistema reale.
Il tool sviluppato da Salesforce è open source, estensibile, e permette di monitorare, valutare e orchestrare agenti su sistemi reali—un passo importante verso agenti IA più affidabili nelle imprese
GitHub.
Il benchmark MCP-Universe evidenzia un crudo ma necessario realismo: anche modelli avanzati come GPT-5 restano fragili se messi alla prova nel mondo reale, fatto di tool, contesti dinamici e flussi multi-step. Se vogliamo agenti IA davvero utili—per aziende o per la vita quotidiana—dobbiamo andare oltre la potenza mostrata nei laboratori, e lavorare sull’affidabilità operativa.