Nel cuore della rapida evoluzione dell’intelligenza artificiale generativa, uno dei nodi più critici riguarda il modo in cui valutiamo le prestazioni dei modelli linguistici. Per anni, i sistemi di benchmark si sono affidati a test in laboratorio, dataset statici e scenari controllati – strumenti utili, certo, ma spesso disconnessi dalla complessità del mondo reale. È in questo contesto che nasce Inclusion Arena, una piattaforma ideata da Inclusion AI, legata al gruppo Alibaba–Ant Group, che propone un approccio completamente diverso: un leaderboard “dal vivo”, basato su dati realmente prodotti all’interno delle applicazioni in uso quotidiano.
Tradizionalmente, i modelli linguistici venivano confrontati su dataset predefiniti oppure mediante crowdsourcing, come accade per piattaforme quali MMLU o Chatbot Arena. Ma questi metodi tendono a catturare solo una porzione del comportamento reale dei modelli, trascurando elementi fondamentali come contesto dinamico, interazione multipla e preferenze d’uso individuali. I risultati apparsi in laboratorio, insomma, possono risultare artefatti rispetto al mondo reale.
Inclusion Arena rompe questa dinamica: il benchmark viene incorporato direttamente in app reali – per ora, si parla di due esperienze principali: una chat a tema (Joyland) e una piattaforma educativa (T‑Box). Quando un utente interagisce con queste app, le sue richieste vengono inviate a più modelli in parallelo. L’utente, ignaro del modello che ha prodotto ciascuna risposta, esprime una preferenza tra le opzioni ricevute, generando un confronto “one vs one” che diventa parte di un sistema di ranking “dal vivo”.
Per trasformare queste preferenze in una classifica coerente, Inclusion Arena si affida al modello di Bradley‑Terry, un metodo statistico noto per derivare capacità latenti da confronti a coppie. Ma l’innovazione non si ferma qui: per gestire l’integrazione di nuovi modelli, è stato introdotto il meccanismo chiamato Placement Match, utile a stimare rapidamente il posizionamento iniziale di un modello nuovo. Inoltre, la modalità di Proximity Sampling favorisce i confronti tra modelli simili – una strategia che massimizza il valore informativo di ogni confronto e aiuta a stabilizzare la classifica.
Fino a luglio 2025, l’esperimento ha raccolto oltre 500.000 confronti diretti tra modelli. I due contesti applicativi ospitano oltre 46.600 utenti attivi; i primi dati indicano che al vertice si posizionano modelli come Anthropic Claude 3.7 Sonnet, DeepSeek v3‑0324, Claude 3.5 Sonnet, DeepSeek v3 e Qwen Max‑0125. Sono risultati illuminanti, perché mostrano quali modelli realmente convincono gli utenti in situazioni concrete.
Inclusion Arena è ancora agli albori, con uno sviluppo frammentato nei primi due contesti applicativi. Tuttavia, i ricercatori puntano a costruire una alleanza aperta che allarghi il numero di applicazioni integrate, e permetta quindi un ecosistema più ricco e rappresentativo. In futuro, potrebbero emergere classi di classifiche dedicate (per app o per dominio), così da fornire valutazioni più contestualizzate e precise – un percorso fondamentale verso un test più “pratico” e meno astratto.
Questo approccio rappresenta un cambio di paradigma. Non più modelli valutati solo nel laboratorio, ma modelli giudicati da utenti reali, con dialoghi reali e preferenze reali. Le implicazioni sono enormi: sviluppatori e imprese otterranno strumenti decisionali più affidabili. I modelli potranno essere migliorati laddove davvero serve: nelle risposte che piacciono, che risultano utili, che creano valore. L’obiettivo non è più imporre che un LLM sia innovativo, ma che sia efficace, utile, apprezzato nel concreto.