In un mondo dell’intelligenza artificiale dove ogni nuova versione di modello dichiara di essere più “smart”, più sicuro, più capace, c’è un problema che spesso resta nell’ombra: come facciamo a sapere davvero quali modelli funzionano meglio nella vita reale, per le persone reali, con esigenze concrete, background diversi, età, lingue, professioni differenti?
Scale AI ha deciso di affrontare proprio questa domanda con il suo nuovo sistema chiamato SEAL Showdown. Non solo una classifica, ma qualcosa pensato per essere più rappresentativo, più trasparente, incentrato sui “giudici” reali: utenti provenienti da molte nazioni, con età, professioni e lingue diverse, che usano i modelli per conversazioni vere, non solo test accademici.
SEAL Showdown è una estensione dei SEAL Leaderboards di Scale AI (SEAL = Safety, Evaluations and Alignment Lab). La sua novità principale è che offre classifiche basate su preferenze umane reali, raccolte da conversazioni di tutti i giorni, non da test sintetici o situazioni studiate ad hoc.
Ecco cosa lo rende diverso:
- Partecipazione ampia e diversificata: utenti da oltre 100 Paesi, parlanti di decine di lingue, che appartengono a centinaia di domini professionali. Scale verifica per ogni partecipante dati come Paese, lingua, età, livello educativo, professione.
- Segmentazione dei risultati: non è solo “chi è al primo posto globalmente”, ma puoi guardare come performano i modelli per gruppi specifici: per età, per professione, per lingua, per paese. Questo permette a ognuno — utenti, aziende — di vedere quale modello è più adatto per il proprio profilo.
- Metodo di voto blindato e autentico: durante conversazioni con i modelli, agli utenti viene chiesto periodicamente di confrontare risposte tra modelli (“side-by-side”). Questo è fatto in modo anonimo, senza sapere quale modello è quale durante il confronto, per evitare bias. Le opzioni non sono forzate: l’utente può scegliere oppure saltare la preferenza.
- Controllo degli elementi stilistici: Scale ha introdotto controlli per elementi come la lunghezza della risposta, il formato (es. Markdown), il tempo di loading, per evitare che un modello “vinca” solo perché le risposte sono più lunghe o più decorate, non perché sono effettivamente migliori dal punto di vista del contenuto.
Il SEAL Showdown è appena partito, ma qualche risultato già emerge in maniera interessante: al momento del lancio, GPT-5 Chat risulta in cima alla classifica. Subito dopo vengono Claude Opus 4.1 e Claude Sonnet 4. Modelli come Gemini 2.5 Pro figurano anch’essi, ma non ai primissimi posti.
Alcune differenze notevoli nei diversi gruppi demografici: per esempio, utenti sopra i 50 anni sembrano valutare “Gemini” più positivamente rispetto a utenti più giovani. Anche la performance di ChatGPT emerge bene in certe categorie come brainstorming e classificazione. Claude (Anthropic) guadagna punti nelle aree di scrittura o ragionamento.
Questo sistema introduce qualcosa che mancava: trasparenza e contestualizzazione reale. Fino ad ora, molte classifiche si basavano su test molto specializzati (matematica, codifica, risposte strutturate), gruppi di utenti appassionati o esperti, che non rappresentano la pluralità di usi del mondo reale e metriche aggregate, che nascondono differenze importanti fra regioni, lingue, età, professioni
SEAL Showdown cerca di essere utile non solo per chi costruisce modelli, ma per chi li sceglie: aziende, team, sviluppatori che vogliono capire “quale modello va meglio per la mia utenza” invece di “quale modello è il più alto in classifica globale”. Inoltre, il fatto che il risultato sia continuamente aggiornato, basato su conversazioni reali, preferenze reali, voti effettivi, aiuta a capire non solo “modello perfetto teorico” ma “modello che piaccia e serva davvero”.
Non tutto è risolto, e alcuni aspetti andranno seguiti con attenzione:
-Squilibri di campione: anche se Scale cerca una base ampia e diversificata, è possibile che alcune regioni, lingue, professioni siano sottorappresentate. I risultati per quei segmenti potrebbero essere meno affidabili.
- Tipologia dei prompt / conversazioni: molte delle domande/usi emergono nel contesto “conversazioni generiche”, chat, domande aperte. Per compiti tecnici, specialistici, o altamente regolamentati, potrebbe esserci bisogno di valutazioni specifiche.
- Effetti stilistici residui: anche con controlli, elementi come tono, formato, la “chiarezza narrativa” possono influire molto su cosa piaccia agli utenti, non necessariamente su accuratezza, affidabilità o sicurezza del contenuto.
- Tempi di latenza e costi reali: nel valutare quale modello usare significherà anche considerare velocità, costo del modello, disponibilità nella propria lingua, infrastruttura.