Dietro il modello di Goldman Sachs che predice il vincitore di Euro 2020
Il modello di previsione ha elaborato i dati di circa 6.000 partite di calcio giocate dal 1980.
“Sta (probabilmente) tornando a casa”, ha detto Christian Schnittker di Goldman Sachs sulle possibilità dell’Inghilterra di vincere Euro 2020 (il torneo è stato rimandato di un anno a causa della pandemia). Tre tifosi del Lion speravano che Goldman Sachs avrebbe fatto bene al terzo giro e che l’Inghilterra avrebbe vinto la coppa (l’Euro è andato a Roma).
Il modello di previsione ha elaborato i dati di circa 6.000 partite di calcio giocate dal 1980 e ha preso in considerazione fattori come la forza attuale della squadra, le prestazioni recenti, il vantaggio in casa, ecc.
Pronostico Euro 2020
Il modello di previsione di Goldman Sachs ha eseguito i seguenti passaggi:
L’algoritmo inizia modellando il numero di goal di ciascuna squadra utilizzando un ampio set di dati di partite di calcio internazionali. Il numero di obiettivi fornisce le seguenti informazioni:
La forza della squadra si misura con il World Football Elo Rating. Il sistema di valutazione Elo calcola i livelli di abilità relativi dei giocatori nei giochi a somma zero come gli scacchi. Questa classifica Elo non includeva le informazioni sui singoli giocatori per il modello di Goldman Sachs, ma era altamente correlata con altre metriche come le classifiche FIFA e i valori di trasferimento stimati delle squadre.
Gol fatti e subiti nelle ultime cinque partite: questi dati aiutano a catturare lo slancio di una squadra nella fase di preparazione o durante la Coppa dei Campioni.
Il vantaggio in casa è un fattore fondamentale nel numero di gol segnati. La squadra di Goldman Sachs ha scoperto che, in media, la squadra di casa ha segnato 0,4 gol in più. Con questo, l’Inghilterra sembra avere un vantaggio poiché sia le semifinali che le finali sono ospitate a Wembly.
L’effetto del torneo – riferito ai paesi (Croazia, Paesi Bassi e Germania) che superano il loro peso rispetto alle valutazioni Elo nei tornei principali – è un altro parametro cruciale.
Goldman Sachs ha affermato che, mentre il modello di previsione cattura la natura stocastica del torneo, le previsioni sono “altamente incerte” poiché il calcio è un gioco imprevedibile.
Terza volta fortunato?
Nel 2018, Goldman Sachs ha ideato un modello statistico basato sull’apprendimento automatico per prevedere i risultati della Coppa del Mondo. La previsione è fallita.
Il sistema di intelligenza artificiale ha eseguito una simulazione di un milione di possibilità e variazioni. Originariamente prevedeva che Germania e Brasile si sarebbero affrontate in finale, ma la prima è uscita anticipata. Il sistema AI ha quindi concluso che l’Inghilterra sarebbe stata la seconda finalista e il Brasile avrebbe vinto la coppa. La previsione del sistema AI è fallita in modo imbarazzante poiché Francia e Croazia erano le due finaliste, con la Francia che si è portata a casa la corona.
Nel 2014, Goldman Sachs ha utilizzato un modello statistico più semplice e meno ambizioso per prevedere i risultati della Coppa del Mondo 2014. Ha utilizzato meno parametri come il numero di gol segnati nelle ultime dieci partite internazionali ufficiali e le classifiche delle squadre. Anche il modello non è riuscito a fare previsioni accurate.
Oltre a Goldman Sachs, anche USB e ING si sono cimentati con previsioni basate su modelli, ma senza successo. Tuttavia, la banca giapponese Nomura ha fatto una previsione di successo in FIFA 2018. La banca ha utilizzato la teoria del portafoglio (profilazione delle squadre sulla base del valore dei giocatori, lo slancio delle prestazioni della squadra e le prestazioni storiche) per prevedere la Francia come vincitrice. Tuttavia, la banca ha sbagliato il secondo classificato.
Perché è difficile fare previsioni?
L’avvento dell’apprendimento automatico e dell’analisi dei dati ha reso entusiasmante il gioco delle previsioni. I predittori analizzano i dati storici, eseguono simulazioni e utilizzano tecniche statistiche all’avanguardia per prevedere i risultati delle partite.
I programmatori e i ricercatori di intelligenza artificiale si affidano a dati quantificabili per fare osservazioni. Se i dati non sono autentici, i risultati sono destinati ad essere imprecisi. Inoltre, i modelli non possono tenere conto di variabili intangibili (leggi non quantificabili) come dinamiche di squadra, emozioni dei giocatori, sentimenti dei fan, ecc.
Gli esperti ritengono che le previsioni per le partite di calcio siano intrinsecamente complesse, rispetto ad altri giochi. Il direttore dell’analisi di Merkle, Debs Balme, ha dichiarato in un’intervista: “Per sport come il baseball o il basket in cui ci sono molte partite contro la stessa opposizione, è una soluzione più facile da prevedere, poiché sono disponibili più dati. Ad esempio, i giocatori di baseball giocano 162 partite a stagione. E i Mets e gli Yankees si sono giocati 115 volte. Quindi c’è più storia delle prestazioni [rispetto alla Coppa del Mondo] e una maggiore ricchezza di dati per poter fare previsioni più accurate”.