Il modello di apprendimento automatico misura le prestazioni dei giocatori MLB
Un team di ricercatori del Penn State College of Information Sciences and Technology ha sviluppato un modello di apprendimento automatico in grado di misurare meglio le prestazioni a breve e lungo termine dei giocatori di baseball e delle squadre. Il nuovo metodo è stato misurato rispetto ai metodi di analisi statistica esistenti chiamati sabermetrics.
La ricerca è stata presentata in un documento intitolato “Using Machine Learning to Describe How Players Impact the Game in the MLB”.
Basandosi su PNL e Computer Vision
L’approccio del team si basava sui recenti progressi nell’elaborazione del linguaggio naturale e nella visione artificiale e potrebbe avere grandi implicazioni per il modo in cui viene misurato l’impatto del giocatore sul gioco.
Connor Heaton è un dottorando presso il College of IST.
Heaton afferma che la famiglia di metodi esistente si basa sul numero di volte in cui un giocatore o una squadra realizza un evento discreto, come un fuoricampo. Questi metodi non tengono conto del contesto di ciascuna azione.
“Pensa a uno scenario in cui un giocatore ha registrato un singolo nella sua ultima apparizione al piatto”, ha detto Heaton. “Avrebbe potuto colpire un palleggio lungo la terza linea di base, facendo avanzare un corridore dalla prima alla seconda e battere il tiro alla prima, o colpire una palla in fondo al campo sinistro e raggiungere comodamente la prima base, ma non aveva la velocità per spingere per un doppio. Descrivere entrambe le situazioni come risultanti in “una sola” è accurato ma non racconta l’intera storia”.
Il nuovo modello
Il modello di Heaton si basa sull’apprendimento del significato degli eventi di gioco, che si basa sull’impatto che hanno sul gioco e sul loro contesto. Il modello quindi vede il gioco come una sequenza di eventi per produrre rappresentazioni numeriche di come i giocatori influiscono sul gioco.
“Parliamo spesso di baseball in termini di ‘questo giocatore ha avuto due singoli e un doppio ieri.’ o “è andato uno su quattro”, ha detto Heaton. “Molti modi in cui parliamo del gioco riassumono semplicemente gli eventi con una statistica riassuntiva. “Il nostro lavoro sta cercando di ottenere un’immagine più olistica del gioco e di ottenere una descrizione computazionale più sfumata di come i giocatori influiscono sul gioco”.
Il nuovo metodo sfrutta le tecniche di modellazione sequenziale in NLP per consentire ai computer di apprendere il significato di parole diverse. Heaton ha usato questo per insegnare al suo modello il significato degli eventi nella partita di baseball, come un battitore che colpisce un singolo. Il gioco è stato quindi modellato come una sequenza di eventi.
“L’impatto di questo lavoro è la struttura proposta per quello che mi piace chiamare ‘interrogare il gioco’”, ha detto Heaton. “Lo vediamo come una sequenza in tutta questa struttura computazionale per modellare un gioco.”
Il modello è in grado di descrivere l’influenza di un giocatore sul gioco a breve termine e, se combinato con i metodi tradizionali, può prevedere il vincitore di un gioco con una precisione superiore al 59%.
Formazione del modello
I ricercatori hanno addestrato il loro modello utilizzando i dati raccolti in precedenza dai sistemi installati negli stadi di baseball della major league. Questi sistemi tengono traccia delle informazioni dettagliate per ogni campo, incluso il posizionamento del giocatore, l’occupazione della base e la velocità del campo. Sono stati utilizzati due tipi di dati. Il primo riguardava i dati passo per passo, che aiutavano ad analizzare informazioni come il tipo di passo. Il secondo riguardava i dati stagione per stagione, utilizzati per indagare su informazioni specifiche sulla posizione.
Ogni passo all’interno del set di dati raccolto aveva tre caratteristiche principali, che erano il gioco specifico, il numero di battuta all’interno del gioco e il numero di lancio all’interno della battuta. Questi dati hanno permesso ai ricercatori di ricostruire la sequenza di eventi che compongono un gioco MLB.
Per descrivere gli eventi accaduti, come sono accaduti e chi è stato coinvolto in ogni gioco, la squadra ha identificato 325 possibili cambiamenti di gioco che potrebbero verificarsi quando viene lanciato un campo. Questo è stato quindi combinato con i dati esistenti e sono stati imputati i record dei giocatori.
Prasenjit Mitra è professore di scienze e tecnologia dell’informazione, nonché coautore dell’articolo.
“Questo lavoro ha il potenziale per far avanzare significativamente lo stato dell’arte della sabermetria”, ha affermato il prof. Mitrae. “Per quanto ne sappiamo, il nostro è il primo a catturare e rappresentare uno stato sfumato del gioco e utilizzare queste informazioni come contesto per valutare i singoli eventi conteggiati dalle statistiche tradizionali, ad esempio costruendo automaticamente un modello che comprende i momenti chiave e gli eventi della frizione”.