Premier League ed il benchmark KellyBench: l’intelligenza artificiale non sa ancora prevedere i risultati sportivi e gestire i rischi

La rapida ascesa delle architetture basate su trasformatori ha generato un’ampia aspettativa circa la capacità dell’intelligenza artificiale di automatizzare processi decisionali complessi e sostituire l’intuizione umana in contesti ad alto rischio. Tuttavia, una recente e approfondita indagine condotta dalla startup londinese General Reasoning ha messo in luce una discrepanza significativa tra le prestazioni teoriche dei modelli e la loro applicazione pratica in scenari dinamici e incerti. Attraverso il report KellyBench, che ha simulato la stagione 2023-24 della Premier League inglese, è emerso come i sistemi più avanzati del mercato, tra cui iterazioni di punta come GPT-5.4, Claude Opus 4.6 e Gemini 3.1 Pro, fatichino a mantenere una stabilità economica quando devono gestire rischi su periodi prolungati senza accesso a dati in tempo reale.

Il cuore dell’esperimento ha posto otto sistemi di intelligenza artificiale, sia proprietari che open-source, in una condizione di isolamento informativo, fornendo loro esclusivamente dati storici e statistiche dettagliate precedenti a ogni turno di campionato. L’obiettivo tecnico richiesto non era la semplice previsione del risultato, ma la massimizzazione dei profitti e la gestione prudente del capitale attraverso strategie di scommessa sistematica. Nonostante la potenza computazionale e le capacità di analisi multimodale, i risultati hanno mostrato una tendenza generalizzata alla perdita finanziaria. Claude Opus 4.6 si è distinto come il sistema più resiliente, registrando un tasso di perdita medio dell’11%, un valore che, sebbene negativo, denota una capacità di preservazione del capitale superiore rispetto ai concorrenti, arrivando in una singola iterazione quasi al pareggio operativo.

L’analisi tecnica delle prestazioni fallimentari rivela criticità strutturali nel modo in cui l’intelligenza artificiale traduce l’analisi dei dati in azioni concrete. Il problema principale riscontrato non risiede nella comprensione delle statistiche in sé, dove i modelli eccellono, ma in una fragilità del processo logico-decisionale. Molti sistemi hanno manifestato la tendenza a investire quote eccessive del proprio budget su singoli eventi con probabilità di successo statisticamente scarse, ignorando i principi fondamentali della gestione del rischio. Questo comportamento è spesso aggravato dal fenomeno delle allucinazioni statistiche, ovvero la percezione di schemi o trend inesistenti nei dati che inducono il modello a un eccesso di sicurezza, portando a scommesse sproporzionate che esauriscono rapidamente il capitale iniziale di 100.000 sterline.

Un confronto tra i modelli più performanti, come quelli di Anthropic e OpenAI, e quelli che hanno subito il fallimento totale, come Grok 4.20, evidenzia l’importanza dell’adattabilità strategica. I sistemi che sono riusciti a evitare il collasso finanziario hanno dimostrato la capacità di riaddestrare internamente le proprie logiche di scommessa sulla base dei nuovi dati emergenti durante la stagione, applicando regole sistematiche e priorizzando la difesa del capitale rispetto al guadagno aggressivo. Al contrario, altri modelli sono stati incapaci di gestire la logica binaria dello sport professionale, dove, a differenza dei mercati azionari che permettono una diversificazione continua dei portafogli, l’evento sportivo impone una risoluzione netta che non perdona errori di sovraesposizione.

Premier League ed il benchmark KellyBench: l’intelligenza artificiale non sa ancora prevedere i risultati sportivi e gestire i rischi

DiFantasy

Di Fantasy

Articoli correlati

Manca potenza di calcolo per l’AI: perché i servizi iniziano a rallentare

OpenAI punta alle aziende con AWS Bedrock

Valutazione del ragionamento temporale negli LLM: il modello KAIST e Microsoft basato su database temporali

Ultimi Post

Manca potenza di calcolo per l’AI: perché i servizi iniziano a rallentare

OpenAI punta alle aziende con AWS Bedrock

Valutazione del ragionamento temporale negli LLM: il modello KAIST e Microsoft basato su database temporali

Calcolo orbitale e data center spaziali