Nel panorama in continua evoluzione dell’intelligenza artificiale, Salesforce AI Research ha recentemente presentato Moirai-MoE, il primo modello di serie temporali basato su una struttura “mixture-of-experts” (MoE). Questo avanzamento rappresenta un significativo passo avanti nella previsione di serie temporali, offrendo miglioramenti sostanziali rispetto ai modelli precedenti.
Il modello Moirai originale utilizzava più livelli di input/output per gestire dati di serie temporali con diverse frequenze. Moirai-MoE semplifica questo approccio adottando un singolo livello di input/output, sfruttando trasformatori MoE sparsi per catturare efficacemente una varietà di pattern nelle serie temporali. Questa metodologia consente al modello di specializzarsi a livello di token in modo autonomo, migliorando la precisione delle previsioni.
I ricercatori di Salesforce hanno testato Moirai-MoE su 29 dataset del benchmark Monash, riscontrando prestazioni superiori rispetto a tutti i concorrenti. In particolare, Moirai-MoE-Small ha superato il suo predecessore denso, Moirai-Small, del 17%, e ha ottenuto risultati migliori rispetto a modelli più grandi come Moirai-Base e Moirai-Large, con incrementi dell’8% e del 7% rispettivamente.
Per le previsioni zero-shot, Moirai-MoE è stato valutato su 10 dataset diversi utilizzando metriche come il Continuous Ranked Probability Score (CRPS) e il Mean Absolute Scaled Error (MASE). Moirai-MoE-Small ha mostrato miglioramenti compresi tra il 3% e il 14% nel CRPS e tra l’8% e il 16% nel MASE rispetto a tutte le versioni di Moirai. È notevole che Moirai-MoE-Small utilizzi solo 11 milioni di parametri attivi, risultando 28 volte più piccolo di Moirai-Large, pur mantenendo prestazioni eccellenti.
L’introduzione di Moirai-MoE segna un cambiamento significativo nell’approccio alle previsioni di serie temporali. L’adozione di trasformatori MoE sparsi consente al modello di adattarsi autonomamente a diversi pattern nei dati, eliminando la necessità di livelli di input/output specifici per ogni frequenza. Questo approccio semplifica l’architettura del modello e migliora la sua capacità di generalizzazione, aprendo nuove possibilità per applicazioni in vari settori, dalla finanza alla sanità, dove le previsioni accurate delle serie temporali sono fondamentali.