I modelli di raccomandazione sono onnipresenti, dai suggerimenti musicali su Spotify alle serie consigliate su Netflix. Tuttavia, molti di questi sistemi si basano su dataset obsoleti e limitati, che non riflettono le complessità delle interazioni reali degli utenti. Yandex, gigante tecnologico russo, ha colmato questa lacuna con il rilascio di Yambda-5B, un dataset open-source che promette di rivoluzionare la ricerca e lo sviluppo nei sistemi di raccomandazione.
Yambda-5B è il più grande dataset pubblico di interazioni utente per compiti di raccomandazione, contenente 4,79 miliardi di eventi raccolti da 1 milione di utenti su Yandex Music in un periodo di dieci mesi. Include ascolti, like, dislike e altre azioni, con timestamp precisi al secondo e metadati audio dettagliati. Una caratteristica distintiva è il flag “is_organic”, che indica se un brano è stato scoperto organicamente o tramite raccomandazione, offrendo così una visione più autentica delle preferenze degli utenti.
Mentre dataset come quello del Netflix Prize o il Million Playlist Dataset di Spotify sono ampiamente utilizzati, presentano limitazioni significative. Il Netflix Prize, ad esempio, contiene meno di 18.000 elementi e manca di timestamp dettagliati, rendendolo inadatto per modelli sequenziali complessi. Il Million Playlist Dataset, pur essendo più ampio, non offre la profondità e la varietà necessarie per allenare modelli avanzati. Inoltre, dataset come quelli di Criteo, sebbene vasti, sono difficili da utilizzare a causa della mancanza di documentazione e coerenza nei dati.
Yambda, al contrario, è progettato per riflettere le interazioni reali degli utenti, con dati sequenziali e contestuali che permettono lo sviluppo di modelli di raccomandazione più sofisticati e realistici. La disponibilità di embedding audio e la distinzione tra feedback impliciti ed espliciti offrono nuove opportunità per esplorare l’apprendimento cross-modale e architetture ibride nei sistemi di raccomandazione.
Il rilascio di Yambda-5B non solo fornisce un dataset di alta qualità, ma stabilisce anche un protocollo di valutazione robusto, il Global Temporal Split (GTS), che simula condizioni d’uso reali. Questo approccio consente una valutazione più accurata delle prestazioni dei modelli, promuovendo risultati riproducibili e confrontabili. La disponibilità di dati su larga scala e ben strutturati democratizza l’accesso alla ricerca avanzata, permettendo anche a startup e ricercatori indipendenti di sviluppare sistemi di raccomandazione competitivi.