Le piattaforme di hackathon di machine learning e data science come Kaggle e MachineHack sono banchi di prova per gli appassionati di AI/ML per esplorare, analizzare e condividere dati di qualità. 

Tuttavia, trovare un set di dati adatto può essere complicato. Secondo il sito Web di Kaggle, sono disponibili oltre 50.000 set di dati pubblici e 400.000 taccuini pubblici. Ogni giorno viene caricato un nuovo set di dati su Kaggle. Ogni set di dati è una piccola comunità in cui è possibile discutere i dati, trovare il codice pubblico pertinente o creare i propri progetti nei kernel. A volte, puoi anche trovare notebook con algoritmi che risolvono il problema di previsione in un set di dati specifico. 

 

Ecco alcuni dei set di dati più popolari su Kaggle.

Rilevamento frodi con carta di credito
Questo set di dati aiuta le aziende e i team a riconoscere le transazioni fraudolente con carta di credito. Il set di dati contiene le transazioni effettuate dai titolari di carte di credito europee nel settembre 2013. Il set di dati presenta i dettagli di 284.807 transazioni, di cui 492 frodi, avvenute in due giorni.

Di recente, ha rilasciato un simulatore per i dati delle transazioni come parte del manuale pratico sull’apprendimento automatico per il rilevamento delle frodi con carta di credito . 

Database di calcio europeo
È il set di dati calcistico definitivo per l’analisi dei dati e l’apprendimento automatico. Il set di dati contiene più di 25.000 partite, più di 10.000 giocatori, 11 paesi europei con il loro campionato di punta, stagioni dal 2008 al 2016, attributi di giocatori e squadre provenienti dalla serie di videogiochi FIFA di EA Sports, inclusi aggiornamenti settimanali, formazione della squadra e formazione della squadra ( Coordinate X, Y), quote scommesse fino a 10 fornitori, eventi dettagliati delle partite (tipi di gol, calcio d’angolo, possesso, falli, ecc.) per oltre 10.000 partite.

Prezzi dell’avocado
Il set di dati mostra i dati storici sui prezzi dell’avocado e il volume delle vendite in più mercati statunitensi. Le informazioni sono state generate dal sito Web di Hass Avocado Board . Rappresenta i dati di scansione al dettaglio settimanali 2018 per il volume di vendita al dettaglio nazionale (unità e prezzo, insieme a regione, tipi (convenzionale o biologico) e volume venduto di avocado. Il set di dati può essere applicato ad altri frutti e verdure in diverse aree geografiche. 

Attrito e prestazioni dei dipendenti di IBM HR Analytics
Creato da data scientist IBM, questo set di dati fittizio viene utilizzato per prevedere l’attrito in un’organizzazione. Scopre vari fattori che portano all’abbandono dei dipendenti ed esplora correlazioni come “una ripartizione della distanza da casa per ruolo lavorativo e abbandono” o “confronto del reddito medio mensile per istruzione e abbandono”. 

Qualità del vino rosso 
La qualità del vino rosso è un set di dati di pratica chiaro e diretto per la modellazione di regressione o classificazione. I due set di dati disponibili sono relativi alle varianti rosso e bianco del vino portoghese “Vinho Verde”. Le informazioni in questo set di dati includono acidità fissa, acidità volatile, acido citrico, zucchero residuo, cloruri, anidride solforosa libera, anidride solforosa totale, densità, pH e altre. Il set di dati è disponibile anche nel repository di machine learning UCI .

Set di dati personali sui costi medici
Questo set di dati viene utilizzato per la previsione dell’assicurazione tramite modelli di regressione. Il set di dati include età, sesso, indice di massa corporea, bambini (a carico), fumatore, regione e spese (costi sanitari individuali fatturati dall’assicurazione sanitaria). Il set di dati è disponibile anche su GitHub . 

 

Fatti alimentari aperti 
Si tratta di un database gratuito, aperto e collaborativo di prodotti alimentari in tutto il mondo, con ingredienti, allergeni, dati nutrizionali e tutte le informazioni che si trovano sulle etichette dei prodotti. Il database fa parte del Summer of Code 2018 di Google . Oltre 5000 collaboratori hanno aggiunto oltre 600K prodotti da 150 paesi utilizzando un’app o la loro fotocamera per scansionare codici a barre e caricare immagini di prodotti e le loro etichette. 

Sondaggio sull’apprendimento automatico e sulla scienza dei dati
Kaggle ha condotto un sondaggio a livello di settore nel 2017 per stabilire una panoramica completa del panorama della scienza dei dati e del machine learning. Il sondaggio ha ricevuto oltre 16.000 risposte, raccogliendo informazioni sulla scienza dei dati, sull’innovazione dell’apprendimento automatico, su come diventare scienziati dei dati e altro ancora. Puoi trovare i kernel utilizzati nel rapporto qui . 

Titanic
Il set di dati Titanic è costituito da dati originali della competizione Titanic ed è ideale per la regressione logistica binaria. Il set di dati contiene informazioni sull’ID del passeggero, l’età, il sesso, la tariffa, ecc. La competizione Titanic coinvolge gli utenti che creano un modello di apprendimento automatico che prevede quali passeggeri sono sopravvissuti al naufragio del Titanic. 

 
Corpus annotato per il riconoscimento delle entità nominate
Questo set di dati viene estratto dal corpus GMB (Groningen Significato Bank), etichettato, annotato e costruito specificamente per addestrare il classificatore a prevedere entità etichettate come nome, posizione, ecc. Offre una visione ampia dell’ingegneria delle funzionalità e aiuta a risolvere i problemi aziendali come raccogliere entità da cartelle cliniche elettroniche, ecc.

Di ihal