22 set di dati open source per potenziare la modellazione AI
Alcuni dicono, ” i dati sono il nuovo petrolio”, con aria di serietà. E mentre la frase può catturare una certa verità sulla moderna economia digitale, non riesce a modellare il modo in cui i bit possono essere copiati ancora e ancora. A volte la facilità di condivisione crea una netta assenza di scarsità e questo cambia l’economia dell’intero gioco. Uno dei modi migliori per visualizzarlo è attingere ad alcuni set di dati open source che stanno proliferando su Internet. Tutti sono gratuiti e uno di questi potrebbe essere proprio ciò di cui il tuo progetto ha bisogno.
Perché le persone li condividono? Alcuni li usano per la promozione, una sorta di pubblicità a basso costo. Alcuni provider di servizi cloud creano i set di dati sapendo che è molto più probabile che le persone che ne hanno bisogno si iscrivano alla potenza di calcolo della stessa azienda. Se i dati sono pronti, perché aspettare per spedirli in tutto il paese.
Alcuni governi li condividono perché fa parte di una tradizione. I contribuenti dovrebbero ottenere qualcosa: in questi casi, trasparenza su ciò che il loro denaro sta finanziando.
Altri capiscono che la collaborazione spesso vince. I set di dati creati da centinaia, migliaia o addirittura milioni di piccoli contributi possono essere più accurati e utili dei set di dati di un’azienda autonoma.
Altri ancora condividono i dati perché fanno parte del processo scientifico. Forse è stato raccolto grazie a un contributo che ne richiedeva la condivisione. Forse il team responsabile vuole che gli altri ci costruiscano sopra. Forse c’è qualcuno che crede che la comunità scientifica potrebbe essere in grado di usarlo.
Indubbiamente, alcune di queste informazioni potrebbero non essere così accurate come ci serve. A volte una buona raccolta di dati proprietari è l’unico modo per pagare informazioni affidabili. Ma se il tuo progetto può sostenere il rischio, se i tuoi calcoli possono funzionare con l’intervallo di errore dei dati, beh, è meglio non guardare in bocca un cavallo da regalo.
Ecco 22 opzioni per i dati gratuiti:
OpenStreet Map
Lo chiamano una “mappa del mondo, creata da te”. Il loro editor basato su browser rende relativamente facile per chiunque accedere al set di dati e modificare le posizioni di strade, edifici, segnaletica e altro ancora. I risultati sono raggruppati in un grande tarball che chiunque può utilizzare, comprese le grandi società di creazione di mappe e di ricerca di percorsi.
U.S. Census
Mentre i dettagli di ogni censimento sono tenuti segreti dalla legge per 72 anni, l’US Census Bureau condivide le statistiche con tutti. Gestiscono diversi portali che consentono di scaricare i dettagli di quartieri e città. I ristoranti fast food utilizzano le informazioni per pianificare nuove posizioni. Gli Stati li usano per stanziare fondi ai governi locali. Vedi qui , qui , qui o qui per iniziare.
Kaggle
L’ organizzazione è dedicata alla scienza dei dati, all’apprendimento della scienza dei dati e ai dati stessi. Il loro portale offre un facile accesso a taccuini pieni di codice Python e R, oltre ad alcune lezioni per imparare a usarli e persino ad alcune competizioni. Un angolo è una grande raccolta di set di dati che vanno dall’essenziale al bizzarro. Dai casi giornalieri di omicron , tabulati per paese, ai numeri vincenti della lotteria sudcoreana.
Data.gov
I governi si basano sui dati e il governo degli Stati Uniti a volte li condivide. Data.gov è una stanza di compensazione centrale che elenca molte fonti di dati come il sistema integrato di dati sull’istruzione postsecondaria , pieno di dati sul college, o la raccolta di dati topografici dell’US Geological Survey su ogni miglio quadrato del paese. E con una sorpresa in più, offrono anche un elenco di hub di dati nelle singole agenzie, uffici e dipartimenti per ulteriori approfondimenti.
Data.Europa.EU
L’ Europa crede anche nell’apertura dei dati al mondo e Data Europa è un progetto gestito dall’Unione Europea per raccogliere byte da tutti i paesi membri. In questo momento, ci sono 1.397.730 set di dati nella raccolta e coprono un’ampia varietà di argomenti, dall’agricoltura ai trasporti. Le aree tradizionali della supervisione del governo come la polizia e l’economia sono ben rappresentate, ma ci sono molti ritrovamenti strani e inaspettati come un elenco di tutti i manoscritti medievali nella biblioteca dell’Università di Basilea o un sondaggio sugli utenti di Internet in Svizzera.
Data.Gov.UK
Non c’è motivo di interrogarsi sullo stato della Brexit. Il Regno Unito pubblica anche un elenco di proprie fonti di dati pubblici. Alcuni dati provengono dal governo centrale e alcuni provengono dalle autorità locali o anche da alcune organizzazioni pubbliche.
PLOS
La Biblioteca Pubblica della Scienza è stata fondata nel 2001 come alternativa alle riviste scientifiche a scopo di lucro che dominano il mondo della ricerca. Lungo la strada, ha anche creato PLOS Open Data , una raccolta di set di dati aperti che di solito sono collegati alla ricerca nella rivista. Se hai una domanda sull’analisi o vuoi semplicemente rieseguire i numeri in modo diverso, ci sono buone probabilità che i dati siano disponibili. Questa è stata un’opportunità cruciale per gli scienziati che hanno creato meta analisi combinando la ricerca di più studi per cercare modelli e problemi più ampi.
Open Science
L’ Open Science Data Cloud è un altro meccanismo in cui scienziati di molte discipline diverse possono condividere tra loro i dati di laboratorio. Alcuni dei più grandi progetti includono Bookworm dell’Osservatorio culturale di Harvard , una raccolta di libri e altro materiale testuale, e Bionimbus , una raccolta di dati biologici e biomedici per lo studio delle cellule.
University Collections
Molte discipline e sottodiscipline conservano le loro raccolte di dati, spesso curate da ricercatori dedicati con una particolare comprensione del campo e di ciò che altri ricercatori potrebbero voler utilizzare. Il gruppo di machine learning di UC Irvine, ad esempio, ha una raccolta di centinaia di set di dati già impostati per l’addestramento di algoritmi di machine learning. Il CERN, sede del grande acceleratore di particelle, condivide petabyte e petabyte di dati per i fisici.
City Data
Molte delle città del paese hanno abbracciato gli open data con vari gradi di devozione. Le banche dati fiscali e le informazioni immobiliari sono solitamente le prime ad apparire. Alcuni spargono i dati nei vari siti Web, ma altri hanno directory piene di puntatori. Per cominciare , visita New York City , Baltimora , Miami o Orlando . Anche molti posti più piccoli come Itaca o Auburn sono online.
Amazon
AWS offre un’ampia raccolta di set di dati e li precarica anche in alcuni dei suoi migliori servizi come EMR , spesso da usare come esempio. Molti di questi includono alcuni dei più grandi set di dati governativi come il sistema radar meteorologico NEXRAD o le immagini Landsat . L’azienda ha promosso la consapevolezza ambientale in quest’area, quindi molte delle raccolte si concentrano sui dati naturali nell’ambito di Amazon Sustainability Data Initiative e Earth on AWS. A gennaio, hanno aggiornato le registrazioni bioacustiche dei suoni di Orca con lo streaming audio da tutto il Puget Sound.
Azure
I set di dati aperti di Azure sono curati e preelaborati per semplificarne l’uso con le istanze e le routine di intelligenza artificiale di Azure. Molti dei grandi set governativi come i dati meteorologici vengono regolarmente interrogati e aggiornati in modo che le informazioni più aggiornate siano disponibili nella stessa posizione. Gli economisti possono monitorare l’inflazione con i dettagli dell’Indice dei prezzi alla produzione compilato dal Dipartimento del Commercio degli Stati Uniti. Gli urbanisti, ad esempio, potrebbero essere interessati ai registri dei taxi gialli di New York City che contengono orari di ritiro e riconsegna ma nessuna informazione personale.
Il cloud di Google archivia un’ampia varietà di set di dati diversi da molte delle fonti governative. Hanno anche esplorato la possibilità di semplificare l’utilizzo diretto dei dati senza creare nulla. Public Data Explorer ti consente di approfondire direttamente i dati per creare grafici e grafici interattivi da fonti come il rapporto sulla competitività globale del World Economic Forum . Colab di Google offre un’interfaccia Jupyter Notebook per tenere traccia di qualsiasi analisi R o Python degli open data o anche dei tuoi dati privati.
IBM
Per i data scientist che necessitano di informazioni, IBM esegue Data Access Exchange (DAX). Una raccolta di set di dati raccolti dalle principali fonti di dati aperti e governativi. L’obiettivo è supportare l’apprendimento automatico e l’intelligenza artificiale nei settori che costituiscono la base della base di clienti IBM. Il set di dati Oil Reservoir , ad esempio, contiene 30.000 diverse simulazioni. Il set di dati Fashion , ad esempio, include 60.000 immagini di abiti che sono stati standardizzati per l’addestramento di algoritmi di apprendimento automatico.
Le aziende che desiderano creare i propri archivi di dati possono anche rivolgersi a Open Data for Industries , una raccolta ibrida di strumenti progettati per abbattere i silos di dati nelle organizzazioni semplificando al contempo l’analisi, il reporting e la formazione sull’IA.
FiveThirtyEight
Il popolare sito di giornalismo di dati FiveThirtyEight include spesso i dati che costituiscono la base per la loro analisi e scrittura. I pronostici NHL , ad esempio, si basano su migliaia di simulazioni che vengono aggiornate dopo ogni partita. I sondaggi politici su domande come se gli elettori preferiscono un voto generico repubblicano o democratico sono pronti per le tue indagini statistiche. E se sei curioso di sapere quali sondaggi sono più affidabili, FiveThirtyEight distribuisce la loro meta analisi anche sulle valutazioni dei sondaggisti .
Autonomous CarsGitHub Security
I programmatori che usano GitHub per archiviare le versioni del loro codice devono preoccuparsi dei problemi di sicurezza e GitHub vuole aiutarli. Raccolgono avvisi di sicurezza sui difetti riscontrati nei vari framework, librerie e altri blocchi di codice open source che gli sviluppatori possono guardare. Hanno anche deciso di aprire la collezione , così chiunque può contribuire.
Autonomous Cars
Una delle grandi sfide per l’industria automobilistica è creare le auto a guida autonoma dei sogni di tutti. Molte delle case automobilistiche stanno condividendo set di dati raccolti dalle loro auto o apparecchiature di laboratorio, quindi chiunque può sperimentare la costruzione di alcuni dei molti livelli necessari per far funzionare tutto senza intoppi. Alcuni dei diversi set includono dati da Audi , ApolloScape . Google , Motional , Oxford e Waymo .
Yelp
Nel momento in cui scrivo, Yelp distribuisce un sottoinsieme della sua vasta raccolta di opinioni su ristoranti, negozi e altri stabilimenti. L’attuale batch contiene quasi 7 milioni di recensioni di oltre 150.000 aziende di undici grandi città. Yelp prevede che il testo e le foto offriranno grandi opportunità per addestrare algoritmi di elaborazione del linguaggio naturale e altre applicazioni di intelligenza artificiale, ma forse ti verrà in mente un’idea diversa.
DBpedia
Molti set di dati sono piuttosto grezzi e non strutturati. DBpedia è uno sforzo per creare un grafico di conoscenza aperto pieno di informazioni ontologiche che possono essere interrogate con SPARQL. La struttura consente di creare query che includono una forte inferenza e non si basano solo su parole chiave grezze per trovare la risposta. La maggior parte delle informazioni proviene dalle varie Wikipedia.
Facebook
Molti dei frammenti culturali si trovano nel social network di Facebook e un modo per cercarli è tramite l’ API Graph di Meta . Siamo tutti solo nodi in questa enorme struttura di dati e il tuo codice può curiosare attraverso l’API vedendo, più o meno, le stesse cose che potresti vedere se avessi effettuato l’accesso.
GitHub
Mentre molti pensano a repository come GitHub come luoghi per il codice, molti archiviano anche i dati all’interno, a volte insieme ad alcuni codici ma anche solo come una fonte autonoma. L’approccio offre tutte le funzionalità integrate per tenere traccia dell’evoluzione dei file nel tempo, qualcosa che spesso manca in molti database. Alcune ricerche rapide spesso rivelano diversi repository che potrebbero fare ciò di cui hai bisogno. Il corso del MIT sul Deep Learning, ad esempio, memorizza materiale di esempio per compiti di classe come l’addestramento di auto a guida autonoma. Se stai studiando NFT, alcune analisi Python potrebbero fare ciò di cui hai bisogno. Migliaia di repository vengono spazzati via.
Industry Organizations
Molte industrie si affidano a reti di organizzazioni di appartenenza per gestire attività a beneficio di tutti i membri come pubblicare riviste, organizzare conferenze, sponsorizzare studi, fare pressioni sui governi e, a volte ora, raccogliere set di dati che tutti possono utilizzare. Il British Film Institute , ad esempio, tiene traccia degli incassi al botteghino nel corso degli anni e pubblica i dati in forma grezza e annuari statistici. L’American Iron and Steel Institute tiene traccia della produzione di acciaio grezzo. La maggior parte delle principali industrie supporta qualcuno che raccoglie dati utili.