I set di dati svolgono un ruolo critico in una vasta gamma di settori, tra cui ricerca, analisi, processo decisionale e altro ancora. Con l’avvento delle tecnologie emergenti, le organizzazioni si sono spostate dai loro approcci tradizionali e si sono fortemente affidate a vaste pile di dati per i loro scopi decisionali.
Google è sempre stato all’avanguardia quando si tratta di ricerca scientifica. In questo articolo, abbiamo compilato un elenco di 16 set di dati di origine aperta – in ordine alfabetico – rilasciati dal gigante della tecnologia:
1 | AudioSet
Informazioni: tra i popolari set di dati audio , AudioSet è un set di dati su larga scala di eventi audio con annotazioni manuali. Include un’ontologia in espansione di 632 classi di eventi audio e una raccolta di 20,84,320 clip audio di 10 secondi con etichetta umana tratte da video di YouTube. https://research.google.com/audioset/
2 | AVA Dataset
Informazioni: AVA è un set di dati video di azioni atomiche visive localizzate spazio-temporalmente (AVA) che fornisce annotazioni audiovisive di video per migliorare e comprendere l’attività umana. Il set di dati annota 80 azioni visive atomiche in 430 filmati di 15 minuti, in cui le azioni sono localizzate nello spazio e nel tempo. Il set di dati AVA è una raccolta di 1,62 milioni di etichette di azione con più etichette per persona che si verificano frequentemente. https://research.google.com/ava/
3 | Set di cartoni animati
Informazioni su: Set di cartoni animati è una raccolta di immagini casuali di avatar di cartoni animati 2D in cui i cartoni animati variano in 10 categorie di opere d’arte, quattro categorie di colori e quattro categorie di proporzioni, per un totale di circa 1.013 combinazioni possibili. I cartoni animati in questo set di dati hanno contribuito a sviluppare la tecnologia dietro gli adesivi personalizzati in Google Allo. https://google.github.io/cartoonset/
C
4 | Elicitazione delle preferenze di conversazione Coached Conversational Preference Elicitation
Informazioni su: questo set di dati comprende 502 dialoghi in inglese con 12.000 espressioni annotate tra un utente e un assistente che discutono le preferenze dei film in linguaggio naturale. Il set di dati è stato raccolto utilizzando una metodologia Wizard-of-Oz tra due lavoratori a pagamento, in cui un lavoratore svolge il ruolo di “assistente”, mentre l’altro interpreta il ruolo di “utente”. https://research.google/tools/datasets/coached-conversational-preference-elicitation/
5 | DiscoFuse
Informazioni: DiscoFuse è un set di dati su larga scala per la fusione di frasi basata su discorsi (DiscoFuse) che include circa 60 milioni di esempi di fusione di frasi. La fusione di frasi è il compito di unire diverse frasi indipendenti in un unico testo coerente. https://github.com/google-research-datasets/discofuse
6 | Didascalie concettuali di Google
Google’s Conceptual Captions
Informazioni: il set di dati delle didascalie concettuali di Google è costituito da circa 3,3 milioni di immagini annotate con didascalie. Contrariamente allo stile curato di altre annotazioni di didascalie di immagini, le immagini di didascalie concettuali e le loro descrizioni grezze vengono raccolte dal Web e rappresentano quindi una più ampia varietà di stili. https://ai.google.com/research/ConceptualCaptions
7 | Afferrare il set di dati Grasping Dataset
Informazioni su: Il set di dati Grasping contiene circa 8.000.000 di tentativi di acquisizione in più di due mesi, utilizzando tra 6 e 14 manipolatori robotici in qualsiasi momento, con differenze nel posizionamento e nell’hardware della telecamera. https://sites.google.com/site/brainrobotdata/home/grasping-dataset
8 | Set di dati di fotografia HDR + Burst
HDR+ Burst Photography Dataset
Informazioni su: questo set di dati è composto da 3.640 raffiche che sono composte da 28.461 immagini in totale e organizzate in sottocartelle, inclusi i risultati della pipeline di elaborazione delle immagini. Ogni raffica consiste nell’input di raffica grezza in formato DNG. http://hdrplusdata.org/dataset.html
9 | Sostantivo verbo
NOUN VERB
Informazioni su: questo set di dati contiene 30.000 frasi inglesi presenti in natura che presentano ambiguità non banale di sostantivo-verbo. Il set di dati contiene frasi in formato CoNLL e ogni frase ha un singolo token che è stato annotato manualmente come VERB o NON-VERB. https://research.google/tools/datasets/noun-verb/
10 | Apri set di dati immagini V6
Open Images Dataset V6
Informazioni: il set di dati Open Images V6 è uno dei set di dati più diffusi rilasciato da Google . Include circa 9 milioni di immagini annotate con etichette a livello di immagine, riquadri di delimitazione di oggetti, maschere di segmentazione di oggetti, relazioni visive e narrazioni localizzate. Il set di dati contiene 16 milioni di riquadri di delimitazione per 600 classi di oggetti su 1,9 milioni di immagini. Questo lo rende il set di dati esistente più grande con annotazioni sulla posizione degli oggetti. https://storage.googleapis.com/openimages/web/download.html
11 | RealEstate10K
Informazioni su: RealEstate10K è un ampio set di dati di pose di telecamere corrispondenti a 10 milioni di fotogrammi derivati da circa 80.000 videoclip, raccolti da circa 10.000 video di YouTube. Per ogni clip, le pose formano una traiettoria in cui ogni posa specifica la posizione e l’orientamento della telecamera lungo la traiettoria. Queste pose derivano eseguendo algoritmi SLAM e di regolazione del bundle su un ampio set di video. https://google.github.io/realestate10k/
12 | Taskmaster-1
Informazioni: il set di dati Taskmaster-1 è composto da 13.215 dialoghi basati su attività in inglese, inclusi 5.507 dialoghi parlati e 7.708 scritti creati con due metodi distinti. In questo set di dati, ogni conversazione rientra in uno dei 6 domini. Si tratta di: ordinare una pizza, creare appuntamenti per una riparazione automatica, organizzare un servizio di assistenza, ordinare biglietti per il cinema, ordinare bevande al caffè ed effettuare prenotazioni nei ristoranti. https://research.google/tools/datasets/taskmaster-1/
13 | The Quick, Draw! dataset
Informazioni su: Il set di dati Quick Draw include 50 milioni di disegni in 345 categorie che sono forniti dai giocatori del gioco Quick, Draw! I disegni sono stati catturati come vettori timestamp, che sono etichettati con metadati, incluso ciò che è stato chiesto al giocatore di disegnare e la posizione del giocatore. https://github.com/googlecreativelab/quickdraw-dataset
14 | Il set di dati MAESTRO Dataset
Informazioni: il set di dati MIDI e audio modificato per tracce e organizzazione sincrone – o MAESTRO – è una raccolta di oltre 200 ore di esecuzioni pianistiche virtuosistiche, catturate con un allineamento fine (~ 3 ms) tra etichette di note e forme d’onda audio. https://magenta.tensorflow.org/datasets/maestro
15 | Taskmaster-2
Informazioni: il set di dati Taskmaster-2 è composto da 17.289 dialoghi in sette settori: ristoranti (3.276), ordini alimentari (1.050), film (3.047), hotel (2.355), voli (2.481), musica (1.602) e sport (3.478 ). Tutti i dialoghi in questo set di dati sono stati raccolti utilizzando lo stesso sistema Wizard of Oz (WOz) utilizzato in Taskmaster-1, in cui i lavoratori in crowdsourcing che interpretavano “l’utente” interagivano con operatori umani che interpretavano “l’assistente digitale” utilizzando un’interfaccia basata sul web. https://research.google/tools/datasets/taskmaster-2/
16 | Set di dati di segmenti Youtube-8M
Youtube-8M Segments Dataset
Informazioni: il set di dati Segmenti YouTube-8M è un’estensione del set di dati YouTube-8M con annotazioni di segmento verificate dall’uomo. È una raccolta di etichette verificate dall’uomo su circa 2,37.000 segmenti su 1.000 classi dal set di convalida del set di dati YouTube-8M, in cui ogni video verrà nuovamente con funzionalità a livello di frame localizzato nel tempo, in modo che le previsioni del classificatore possano essere realizzato con granularità a livello di segmento. ps://research.google.com/youtube8m/