Incontra Meerkat, una nuova libreria di dati per gestire set di dati ML complessi
 
Il wrangling dei dati è un processo di pulizia e unificazione di set di dati disordinati e complessi per un facile accesso e analisi.
 
Recentemente, i ricercatori della Stanford University hanno lanciato una nuova libreria di dati chiamata Meerkat per lavorare con set di dati complessi di machine learning. Il codice sorgente del progetto è disponibile su GitHub . 

I dati sono l’ossigeno per l’apprendimento automatico. Dai dati di addestramento e convalida alle previsioni future, agli incorporamenti e ai metadati, guida tutte le parti del processo di sviluppo del machine learning. Tuttavia, l’organizzazione e la gestione dei dati è impegnativa.

La tua esperienza necessaria! Compila il nostro veloce Sondaggio

A tal fine, i ricercatori di Stanford hanno proposto una nuova libreria Python per aiutare ricercatori e professionisti del machine learning a gestire i dati. Il wrangling dei dati è un processo di pulizia e unificazione di set di dati disordinati e complessi per un facile accesso e analisi. 

Come funziona Meerkat? 
In un blog di Notion Press , “Meerkat: Datapanels for machine learning”, i ricercatori di Stanford Sabri Eyuboglu, Arjun Desai e Karan Goel hanno parlato di alcune aree in cui Meerkat potrebbe risolvere la complessità dei dati nel ciclo di vita del machine learning.

Le tecniche di manipolazione dei set di dati come affettare, modellare e trasformare i set di dati sono diventate una parte sempre più importante del processo di sviluppo. Poiché la qualità dei modelli e delle valutazioni di machine learning è principalmente un prodotto dei dati, viene dedicato più tempo all’ottimizzazione dei set di dati rispetto all’ottimizzazione dei modelli. 
La valutazione del modello sta emergendo come un nuovo collo di bottiglia durante la creazione di sistemi ML ad alte prestazioni. Ad esempio, i modelli sono stati mercificati nella misura in cui risorse come Model Hub di HuggingFace possono fornirti un modello per testo, voce o visione in pochi secondi. Ma sono difficili da ottenere correttamente e le loro modalità di errore possono essere opache. 
I set di dati multimodali che combinano più tipi di dati complessi stanno diventando sempre più diffusi. Ad esempio, CLIP di OpenAI combina il linguaggio naturale con le immagini. 
Meerkat fornisce l’astrazione DataPanel. Il DataPanel facilita la manipolazione interattiva del set di dati, dove può ospitare diverse modalità di dati e consente di valutare attentamente i modelli con Robustness Gym . “Abbiamo creato DataPanel come DataFrames perché sono naturalmente interattivi e funzionano perfettamente in tutti i contesti di sviluppo: Jupiter Notebook, script Python e Streamlit”, hanno affermato i ricercatori.

L’obiettivo è rendere Meerkat DataPanel un substrato di dati interattivo per l’apprendimento automatico moderno in tutto il ciclo di vita dell’apprendimento automatico. 

Oltre a Robustness Gym , Meerkat può anche essere integrato in altri popolari set di dati di benchmark e funziona bene con librerie e strumenti esistenti come WILDS , Huggingface Datasets , DOSMA , Streamlit .

Cosa rende Meerkat diverso?
Le strutture dati in genere rientrano in due categorie: quelle che supportano tipi di dati complessi e modalità multiple ( PyTorch Dataset , Tensorflow Dataset ) e quelle che supportano la manipolazione e l’interazione (Pandas DataFrame ). “Con il Meerkat DataPanel, supportiamo tutti questi desiderata in un’unica struttura dati”, hanno affermato i ricercatori.

Vantaggi: 

Meerkat può memorizzare tipi di dati complessi (immagini, grafici, video e serie temporali) 
Supporta set di dati più grandi della RAM ( Kinetics , MIMIC- CXR , ImageNet ) con I/O efficiente sotto il cofano  
Supporta set di dati multimodali 
Supporta la creazione e la manipolazione dei dati 
Supporta la selezione dei dati 
Supporta l’ispezione in ambienti interattivi
 I ricercatori hanno condotto un esperimento per rilevare lo pneumotorace (un polmone collassato) nelle radiografie del torace. Per sviluppare un modello per questo compito, i ricercatori hanno riscontrato vari tipi di dati: immagini a raggi X, metadati strutturati e incorporamenti estratti da un modello addestrato. 

Qui, il DataPanel di Meerkat (una struttura di dati a colonne) potrebbe ospitare tutti questi tipi di dati sotto lo stesso tetto. “Tenerli insieme consente un’iterazione del modello più rapida, un’analisi dettagliata degli errori e un’esplorazione e ispezione dei dati più semplice”, hanno affermato i ricercatori di Stanford. I codici utilizzati per eseguire questo esperimento sono disponibili qui . 

Meerkat ha affrontato i desiderata facilitando l’ispezione e la manipolazione di set di dati che combinano più tipi di dati complessi. Meerkat fornisce astrazioni di dati di alto livello perché le sue strutture di dati sono scritte in Python e hanno poche ottimizzazioni di basso livello, a differenza di Pandas, NumpY o Apache Arrow. 

“Ciò non significa che Meerkat DataPanel sia lento: ogni tipo di colonna è veloce quanto la struttura dati su cui è costruito”, hanno affermato i ricercatori.

Di ihal