È giunto il momento che la community ML esamini gli effetti delle cascate di dati
 
Data Cascades, come suggerisce il nome, comporta una serie di errori dall’aspetto banale che si sommano a una catastrofe.
 
“Le derive del modello sono più comuni quando i modelli in domini ad alto rischio, come il rilevamento della qualità dell’aria o la scansione a ultrasuoni, a causa della mancanza di set di dati curati”.
Quando i modelli di intelligenza artificiale vengono applicati in domini ad alto rischio come la salute e l’automazione industriale, la qualità dei dati diventa improvvisamente un aspetto significativo dell’intera pipeline. I modelli nel mondo reale sono soggetti a molte vulnerabilità che non vengono rilevate in un ambiente controllato. Ad esempio, anche le stagioni hanno voce in capitolo nei risultati dei modelli. Il vento può spostare inaspettatamente i sensori di immagine durante l’implementazione, una forma di cascata. La ricerca di Google ha mostrato che anche una piccola goccia di olio o acqua può influenzare i dati che potrebbero essere utilizzati per addestrare un modello di previsione del cancro. Queste piccole deviazioni possono passare inosservate per 2-3 anni prima che si presentino in produzione. Questo è il motivo per cui i ricercatori di Google vogliono che l’intera comunità prenda sul serio il problema dei Data Cascades. I ricercatori hanno esaminato pratiche e sfide tra 53 professionisti dell’IA in India, paesi dell’Africa orientale e occidentale,

 

Data Cascades, come suggerisce il nome, comporta una serie di errori dall’aspetto banale che si sommano a una catastrofe. Le cascate di dati sono sfuggenti ma evitabili. Uno studio del team di ricerca di Google ha rilevato che il 92% dei team intervistati ha sperimentato almeno una cascata. Secondo i ricercatori, le cascate di dati sono solitamente influenzate da:

Le attività e le interazioni di sviluppatori, governi e altre parti interessate.
Luogo della raccolta dei dati (es: ospedali rurali dove avviene la raccolta dei dati dei sensori).
Secondo i ricercatori, le derive del modello sono più comuni quando i modelli si trovano in domini ad alto rischio, come il rilevamento della qualità dell’aria o l’esecuzione di un’ecografia, perché non esistono set di dati preesistenti e/o curati. I cosiddetti buoni modelli funzionano bene in un ambiente di laboratorio dove tutto è sotto controllo. Il mondo reale presenta sfide uniche.

“Nei sistemi live di nuovi ambienti digitali con vincoli di risorse, è più comune che i dati vengano raccolti con artefatti fisici come impronte digitali, ombre, polvere, illuminazione impropria e segni di penna, che possono aggiungere rumore che influisce sulle prestazioni del modello”, hanno spiegato i ricercatori.

 Cosa fare con le cascate di dati?

Le cascate di dati sono opache nella diagnosi e nella manifestazione, senza indicatori, strumenti e metriche chiari per rilevare e misurare i loro effetti sul sistema. Si verificano quando le pratiche convenzionali di IA vengono applicate in domini ad alto rischio caratterizzati da elevata responsabilità, lavoro interdisciplinare e vincoli di risorse. La maggior parte dei curricula per lauree, diplomi e nanolauree in IA si concentra sullo sviluppo di modelli, lasciando i laureati impreparati per la scienza, l’ingegneria e l’arte di lavorare con i dati, compresa la raccolta di dati, la costruzione di infrastrutture, la documentazione dei dati e rilevamento dei dati.

Misurare la fedeltà fenomenologica; sapere con quanta accuratezza e completezza i dati rappresentano i fenomeni.
Incentivare la comunità a spostare la propria attenzione dai modelli ai dati.
Promuovere la collaborazione per il lavoro sui dati. I team che hanno riscontrato il minor numero di cascate di dati in genere hanno avuto cicli di feedback graduali, hanno eseguito frequentemente i modelli, hanno lavorato a stretto contatto con esperti di domini applicativi e partner sul campo, hanno mantenuto una documentazione chiara dei dati e monitorato regolarmente i dati in entrata.
Lo stato socio-economico di una nazione dovrebbe essere considerato poiché la mancanza di set di dati curati può cambiare da un’area geografica all’altra. I ricercatori di Google raccomandano la creazione di banche di set di dati aperti, la creazione di politiche sui dati e l’aumento dell’alfabetizzazione ML dei responsabili delle politiche per affrontare le attuali disuguaglianze di dati a livello globale.
Crediti immagine: Google PAIR
 

Man mano che i sistemi maturano, di solito finiscono con un’ampia gamma di opzioni configurabili come le funzionalità utilizzate, la modalità di selezione dei dati, le impostazioni di apprendimento specifiche dell’algoritmo, i metodi di verifica, ecc. E, poiché le cascate di dati spesso hanno origine all’inizio del ciclo di vita di un ML, diventa ancora più impegnativo. I ricercatori lamentano che non ci sono indicatori, strumenti o metriche chiari per rilevare e misurare gli effetti a cascata dei dati. Un’altra sfida sono le costose modifiche a livello di sistema che potrebbero essere necessarie per identificare una cascata di dati. Tuttavia, i ricercatori ritengono che tali cascate di dati possano essere evitate attraverso interventi precoci nello sviluppo del machine learning, come menzionato sopra.

Di ihal

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi