È giunto il momento che la community ML esamini gli effetti delle cascate di dati
 
Data Cascades, come suggerisce il nome, comporta una serie di errori dall’aspetto banale che si sommano a una catastrofe.
 
“Le derive del modello sono più comuni quando i modelli in domini ad alto rischio, come il rilevamento della qualità dell’aria o la scansione a ultrasuoni, a causa della mancanza di set di dati curati”.
Quando i modelli di intelligenza artificiale vengono applicati in domini ad alto rischio come la salute e l’automazione industriale, la qualità dei dati diventa improvvisamente un aspetto significativo dell’intera pipeline. I modelli nel mondo reale sono soggetti a molte vulnerabilità che non vengono rilevate in un ambiente controllato. Ad esempio, anche le stagioni hanno voce in capitolo nei risultati dei modelli. Il vento può spostare inaspettatamente i sensori di immagine durante l’implementazione, una forma di cascata. La ricerca di Google ha mostrato che anche una piccola goccia di olio o acqua può influenzare i dati che potrebbero essere utilizzati per addestrare un modello di previsione del cancro. Queste piccole deviazioni possono passare inosservate per 2-3 anni prima che si presentino in produzione. Questo è il motivo per cui i ricercatori di Google vogliono che l’intera comunità prenda sul serio il problema dei Data Cascades. I ricercatori hanno esaminato pratiche e sfide tra 53 professionisti dell’IA in India, paesi dell’Africa orientale e occidentale,

 

Data Cascades, come suggerisce il nome, comporta una serie di errori dall’aspetto banale che si sommano a una catastrofe. Le cascate di dati sono sfuggenti ma evitabili. Uno studio del team di ricerca di Google ha rilevato che il 92% dei team intervistati ha sperimentato almeno una cascata. Secondo i ricercatori, le cascate di dati sono solitamente influenzate da:

Le attività e le interazioni di sviluppatori, governi e altre parti interessate.
Luogo della raccolta dei dati (es: ospedali rurali dove avviene la raccolta dei dati dei sensori).
Secondo i ricercatori, le derive del modello sono più comuni quando i modelli si trovano in domini ad alto rischio, come il rilevamento della qualità dell’aria o l’esecuzione di un’ecografia, perché non esistono set di dati preesistenti e/o curati. I cosiddetti buoni modelli funzionano bene in un ambiente di laboratorio dove tutto è sotto controllo. Il mondo reale presenta sfide uniche.

“Nei sistemi live di nuovi ambienti digitali con vincoli di risorse, è più comune che i dati vengano raccolti con artefatti fisici come impronte digitali, ombre, polvere, illuminazione impropria e segni di penna, che possono aggiungere rumore che influisce sulle prestazioni del modello”, hanno spiegato i ricercatori.

 Cosa fare con le cascate di dati?

Le cascate di dati sono opache nella diagnosi e nella manifestazione, senza indicatori, strumenti e metriche chiari per rilevare e misurare i loro effetti sul sistema. Si verificano quando le pratiche convenzionali di IA vengono applicate in domini ad alto rischio caratterizzati da elevata responsabilità, lavoro interdisciplinare e vincoli di risorse. La maggior parte dei curricula per lauree, diplomi e nanolauree in IA si concentra sullo sviluppo di modelli, lasciando i laureati impreparati per la scienza, l’ingegneria e l’arte di lavorare con i dati, compresa la raccolta di dati, la costruzione di infrastrutture, la documentazione dei dati e rilevamento dei dati.

Misurare la fedeltà fenomenologica; sapere con quanta accuratezza e completezza i dati rappresentano i fenomeni.
Incentivare la comunità a spostare la propria attenzione dai modelli ai dati.
Promuovere la collaborazione per il lavoro sui dati. I team che hanno riscontrato il minor numero di cascate di dati in genere hanno avuto cicli di feedback graduali, hanno eseguito frequentemente i modelli, hanno lavorato a stretto contatto con esperti di domini applicativi e partner sul campo, hanno mantenuto una documentazione chiara dei dati e monitorato regolarmente i dati in entrata.
Lo stato socio-economico di una nazione dovrebbe essere considerato poiché la mancanza di set di dati curati può cambiare da un’area geografica all’altra. I ricercatori di Google raccomandano la creazione di banche di set di dati aperti, la creazione di politiche sui dati e l’aumento dell’alfabetizzazione ML dei responsabili delle politiche per affrontare le attuali disuguaglianze di dati a livello globale.
Crediti immagine: Google PAIR
 

Man mano che i sistemi maturano, di solito finiscono con un’ampia gamma di opzioni configurabili come le funzionalità utilizzate, la modalità di selezione dei dati, le impostazioni di apprendimento specifiche dell’algoritmo, i metodi di verifica, ecc. E, poiché le cascate di dati spesso hanno origine all’inizio del ciclo di vita di un ML, diventa ancora più impegnativo. I ricercatori lamentano che non ci sono indicatori, strumenti o metriche chiari per rilevare e misurare gli effetti a cascata dei dati. Un’altra sfida sono le costose modifiche a livello di sistema che potrebbero essere necessarie per identificare una cascata di dati. Tuttavia, i ricercatori ritengono che tali cascate di dati possano essere evitate attraverso interventi precoci nello sviluppo del machine learning, come menzionato sopra.

Di ihal