I set di dati alimentano modelli di intelligenza artificiale come la benzina (o l’elettricità, a seconda dei casi) alimentano le auto. Che abbiano il compito di generare testo, riconoscere oggetti o prevedere il prezzo delle azioni di un’azienda, i sistemi di intelligenza artificiale “imparano” setacciando innumerevoli esempi per discernere i modelli nei dati. Ad esempio, un sistema di visione artificiale può essere addestrato a riconoscere determinati tipi di abbigliamento, come cappotti e sciarpe, guardando diverse immagini di quell’abbigliamento.

Oltre allo sviluppo di modelli, i set di dati vengono utilizzati per testare i sistemi di intelligenza artificiale addestrati per garantire che rimangano stabili e misurare i progressi complessivi nel campo. I modelli che superano le classifiche su determinati benchmark open source sono considerati all’avanguardia (SOTA) per quel particolare compito. In effetti, è uno dei modi principali in cui i ricercatori determinano la forza predittiva di un modello.

 
Ma questi set di dati di intelligenza artificiale e machine learning, come gli umani che li hanno progettati, non sono privi di difetti. Gli studi dimostrano che i pregiudizi e gli errori colorano molte delle librerie utilizzate per addestrare, confrontare e testare i modelli, evidenziando il pericolo di riporre troppa fiducia in dati che non sono stati accuratamente controllati, anche quando i dati provengono da istituzioni decantate.

1. Il dilemma dell’allenamento
Nell’intelligenza artificiale, il benchmarking comporta il confronto delle prestazioni di più modelli progettati per lo stesso compito, come la traduzione di parole tra lingue. La pratica, che ha avuto origine con gli accademici che esploravano le prime applicazioni dell’IA, ha i vantaggi di organizzare gli scienziati attorno a problemi condivisi, aiutando al contempo a rivelare quanti progressi sono stati fatti. In teoria.

 
Ma ci sono rischi nel diventare miopi nella selezione dei set di dati. Ad esempio, se lo stesso set di dati di addestramento viene utilizzato per molti tipi di attività, è improbabile che il set di dati rifletta accuratamente i dati che i modelli vedono nel mondo reale. I set di dati disallineati possono distorcere la misurazione del progresso scientifico, portando i ricercatori a credere di fare un lavoro migliore di quello che effettivamente sono e causando danni alle persone nel mondo reale.

Ricercatori dell’Università della California, Los Angeles e Google hanno studiato il problema in uno studio pubblicato di recente intitolato “Ridotto, riutilizzato e riciclato: la vita di un set di dati nella ricerca sull’apprendimento automatico”. Hanno scoperto che c’è un “pesante prestito” di set di dati nell’apprendimento automatico – ad esempio, una comunità che lavora su un’attività potrebbe prendere in prestito un set di dati creato per un’altra attività – sollevando preoccupazioni sul disallineamento. Hanno anche dimostrato che solo una dozzina di università e aziende sono responsabili della creazione dei set di dati utilizzati più del 50% delle volte nell’apprendimento automatico, suggerendo che queste istituzioni stanno effettivamente plasmando i programmi di ricerca del settore.

“La ricerca di SOTA è una cattiva pratica perché ci sono troppe variabili confondenti, SOTA di solito non significa nulla e l’obiettivo della scienza dovrebbe essere quello di accumulare conoscenze anziché risultati in parametri di riferimento specifici per i giocattoli”, Denny Britz, un ex residente su il team di Google Brain, ha dichiarato a VentureBeat in una precedente intervista. “Ci sono state alcune iniziative per migliorare le cose, ma cercare SOTA è un modo semplice e veloce per rivedere e valutare i documenti. Cose come queste sono radicate nella cultura e richiedono tempo per cambiare”.

 
Al loro punto, ImageNet e Open Images, due set di dati di immagini pubblicamente disponibili di Stanford e Google, sono fortemente incentrati sugli Stati Uniti e sull’euro. I modelli di visione artificiale addestrati su questi set di dati hanno prestazioni peggiori sulle immagini dei paesi del Sud del mondo . Ad esempio, i modelli classificano gli sposi dell’Etiopia e del Pakistan con una precisione inferiore rispetto agli sposi degli Stati Uniti e non riescono a identificare correttamente oggetti come “matrimonio” o “spezie” quando provengono dal sud del mondo.

Anche le differenze nel percorso del sole tra gli emisferi nord e sud e le variazioni nello scenario dello sfondo possono influire sulla precisione del modello, così come le diverse specifiche dei modelli di  fotocamere come la risoluzione e le proporzioni. Le condizioni meteorologiche sono un altro fattore: un sistema per auto senza conducente addestrato esclusivamente su un set di dati di ambienti soleggiati e tropicali avrà prestazioni scadenti se incontra pioggia o neve.

Un recente studio del MIT rivela che i set di dati di visione artificiale, incluso ImageNet, contengono segnali problematici “senza senso”. I modelli addestrati su di essi soffrono di “sovrainterpretazione”, un fenomeno in cui classificano con alta sicurezza le immagini prive di così tanti dettagli da essere prive di significato per gli umani. Questi segnali possono portare alla fragilità del modello nel mondo reale, ma sono validi nei set di dati, il che significa che la sovrainterpretazione non può essere identificata utilizzando metodi tipici.

“C’è la questione di come possiamo modificare i set di dati in modo da consentire l’addestramento dei modelli per imitare più da vicino il modo in cui un umano penserebbe di classificare le immagini e quindi, si spera, generalizzare meglio in questi scenari del mondo reale, come la guida autonoma. e diagnosi medica, in modo che i modelli non abbiano questo comportamento senza senso”, afferma Brandon Carter, un Ph.D. del MIT. studente e autore principale dello studio, ha affermato in una nota.

 
La storia è piena di esempi delle conseguenze dell’implementazione di modelli addestrati utilizzando set di dati difettosi, come sfondi virtuali e strumenti di ritaglio di foto che sfavoriscono gli individui dalla pelle più scura. Nel 2015, un ingegnere del software ha sottolineato che gli algoritmi di riconoscimento delle immagini in Google Foto stavano etichettando i suoi amici neri come “gorilla”. E l’organizzazione no profit AlgorithmWatch ha mostrato che l’API Cloud Vision di Google un tempo etichettava i termometri tenuti da una persona di colore come “pistole” mentre etichettava i termometri tenuti da una persona dalla pelle chiara come “dispositivi elettronici”.

Set di dati dubbi hanno anche portato a modelli che perpetuano il reclutamento e l’assunzione sessisti , il targeting degli annunci per età , la classificazione errata e la recidiva razzista  e l’ approvazione del prestito . Il problema si estende all’assistenza sanitaria, dove i set di dati di formazione contenenti cartelle cliniche e immagini provengono principalmente da pazienti in Nord America, Europa e Cina, il che significa che i modelli hanno meno probabilità di funzionare bene per i gruppi sottorappresentati. Gli squilibri sono evidenti in modelli di computer vision shoplifter- e l’arma-spotting , il monitoraggio della sicurezza sul lavoro software , sistemi di rilevamento del suono d’arma da fuoco , efiltri di “abbellimento” , che amplificano i bias presenti nei dati su cui sono stati formati.

Gli esperti attribuiscono anche molti errori nel riconoscimento facciale , nel linguaggio e nei sistemi di riconoscimento vocale a difetti nei set di dati utilizzati per addestrare i modelli. Ad esempio, uno studio condotto da ricercatori dell’Università del Maryland ha scoperto che i servizi di rilevamento del volto di Amazon, Microsoft e Google hanno maggiori probabilità di fallire con gli individui più anziani, dalla pelle più scura e quelli che sono meno “femminili”. Secondo il progetto Voice Erasure del Algorithmic Justice League, sistemi di riconoscimento vocale di Apple, Amazon, Google, IBM e Microsoft insieme raggiungono tassi di errore di parola di 35% per voci nero contro il 19% per le voci bianche. E i modelli linguistici hanno dimostrato di mostrare pregiudizi insiemelinee razziali, etniche, religiose e di genere , associando i neri a emozioni più negative e lottando con “l’ inglese allineato ai neri “.

 
“I dati [vengono] raschiati da molti punti diversi sul web [in alcuni casi], e quei dati web riflettono gli stessi pregiudizi e pregiudizi a livello sociale delle ideologie egemoniche (ad esempio, della bianchezza e del dominio maschile)”, UC Los Angeles ‘ Bernard Koch e Jacob G. Foster e Emily Denton e Alex Hanna di Google, i coautori di “Ridotto, riutilizzato e riciclato”, hanno dichiarato a VentureBeat via e-mail. “I modelli più grandi richiedono più dati di addestramento e c’è stata una lotta per pulire questi dati e impedire ai modelli di amplificare queste idee problematiche”.

2. Problemi con l’etichettatura
Le etichette , le annotazioni da cui molti modelli apprendono le relazioni nei dati, portano anche i segni distintivi dello squilibrio dei dati. Gli esseri umani annotano gli esempi in set di dati di addestramento e benchmark, aggiungendo etichette come “cani” alle immagini di cani o descrivendo le caratteristiche in un’immagine di paesaggio . Ma gli annotatori portano sul tavolo i propri pregiudizi e difetti, che possono tradursi in annotazioni imperfette.

Ad esempio, gli studi hanno dimostrato che l’ annotatore medio ha maggiori probabilità di etichettare come tossiche le frasi in inglese vernacolare afroamericano (AAVE), la grammatica informale, il vocabolario e l’accento usati da alcuni neri americani. In un altro esempio, alcuni etichettatori per il set di dati 80 Million Tiny Images del MIT e della NYU – che è stato messo offline nel 2020 – hanno contribuito con annotazioni razziste, sessiste e altrimenti offensive, tra cui quasi 2.000 immagini etichettate con la parola N ed etichette come “sospetto di stupro” e “molestatore di bambini”.

 
Nel 2019, Wired ha  riferito della suscettibilità di piattaforme come Amazon Mechanical Turk, dove molti ricercatori reclutano annotatori, ai bot automatizzati. Anche quando i lavoratori sono umani in modo verificabile, sono motivati ​​dalla retribuzione piuttosto che dagli interessi, il che può portare a dati di bassa qualità, in particolare quando vengono trattati male e pagati a un tasso inferiore a quello di mercato . Ricercatori tra cui  Niloufar Salehi hanno tentato di affrontare i difetti di Amazon Mechanical Turk con sforzi come Dynamo, un collettivo di lavoratori ad accesso aperto, ma c’è solo così tanto che possono fare.

Essendo umani, anche gli annotatori commettono errori, a volte importanti. In un’analisi del MIT di benchmark popolari tra cui ImageNet, i ricercatori hanno trovato immagini con etichette errate (come una razza di cane che viene confusa con un’altra), sentimenti di testo (come le recensioni dei prodotti Amazon descritte come negative quando in realtà erano positive) e l’audio dei video di YouTube ( come una nota alta di Ariana Grande classificata come un fischio).

Una soluzione sta spingendo per la creazione di dataset più inclusivi, come il People’s Speech Dataset di MLCommons e il Multilingual Spoken Words Corpus . Ma curarli richiede tempo e denaro, spesso con un prezzo che raggiunge una gamma di milioni di dollari. Common Voice , lo sforzo di Mozilla per creare una raccolta open source di dati vocali trascritti, ha esaminato solo dozzine di lingue dal suo lancio nel 2017, illustrando la sfida.

Uno dei motivi per cui la creazione di un set di dati è così costosa è l’esperienza di dominio richiesta per annotazioni di alta qualità. Come notato da Synced in un articolo recente, la maggior parte delle etichettatrici a basso costo può annotare solo dati relativamente “a basso contesto” e non può gestire dati “ad alto contesto” come la classificazione del contratto legale, le immagini mediche o la letteratura scientifica. È stato dimostrato che i conducenti tendono a etichettare i set di dati della guida autonoma in modo più efficace rispetto a quelli senza patente di guida e che medici, patologi e radiologi ottengono risultati migliori nell’etichettare accuratamente le immagini mediche.

 
Gli strumenti meccanici potrebbero aiutare in una certa misura eliminando parte del lavoro più ripetitivo dal processo di etichettatura. Altri approcci, come l’apprendimento semi-supervisionato, promettono di ridurre la quantità di dati necessari per addestrare i modelli consentendo ai ricercatori di “perfezionare” un modello su piccoli set di dati personalizzati progettati per un particolare compito. Ad esempio, in un post sul blog pubblicato questa settimana, OpenAI afferma di essere riuscita a mettere a punto GPT-3 per rispondere in modo più accurato alle domande aperte copiando il modo in cui le persone ricercano le risposte alle domande online (ad esempio, inviando query di ricerca, seguendo link, e scorrendo le pagine su e giù) e citando le sue fonti, consentendo agli utenti di fornire feedback per migliorare ulteriormente la precisione.

Ancora altri metodi mirano a sostituire i dati del mondo reale con dati parzialmente o interamente sintetici, anche se la giuria è fuori dal dubbio se i modelli addestrati su dati sintetici possano eguagliare l’accuratezza delle loro controparti di dati del mondo reale. I ricercatori del MIT e altrove hanno sperimentato l’ uso del solo rumore casuale in set di dati di visione per addestrare modelli di riconoscimento degli oggetti.

In teoria, l’apprendimento non supervisionato potrebbe risolvere il dilemma dei dati di addestramento una volta per tutte. Nell’apprendimento non supervisionato, un algoritmo è soggetto a dati “sconosciuti” per i quali non esistono categorie o etichette precedentemente definite. Ma mentre l’apprendimento non supervisionato eccelle nei domini per i quali esiste una mancanza di dati etichettati, non è un punto debole. Ad esempio, senza supervisione sistemi di visione artificiale in grado p ick fino razziale e gli stereotipi di genere presenti nei dati di allenamento non etichettati.

3. Un problema di benchmark
I problemi con i set di dati AI non si fermano alla formazione. In uno studio dell’Istituto per l’intelligenza artificiale e il supporto alle decisioni di Vienna, i ricercatori hanno riscontrato un benchmarking incoerente su oltre 3.800 documenti di ricerca sull’intelligenza artificiale, in molti casi attribuibili a benchmark che non enfatizzavano le metriche informative. Un documento separato di Facebook e dell’University College di Londra ha mostrato che dal 60 al 70% delle risposte fornite da modelli di linguaggio naturale testati su benchmark “a dominio aperto” erano nascoste da qualche parte nei set di formazione, il che significa che i modelli hanno semplicemente memorizzato le risposte.

 
In due studi co-autrice di Deborah Raji, un tecnico dell’AI Now Institute della New York University, i ricercatori hanno scoperto che benchmark come ImageNet sono spesso “erroneamente elevati” per giustificare affermazioni che si estendono oltre i compiti per cui sono stati originariamente progettati. Ciò significa mettere da parte il fatto che la “cultura del set di dati” può distorcere la scienza della ricerca sull’apprendimento automatico, secondo Raji e gli altri coautori – e manca di una cultura della cura per i soggetti dei dati, generando condizioni di lavoro scadenti (come una bassa retribuzione per gli annotatori) mentre proteggere in modo insufficiente le persone i cui dati vengono intenzionalmente o non intenzionalmente spazzati via nei set di dati.

Diverse soluzioni al problema del benchmarking sono state proposte per domini specifici, incluso GENIE dell’Allen Institute . GENIE incorpora test automatici e manuali, incaricando i valutatori umani di sondare modelli linguistici secondo linee guida predefinite e specifiche per set di dati per fluidità, correttezza e concisione. Sebbene GENIE sia costoso – costa circa $ 100 presentare un modello per il benchmarking – l’Allen Institute prevede di esplorare altri modelli di pagamento, come richiedere il pagamento alle società tecnologiche sovvenzionando i costi per le piccole organizzazioni.

C’è anche un crescente consenso all’interno della comunità di ricerca sull’intelligenza artificiale che i benchmark, in particolare nel dominio linguistico , devono tenere conto di sfide etiche, tecniche e sociali più ampie se devono essere utili. Alcuni modelli linguistici hanno grandi impronte di carbonio , ma nonostante il diffuso riconoscimento del problema, relativamente pochi ricercatori tentano di stimare o segnalare il costo ambientale dei loro sistemi.

 
“[F] concentrarsi solo su prestazioni all’avanguardia de-enfatizza altri criteri importanti che catturano un contributo significativo”, hanno affermato Koch, Foster, Denton e Hanna. “[Ad esempio,] il benchmarking SOTA incoraggia la creazione di algoritmi non rispettosi dell’ambiente. Costruire modelli più grandi è stata la chiave per migliorare le prestazioni nell’apprendimento automatico, ma è anche insostenibile dal punto di vista ambientale a lungo termine… Il benchmarking SOTA [anche] non incoraggia gli scienziati a sviluppare una comprensione sfumata delle sfide concrete presentate dal loro compito nel mondo reale , e invece può incoraggiare la visione a tunnel su punteggi crescenti. Il requisito per ottenere SOTA vincola la creazione di nuovi algoritmi o algoritmi in grado di risolvere problemi del mondo reale.

Possibili soluzioni per set di dati AI
Date le grandi sfide con i set di dati di intelligenza artificiale, dai dati di addestramento sbilanciati a benchmark inadeguati, non sarà facile effettuare cambiamenti significativi. Ma gli esperti ritengono che la situazione non sia senza speranza.

Arvind Narayanan, un informatico di Princeton che ha scritto diversi lavori che indagano sulla provenienza dei set di dati di intelligenza artificiale, afferma che i ricercatori devono adottare approcci responsabili non solo alla raccolta e all’annotazione dei dati, ma anche alla documentazione dei loro set di dati, alla loro manutenzione e alla formulazione dei problemi per i quali i loro set di dati sono progettati. In un recente studio di cui è coautore, Narayanan ha scoperto che molti set di dati sono soggetti a cattiva gestione, con i creatori che non sono precisi nel linguaggio della licenza su come i loro set di dati possono essere utilizzati o vietano usi potenzialmente discutibili.

 
“I ricercatori dovrebbero pensare ai diversi modi in cui il loro set di dati può essere utilizzato… Lo ‘stewarding’ responsabile del set di dati, come lo chiamiamo noi, richiede di affrontare rischi più ampi”, ha detto a VentureBeat via e-mail. “Un rischio è che anche se un set di dati viene creato per uno scopo che sembra benigno, potrebbe essere utilizzato involontariamente in modi che possono causare danni. Il set di dati potrebbe essere riutilizzato per un’applicazione di ricerca eticamente dubbia. Oppure, il set di dati potrebbe essere utilizzato per addestrare o confrontare un modello commerciale quando non è stato progettato per queste impostazioni ad alto rischio. I set di dati in genere richiedono molto lavoro per essere creati da zero, quindi ricercatori e professionisti spesso cercano di sfruttare ciò che già esiste. L’obiettivo di una gestione responsabile dei set di dati è garantire che ciò avvenga in modo etico”.

Koch e i coautori ritengono che le persone, e le organizzazioni, debbano essere ricompensate e supportate per la creazione di set di dati nuovi e diversificati contestualizzati per il compito da svolgere. I ricercatori devono essere incentivati ​​a utilizzare set di dati “più appropriati” in occasione di conferenze accademiche come NeurIPS, affermano, e incoraggiati a eseguire analisi più qualitative, come l’interpretabilità del loro modello, nonché a riportare metriche come l’equità (per quanto possibile) e Efficienza Energetica.

NeurIPS, una delle più grandi conferenze di apprendimento automatico al mondo, ha imposto ai coautori che presentano documenti di dichiarare il “potenziale impatto più ampio del loro lavoro” sulla società, a partire da NeurIPS 2020 lo scorso anno. Il pickup è stato misto , ma Koch e i coautori credono che sia un piccolo passo nella giusta direzione.

 
“[M]i ricercatori di apprendimento automatico stanno creando molti set di dati, ma non vengono utilizzati. Uno dei problemi qui è che molti ricercatori potrebbero ritenere di dover includere il benchmark ampiamente utilizzato per dare credibilità al loro articolo, piuttosto che un benchmark più di nicchia ma tecnicamente appropriato”, hanno affermato. “Inoltre, gli incentivi professionali devono essere allineati alla creazione di questi set di dati… Riteniamo che ci sia ancora una parte della comunità di ricerca che è scettica sulla riforma dell’etica e affrontare le questioni scientifiche potrebbe essere un modo diverso per convincere queste persone dietro le riforme a valutazione nell’apprendimento automatico”.

Non esiste una soluzione semplice al problema dell’annotazione del set di dati, supponendo che l’etichettatura non venga eventualmente sostituita da alternative. Ma un recente documento di Google suggerisce che i ricercatori farebbero bene a stabilire “quadri di comunicazione estesi” con annotatori, come le app di chat, per fornire feedback più significativi e istruzioni più chiare. Allo stesso tempo, devono lavorare per riconoscere (e effettivamente spiegare) il background socioculturale dei lavoratori, hanno scritto i coautori, sia dal punto di vista della qualità dei dati che dell’impatto sociale.

Il documento va oltre, fornendo consigli per la formulazione delle attività dei set di dati e la scelta di annotatori, piattaforme e infrastruttura di etichettatura. I coautori affermano che i ricercatori dovrebbero considerare le forme di competenza che potrebbero essere incorporate attraverso l’annotazione, oltre a rivedere i casi d’uso previsti del set di dati. Dicono anche che dovrebbero confrontare e contrapporre i requisiti di retribuzione minima su diverse piattaforme e analizzare i disaccordi tra annotatori di diversi gruppi, consentendo loro di – si spera – capire meglio come sono o non sono rappresentate le diverse prospettive.

“Se vogliamo davvero diversificare i parametri di riferimento in uso, gli attori governativi e aziendali devono creare sovvenzioni per la creazione di set di dati e distribuire tali sovvenzioni a istituzioni e ricercatori con risorse insufficienti provenienti da ambienti sottorappresentati”, hanno affermato Koch e coautori. “Diremmo che ora c’è un’abbondante ricerca che mostra problemi etici e danni sociali che possono derivare dall’uso improprio dei dati nell’apprendimento automatico … potrebbe stimolare ulteriori riforme in grado di mitigare anche i danni sociali”.

Di ihal