L’etichettatura dei dati per la ricerca sull’IA è altamente incoerente, secondo uno studio
L’apprendimento automatico supervisionato, in cui i modelli di apprendimento automatico apprendono dai dati di addestramento etichettati, è buono solo quanto la qualità di tali dati. In uno studio pubblicato sulla rivista Quantitative Science Studies , i ricercatori della società di consulenza Webster Pacific e dell’Università della California, San Diego e Berkeley indagano fino a che punto vengono seguite le migliori pratiche relative all’etichettatura dei dati nei documenti di ricerca sull’intelligenza artificiale, concentrandosi sui dati etichettati dall’uomo. Hanno scoperto che i tipi di dati etichettati variano ampiamente da carta a carta e che una “pluralità” degli studi intervistati non ha fornito informazioni su chi ha eseguito l’etichettatura o da dove provenissero i dati.
Mentre i dati etichettati sono generalmente equiparati alla verità di base, i set di dati possono – e contengono – errori. I processi utilizzati per costruirli sono intrinsecamente soggetti a errori, il che diventa problematico quando questi errori raggiungono i set di test, i sottoinsiemi di set di dati utilizzati dai ricercatori per confrontare i progressi. Un recente documento del MIT ha identificato da migliaia a milioni di campioni con etichetta errata nei set di dati utilizzati per addestrare i sistemi commerciali. Questi errori potrebbero portare gli scienziati a trarre conclusioni errate su quali modelli funzionano meglio nel mondo reale, minando i benchmark.
I coautori del documento Quantitative Science Studies hanno esaminato 141 studi sull’intelligenza artificiale in una vasta gamma di discipline diverse, tra cui scienze sociali e umanistiche, scienze biomediche e della vita e scienze fisiche e ambientali. Di tutti i documenti, il 41% ha sfruttato un set di dati con etichetta umana esistente, il 27% ha prodotto un nuovo set di dati con etichetta umana e il 5% non ha rivelato in alcun modo. (Il restante 27% utilizzava set di dati etichettati con macchine.) Solo la metà dei progetti che utilizzavano dati etichettati da persone ha rivelato se agli annotatori sono stati forniti documenti o video contenenti linee guida, definizioni ed esempi a cui fare riferimento come aiuti. Inoltre, c’era una “ampia variazione” nelle metriche utilizzate per valutare se gli annotatori erano d’accordo o in disaccordo con particolari etichette, con alcuni giornali che non lo notavano del tutto.
Compensazione e riproducibilità
Come sottolineato in un precedente studio degli scienziati di Cornell e Princeton, un luogo importante per il lavoro di etichettatura in crowdsourcing è Amazon Mechanical Turk, dove gli annotatori provengono principalmente dagli Stati Uniti e dall’India. Questo può portare a uno squilibrio delle prospettive culturali e sociali. Ad esempio, la ricerca ha scoperto che i modelli addestrati su ImageNet e Open Images, due grandi set di dati di immagini disponibili al pubblico, hanno prestazioni peggiori sulle immagini dei paesi del Sud del mondo . Le immagini degli sposi sono classificate con minore precisione quando provengono dall’Etiopia e dal Pakistan rispetto alle immagini degli sposi dagli Stati Uniti
Per gli annotatori, le attività di etichettatura tendono a essere monotone e poco remunerative: i lavoratori di ImageNet guadagnavano in media 2 dollari l’ora. Sfortunatamente, l’ indagine Quantitative Science Studies mostra che il campo dell’IA lascia in gran parte irrisolto il problema dell’equo compenso. La maggior parte delle pubblicazioni non indicava il tipo di ricompensa che offrivano agli etichettatori e non includeva nemmeno un collegamento al set di dati di formazione.
Oltre a rendere un disservizio agli etichettatori, la mancanza di collegamenti minaccia di esacerbare il problema della riproducibilità nell’IA. A ICML 2019, il 30% degli autori non ha presentato il codice con i loro documenti entro l’inizio della conferenza. E un rapporto ha rilevato che dal 60% al 70% delle risposte fornite dai modelli di elaborazione del linguaggio naturale erano incorporate da qualche parte nei set di allenamento di riferimento, indicando che i modelli spesso memorizzavano semplicemente le risposte.
“Alcuni dei documenti che abbiamo analizzato hanno descritto in modo molto dettagliato come le persone che hanno etichettato il loro set di dati sono state scelte per la loro esperienza, da medici esperti che diagnosticano malattie a giovani che hanno familiarità con il gergo dei social media in più lingue. Detto questo, non tutte le attività di etichettatura richiedono anni di esperienza specializzata, come attività più semplici che abbiamo visto, come distinguere le recensioni aziendali positive da quelle negative o identificare i diversi gesti delle mani”, hanno scritto i coautori del documento Quantitative Science Studies . “Anche le attività di classificazione più apparentemente semplici possono ancora avere un notevole margine di ambiguità ed errore per gli inevitabili casi limite, che richiedono processi di formazione e verifica per garantire un set di dati standardizzato”.
Andando avanti
I ricercatori evitano di sostenere un’unica soluzione valida per tutti per l’etichettatura dei dati umani. Tuttavia, chiedono agli scienziati dei dati che scelgono di riutilizzare i set di dati di esercitare la stessa cautela intorno alla decisione come farebbero se etichettassero i dati da soli, per evitare che si insinuino pregiudizi. È stato scoperto che una versione precedente di ImageNet contiene foto di bambini nudi, attrici porno e feste universitarie, tutte raschiate dal web senza il consenso di quelle persone. Un altro popolare set di dati, 80 milioni di piccole immagini, è stato messo offline dopo che da un audit sono emerse annotazioni razziste, sessiste e altrimenti offensive, come quasi 2.000 immagini etichettate con la parola N ed etichette come “sospetto di stupro” e “molestatore di bambini”.
“Vediamo un ruolo per il principio classico della riproducibilità, ma per l’etichettatura dei dati: il documento fornisce dettagli sufficienti in modo che un altro ricercatore possa ipoteticamente reclutare un team simile di etichettatori, dare loro le stesse istruzioni e formazione, riconciliare i disaccordi in modo simile e avere producono un set di dati etichettato in modo simile?” hanno scritto i ricercatori. “[Il nostro lavoro fornisce] prove dell’affermazione che esiste una variazione sostanziale e ampia nelle pratiche relative all’etichettatura umana, alla cura dei dati di formazione e alla documentazione della ricerca … Facciamo appello alle istituzioni della scienza – pubblicazioni, finanziatori, società disciplinari ed educatori – svolgere un ruolo importante nell’elaborazione di soluzioni a questi problemi di qualità dei dati e documentazione della ricerca.