Questo solleva una serie di motivi di preoccupazione pratici, etici e persino politici.
Un cartello di set di dati influenti sta dominando la ricerca sull’apprendimento automatico, suggerisce un nuovo studio
Un nuovo documento dell’Università della California e di Google Research ha scoperto che un piccolo numero di set di dati di apprendimento automatico “di riferimento” , in gran parte provenienti da influenti istituzioni occidentali e spesso da organizzazioni governative, sta dominando sempre più il settore della ricerca sull’intelligenza artificiale.
I ricercatori concludono che questa tendenza a “predefinire” a set di dati open source molto popolari, come ImageNet , solleva una serie di motivi di preoccupazione pratici, etici e persino politici.
Tra le loro scoperte, basate sui dati fondamentali del progetto della comunità guidato da Facebook Papers With Code (PWC), gli autori sostengono che “set di dati ampiamente utilizzati sono introdotti solo da una manciata di istituzioni d’élite” e che questo “consolidamento” è aumentato all’80% negli ultimi anni.
“[Troviamo] che vi è una crescente disuguaglianza nell’utilizzo dei set di dati a livello globale e che oltre il 50% di tutti gli utilizzi dei set di dati nel nostro campione di 43.140 corrispondeva a set di dati introdotti da dodici istituzioni d’élite, principalmente occidentali.”
Una mappa degli utilizzi di set di dati non specifici per attività negli ultimi dieci anni. I criteri per l’inclusione sono quelli in cui l’istituto o l’azienda rappresenta più del 50% degli usi noti. A destra è mostrato il coefficiente di Gini per la concentrazione dei dataset nel tempo sia per le istituzioni che per i dataset. Fonte: https://arxiv.org/pdf/2112.01716.pdf
Le istituzioni dominanti includono la Stanford University, Microsoft, Princeton, Facebook, Google, il Max Planck Institute e AT&T. Quattro delle prime dieci fonti di set di dati sono istituzioni aziendali.
Il documento caratterizza anche l’uso crescente di questi set di dati d’élite come “un veicolo per la disuguaglianza nella scienza” . Questo perché i team di ricerca che cercano l’approvazione della comunità sono più motivati a ottenere risultati all’avanguardia (SOTA) rispetto a un set di dati coerente piuttosto che a generare set di dati originali che non hanno tale reputazione e che richiederebbero ai colleghi di adattarsi a nuovi metriche anziché indici standard.
In ogni caso, come riconosce il documento, creare il proprio set di dati è una ricerca proibitiva per istituzioni e team con meno risorse.
“La validità scientifica prima facie garantita dal benchmarking SOTA è genericamente confusa con la credibilità sociale che i ricercatori ottengono dimostrando di poter competere su un set di dati ampiamente riconosciuto, anche se un benchmark più specifico per il contesto potrebbe essere tecnicamente più appropriato.
‘Noi postuliamo che queste dinamiche creano un “effetto Matteo” (cioè “i ricchi diventano più ricchi ei poveri diventano più poveri”) in cui i benchmark di successo e le istituzioni d’élite che li introducono, guadagnano una statura fuori misura all’interno del campo.
Il documento si intitola Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research e viene da Bernard Koch e Jacob G. Foster dell’UCLA, ed Emily Denton e Alex Hanna di Google Research.
Il lavoro solleva una serie di problemi con la crescente tendenza al consolidamento che documenta ed è stato accolto con approvazione generale in occasione di Open Review. Un revisore di NeurIPS 2021 ha commentato che il lavoro è “estremamente rilevante per chiunque sia coinvolto nella ricerca sull’apprendimento automatico”. e ne prevedeva l’inserimento come lettura assegnata ai corsi universitari.
Dalla necessità alla corruzione
Gli autori osservano che l’attuale cultura del ‘beat-the-benchmark’ è emersa come rimedio alla mancanza di strumenti di valutazione oggettivi che ha causato il secondo crollo dell’interesse e degli investimenti nell’IA oltre trent’anni fa , dopo il declino dell’entusiasmo aziendale verso nuova ricerca in ‘Expert Systems’:
‘I benchmark in genere formalizzare un particolare compito attraverso un set di dati e una metrica quantitativa associata di valutazione. La pratica è stata originariamente introdotta nella [ricerca sull’apprendimento automatico] dopo l'”Inverno AI” degli anni ’80 da finanziatori governativi, che hanno cercato di valutare in modo più accurato il valore ricevuto dalle sovvenzioni.’
Il documento sostiene che i vantaggi iniziali di questa cultura informale della standardizzazione (riduzione delle barriere alla partecipazione, metriche coerenti e opportunità di sviluppo più agili) stanno iniziando a essere superati dagli svantaggi che si verificano naturalmente quando un corpo di dati diventa abbastanza potente da definirne efficacemente “condizioni di utilizzo” e ambito di influenza.
Gli autori suggeriscono, in linea con il pensiero accademico e industriale molto recente in materia, che la comunità di ricerca non pone più nuovi problemi se questi non possono essere affrontati attraverso i set di dati di riferimento esistenti.
Notano inoltre che l’adesione cieca a questo piccolo numero di set di dati “oro” incoraggia i ricercatori a ottenere risultati che sono sovradimensionati (cioè che sono specifici del set di dati e che probabilmente non funzioneranno neanche lontanamente su dati del mondo reale, su nuovi risultati accademici o originali set di dati, o anche necessariamente su set di dati diversi nel ‘gold standard’).
“Data l’elevata concentrazione osservata della ricerca su un piccolo numero di set di dati di riferimento, riteniamo che diversificare le forme di valutazione sia particolarmente importante per evitare un adattamento eccessivo ai set di dati esistenti e rappresentare in modo errato i progressi nel campo.”
Influenza del governo nella ricerca sulla visione artificiale
Secondo il documento, la ricerca sulla visione artificiale è notevolmente più colpita dalla sindrome che delinea rispetto ad altri settori, con gli autori che osservano che la ricerca sull’elaborazione del linguaggio naturale (NLP) è molto meno colpita. Gli autori suggeriscono che ciò potrebbe essere dovuto al fatto che le comunità della PNL sono “più coerenti” e di dimensioni maggiori, e perché i set di dati della PNL sono più accessibili e più facili da curare, oltre ad essere più piccoli e meno dispendiosi in termini di risorse in termini di raccolta dei dati.
In Computer Vision, e in particolare per quanto riguarda i set di dati di riconoscimento facciale (FR), gli autori sostengono che gli interessi aziendali, statali e privati spesso si scontrano:
“Le istituzioni aziendali e governative hanno obiettivi che possono entrare in conflitto con la privacy (ad es. la sorveglianza) e la loro ponderazione di queste priorità sarà probabilmente diversa da quella degli accademici o delle più ampie parti interessate della società dell’IA.”
Per le attività di riconoscimento facciale, i ricercatori hanno scoperto che l’incidenza di set di dati puramente accademici diminuisce drasticamente rispetto alla media:
“[Quattro] degli otto set di dati (33,69% degli utilizzi totali) sono stati finanziati esclusivamente da aziende, esercito americano o governo cinese (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M è stato infine ritirato a causa delle controversie sul valore della privacy per le diverse parti interessate.’
I principali set di dati utilizzati nelle comunità di ricerca sulla generazione di immagini e sul riconoscimento dei volti.
Nel grafico sopra, come notano gli autori, vediamo anche che il campo relativamente recente della generazione di immagini (o sintesi delle immagini ) è fortemente dipendente da set di dati esistenti e molto più vecchi che non erano destinati a questo uso.
In effetti, il documento osserva una tendenza crescente alla “migrazione” di set di dati lontano dallo scopo previsto, mettendo in discussione la loro idoneità alle esigenze di settori di ricerca nuovi o periferici e la misura in cui i vincoli di bilancio possono “genericizzare” il portata delle ambizioni dei ricercatori nel quadro più ristretto fornito sia dai materiali disponibili che da una cultura così ossessionata dalle valutazioni di riferimento anno dopo anno che i nuovi set di dati hanno difficoltà a guadagnare terreno.
“I nostri risultati indicano anche che i set di dati vengono trasferiti regolarmente tra diverse comunità di compiti. All’estremo, la maggior parte dei set di dati di riferimento in circolazione per alcune task community sono stati creati per altri task.’
Per quanto riguarda i luminari dell’apprendimento automatico ( incluso Andrew Ng ) che negli ultimi anni hanno chiesto sempre più diversità e cura dei set di dati, gli autori supportano il sentimento, ma ritengono che questo tipo di sforzo, anche se di successo, potrebbe essere potenzialmente minato dall’attuale la dipendenza della cultura dai risultati SOTA e dai set di dati stabiliti:
“La nostra ricerca suggerisce che la semplice richiesta ai ricercatori ML di sviluppare più set di dati e lo spostamento delle strutture di incentivi in modo che lo sviluppo del set di dati sia valutato e ricompensato, potrebbe non essere sufficiente per diversificare l’utilizzo del set di dati e le prospettive che alla fine stanno plasmando e definendo i programmi di ricerca MLR.
“Oltre a incentivare lo sviluppo di set di dati, sosteniamo interventi politici orientati all’equità che diano la priorità a finanziamenti significativi per le persone in istituzioni con meno risorse per creare set di dati di alta qualità. Ciò diversificherebbe, da un punto di vista sociale e culturale, i set di dati di riferimento utilizzati per valutare i moderni metodi di machine learning.’