Adobe e Meta Decry uso improprio degli studi sugli utenti nella ricerca sulla visione artificiale
 

Adobe e Meta, insieme all’Università di Washington, hanno pubblicato un’ampia critica riguardo a quello che affermano essere il crescente uso improprio e abuso degli studi sugli utenti nella ricerca sulla visione artificiale (CV).

Gli studi sugli utenti una volta erano in genere limitati a persone del posto o studenti nel campus di una o più istituzioni accademiche partecipanti, ma da allora sono migrati quasi all’ingrosso a piattaforme di crowdsourcing online come Amazon Mechanical Turk (AMT).

Tra un’ampia gamma di lamentele, il nuovo documento sostiene che i progetti di ricerca subiscono pressioni per produrre studi da revisori del documento; spesso formulano male gli studi; stanno commissionando studi in cui la logica del progetto non supporta questo approccio; e sono spesso “giocati” da cinici crowdworker che “scoprono” le risposte desiderate invece di pensare davvero al problema.

Il trattato di quindici pagine (intitolato Towards Better User Studies in Computer Graphics and Vision ) che comprende il corpo centrale del nuovo documento solleva molte altre critiche al modo in cui gli studi sugli utenti in crowdsourcing potrebbero effettivamente ostacolare l’avanzamento dei sottosettori della visione artificiale, come il riconoscimento delle immagini e la sintesi delle immagini .

Sebbene il documento affronti una tranche molto più ampia di questioni relative agli studi sugli utenti, le sue punte più forti sono riservate al modo in cui la valutazione dell’output negli studi sugli utenti (cioè quando gli esseri umani in crowdsourcing vengono pagati negli studi sugli utenti per esprimere giudizi di valore, ad esempio, sull’output di nuovi algoritmi di sintesi delle immagini) potrebbero incidere negativamente sull’intero settore.

Diamo un’occhiata ad una selezione di alcuni dei punti centrali.

Interpretazioni sensazionali
Tra la serie di suggerimenti del giornale per coloro che pubblicano nel settore della visione artificiale, c’è l’ammonimento a “interpretare attentamente i risultati”. L’articolo cita un esempio del 2021, quando un nuovo lavoro di ricerca secondo cui “gli individui non sono in grado di identificare accuratamente le opere d’arte generate dall’intelligenza artificiale” è stato ampiamente diffuso sulla stampa popolare .

Uno dei resoconti dei media di più alto profilo sul documento del 2021 “The Role of AI Attribution Knowledge in the Evaluation of Artwork”, di Harsha Gangadharbatla, citato come esempio nel nuovo documento. Qui, la fonte del Daily Mail è The Times (paywalled). Fonti: Daily Mail (link all’archivio) / https://www.gwern.net/docs/ai/nn/gan/2021-gangadharbatla.pdf
Gli autori affermano*:

“[In] uno studio in una rivista di psicologia, le immagini di opere d’arte tradizionali e le immagini create dalle tecnologie di intelligenza artificiale sono state raccolte dal web e ai crowdworker è stato chiesto di distinguere quali immagini provenissero da quali fonti. Dai risultati si è concluso che “gli individui non sono in grado di identificare accuratamente le opere d’arte generate dall’IA”, una conclusione molto ampia che non segue direttamente dagli esperimenti.

‘Inoltre, il documento non riporta dettagli su quali specifici set di immagini sono stati raccolti o utilizzati, rendendo le affermazioni difficili, se non impossibili, da verificare e riprodurre.

“Più preoccupante è che la stampa popolare abbia riportato questi risultati con le affermazioni fuorvianti secondo cui le IA possono creare arte in modo indipendente così come gli esseri umani”.

Gestire i crowdworker che imbrogliano
I lavoratori in crowdsourcing di solito non sono pagati molto per i loro sforzi. Dal momento che le loro prospettive sono minime e il loro miglior potenziale di guadagno è attraverso il completamento di un volume elevato di compiti, molti di loro sono, secondo la ricerca , disposti a prendere qualsiasi “scorciatoia” che accelererà l’attività corrente in modo che possano passare al prossimo “concerto” minore.

Il documento osserva che i lavoratori in crowdsourcing, proprio come i sistemi di apprendimento automatico , impareranno schemi ripetitivi negli studi sugli utenti che i ricercatori formulano e semplicemente dedurranno la risposta “corretta” o “desiderata”, piuttosto che produrre una vera risposta organica al materiale.

A tal fine, il documento raccomanda di condurre controlli sui lavoratori in crowdsourcing, noti anche come “prove di convalida” o “sentinelle”, in effetti sezioni false di un test progettato per vedere se il lavoratore sta prestando attenzione, facendo clic casualmente o semplicemente seguendo un modello che essi stessi hanno dedotto dai test, piuttosto che pensare alle loro scelte.

Gli autori affermano:

‘Ad esempio, nel caso di coppie di immagini stilizzate, un’immagine della coppia può essere un risultato di qualità intenzionalmente e oggettivamente scadente. Durante l’analisi, i dati dei partecipanti che hanno fallito un numero prestabilito di controlli possono essere scartati, presumendo che siano generati da partecipanti disattenti o incoerenti.

‘Questi controlli dovrebbero essere inseriti casualmente nello studio e dovrebbero apparire come gli altri studi; in caso contrario, i partecipanti possono capire quali prove sono i controlli.’  

Gestire i ricercatori che imbrogliano
Con o senza intenzione, i ricercatori possono essere complici di questo tipo di “gioco”; ci sono molti modi per loro, forse anche inavvertitamente, di “segnalare” le loro scelte desiderate ai crowdworker.

Ad esempio, il documento osserva, selezionando i crowdworker con profili che possono essere favorevoli all’ottenimento delle risposte “ideali” in uno studio, dimostrando nominalmente un’ipotesi che avrebbe potuto fallire su un gruppo meno “selezionato” e più arbitrario.

Anche la fraseologia è una preoccupazione fondamentale:

“La formulazione dovrebbe riflettere gli obiettivi di alto livello, ad esempio “quale immagine contiene meno artefatti?” invece di “quale immagine contiene meno difetti di colore nella regione facciale?” Al contrario, la formulazione imprecisa del compito lascia troppo all’interpretazione, ad esempio “quale immagine è migliore?” può essere inteso come “che è esteticamente più gradevole?” dove l’intenzione potrebbe essere stata quella di valutare “quale è più realistico?”

Un altro modo per “influenzare benevolmente” i partecipanti è far loro sapere, apertamente o implicitamente, quale delle possibili scelte di fronte a loro è il metodo dell’autore, piuttosto che un metodo precedente o un campione casuale.

Il documento afferma*:

“[I] partecipanti possono rispondere con le risposte che pensano che i ricercatori vogliano, consapevolmente o meno, che è noto come “effetto buon soggetto “. Non etichettare gli output con nomi come “il nostro metodo” o “metodo esistente”. I partecipanti possono essere influenzati dalle dinamiche di potere (cioè, il ricercatore che detiene il potere eseguendo la sessione di ricerca), i ricercatori che usano il linguaggio per preparare i partecipanti (ad esempio, “quanto ti piace questo strumento che ho costruito ieri?”), e i ricercatori e i partecipanti ‘relazione (ad esempio, se entrambi lavorano nello stesso laboratorio o azienda).’

Anche la formattazione di un’attività in uno studio utente può influire sulla neutralità dello studio. Gli autori notano che se, in una presentazione affiancata, la linea di base è costantemente posizionata a sinistra (cioè ‘immagine A’) e l’output del nuovo algoritmo a destra, i partecipanti allo studio potrebbero dedurre che B è il ‘ scelta migliore, in base alla loro crescente presunzione del risultato sperato dai ricercatori.

‘Altri aspetti della presentazione come la dimensione delle immagini sullo schermo, la loro distanza l’una dall’altra, ecc. possono influenzare le risposte dei partecipanti. Pilotare lo studio con alcune impostazioni diverse può aiutare a individuare presto queste potenziali confusioni.’

Le persone sbagliate per il prodotto sbagliato
Gli autori osservano in diversi punti dell’articolo che i lavoratori in crowdsourcing sono una risorsa più “generica” ​​di quanto ci si sarebbe aspettati nei decenni precedenti, quando i ricercatori erano costretti a chiedere aiuto a livello locale, spesso a studenti di facoltà che integravano il loro reddito attraverso la partecipazione allo studio.

Il requisito per la partecipazione attiva lascia al crowdworker assunto poco spazio per essere “non perplesso” da un prodotto che stanno testando e gli autori dell’articolo raccomandano ai ricercatori di identificare i loro utenti target prima di sviluppare e testare un potenziale prodotto o servizio, altrimenti rischi di produrre qualcosa molto difficile da creare, ma che nessuno vuole davvero.

“In effetti, abbiamo spesso assistito alla computer grafica o ai ricercatori della visione che tentavano di far adottare la loro ricerca da professionisti del settore, solo per scoprire che la ricerca non risponde alle esigenze degli utenti target. I ricercatori che all’inizio non eseguono la ricerca dei bisogni possono essere sorpresi di scoprire che gli utenti non hanno bisogno o interesse per lo strumento che hanno impiegato mesi o anni a sviluppare.

“Tali strumenti possono funzionare male negli studi di valutazione, poiché gli utenti potrebbero scoprire che la tecnologia produce risultati inutili, irrilevanti o inaspettati”.

Il documento osserva inoltre che gli utenti che potrebbero effettivamente utilizzare un prodotto dovrebbero essere selezionati per gli studi, anche se non sono facili da trovare (o, presumibilmente, altrettanto economici).

Piuttosto che tornare al reclutamento nel campus (che sarebbe forse una mossa piuttosto arretrata), gli autori suggeriscono che i ricercatori “reclutino utenti in natura”, impegnandosi con le comunità pertinenti.

“Ad esempio, potrebbe esserci una bacheca online attiva pertinente o una comunità di social media che può essere sfruttata. Anche l’incontro con un membro della comunità può portare a un campionamento a valanga , in cui gli utenti pertinenti offrono connessioni a individui simili nella loro rete.’

Sollecitare feedback
Il documento raccomanda inoltre di sollecitare un feedback qualitativo da coloro che hanno partecipato a studi sugli utenti, anche perché ciò può potenzialmente esporre false ipotesi da parte dei ricercatori.

“Questi possono aiutare a eseguire il debug dello studio, ma possono anche rivelare aspetti inaspettati dell’output che hanno influenzato le valutazioni degli utenti. Il partecipante era “molto insoddisfatto” [sic] dell’output perché non era realistico, non estetico, di parte o per qualche altro motivo?

“Senza informazioni qualitative, il ricercatore può lavorare per perfezionare l’algoritmo in modo che sia più realistico, invece di affrontare il problema dell’utente sottostante.”

Come per molte delle raccomandazioni in tutto il documento, questa particolare raccomandazione comporta un ulteriore dispendio di tempo e denaro da parte dei ricercatori, in una cultura che, osserva il lavoro, è inadempiente a studi sugli utenti in crowdsourcing rapidi e praticamente obbligatori, che di solito sono abbastanza economici e conformi a una cultura emergente basata sullo studio che il giornale critica in tutto e per tutto.

Studiato troppo
Il documento suggerisce che gli studi sugli utenti stanno diventando una sorta di “requisito minimo” nella comunità della visione artificiale pre-stampa, anche nei casi in cui uno studio non può essere formulato ragionevolmente (ad esempio, con un’idea così nuova o marginale che non c’è ” analisi simili da condurre e che potrebbero non essere suscettibili di alcuna metrica ragionevole che possa produrre risultati significativi in ​​uno studio sugli utenti).

Come esempio di “bullismo da studio” (non la frase degli autori), i ricercatori citano il caso di un documento ICLR 2022 per il quale sono disponibili online le revisioni tra pari (foto d’archivio scattata il 24 giugno 2022; link tratto direttamente dal nuovo articolo) † :

‘Due revisori hanno dato punteggi molto negativi a causa, in parte, della mancanza di studi sugli utenti. Il documento è stato infine accettato, accompagnato da un riassunto che rimproverava i revisori per l’utilizzo di “studi sugli utenti” come scusa per una revisione scadente e li accusava di essere custoditi. Vale la pena leggere la discussione completa.

‘La decisione finale ha rilevato che la presentazione descriveva una libreria di software che era stata distribuita per anni , con migliaia di utenti (informazioni che non sono state rivelate ai revisori per la revisione anonima). Il documento, che descrive un sistema di grande impatto, sarebbe stato respinto se il comitato non avesse avuto queste informazioni?

“E se gli autori avessero compiuto lo sforzo extra di escogitare ed eseguire uno studio sugli utenti, sarebbe stato significativo e sarebbe stato sufficiente per convincere i revisori?”

Gli autori affermano di aver visto revisori ed editori imporre “requisiti di valutazione onerosi” ai documenti presentati, indipendentemente dal fatto che tali valutazioni abbiano davvero un significato o valore.

“Abbiamo anche osservato che autori e revisori utilizzano le valutazioni di MTurk come una stampella per evitare di prendere decisioni difficili. I commenti dei revisori come “Non posso dire se le immagini sono migliori, forse uno studio sugli utenti potrebbe aiutare” sono potenzialmente dannosi, incoraggiando gli autori a svolgere un lavoro extra che non migliorerà una carta poco brillante.’

Gli autori chiudono il documento con un “invito all’azione” centrale, affinché le comunità di visione artificiale e computer grafica considerino più pienamente le loro richieste di studi sugli utenti, invece di lasciare che una cultura guidata dallo studio si sviluppi come un’impostazione predefinita meccanica, nonostante il “bordo casi in cui alcuni dei lavori più interessanti potrebbero non adattarsi ad alcune delle pipeline di ricerca e presentazione più redditizie o fruttuose.

Gli autori concludono:

“[Se] l’obiettivo principale di condurre studi sugli utenti è quello di placare i revisori piuttosto che generare nuovi apprendimenti, l’utilità e la validità di tali studi sugli utenti dovrebbero essere messe in discussione sia dagli autori che dai revisori. La penalizzazione del lavoro che non contiene la valutazione dell’utente ha la conseguenza non intenzionale di incentivare la ricerca degli utenti eseguita frettolosamente e mal eseguita.

“Una massima da tenere a mente è che “la cattiva ricerca sugli utenti porta a cattivi risultati” e tale ricerca continuerà se i revisori continueranno a richiederla.’

di  Martin Anderson da unite.ai

 

Di ihal