ELABORAZIONE DEL LINGUAGGIO NATURALE
Le carenze di Amazon Mechanical Turk possono minacciare i sistemi di generazione del linguaggio naturale
Un nuovo studio dell’Università del Massachusetts Amherst ha messo a confronto gli insegnanti di inglese contro i lavoratori in crowdsourcing di Amazon Mechanical Turk nel valutare l’output dei sistemi Natural Language Generation ( NLG ), concludendo che gli standard lassisti e il “gioco” di compiti apprezzati tra i lavoratori AMT potrebbero essere ostacolare lo sviluppo del settore.
Il rapporto giunge a una serie di conclusioni schiaccianti sulla misura in cui l’outsourcing a basso costo “su scala industriale” di attività di valutazione NLG a tempo indeterminato potrebbe portare a risultati e algoritmi inferiori in questo settore.
I ricercatori hanno anche compilato un elenco di 45 articoli sulla generazione di testo aperto in cui la ricerca aveva fatto uso di AMT e hanno scoperto che “la stragrande maggioranza” non è riuscita a riportare dettagli critici sull’uso del servizio crowd di Amazon, rendendo difficile la riproduzione. i risultati dei giornali.
Sweat Shop Labor
Il rapporto critica sia la natura sfruttatrice di Amazon Mechanical Turk, sia i progetti accademici (probabilmente limitati dal budget) che stanno dando ulteriore credito ad AMT utilizzando (e citandolo) come una risorsa di ricerca valida e coerente. Gli autori notano:
“Anche se l’AMT è una soluzione conveniente e conveniente, osserviamo che un’elevata varianza tra i lavoratori, una scarsa calibrazione e compiti cognitivamente impegnativi possono portare i ricercatori a trarre conclusioni scientifiche fuorvianti (ad esempio, che il testo scritto dall’uomo è “peggio” del GPT-2 ).’
Il rapporto incolpa il gioco piuttosto che i giocatori, con i ricercatori che osservano:
“I lavoratori [della folla] sono spesso sottopagati per il loro lavoro, il che danneggia sia la qualità della ricerca, sia, cosa più importante, la capacità di questi lavoratori della folla di guadagnarsi da vivere in modo adeguato.”
Il documento , intitolato The Perils of Using Mechanical Turk to Evaluate Open-ended Text Generation , conclude inoltre che “valutatori esperti” come insegnanti di lingue e linguisti dovrebbero essere utilizzati per valutare il contenuto NLG artificiale aperto, anche se AMT è più economico.
Compiti di prova
Nel confrontare le prestazioni di AMT con lettori esperti e con meno limiti di tempo, i ricercatori hanno speso $ 144 per i servizi AMT effettivamente utilizzati nei test di confronto (anche se molto di più è stato speso per risultati “non utilizzabili” – vedi sotto), richiedendo “turchi” casuali per valutare uno dei 200 testi, suddivisi tra contenuto di testo creato dall’uomo e testo generato artificialmente.
Incaricare insegnanti professionisti con lo stesso lavoro costa $ 187,50 e confermare le loro prestazioni superiori (rispetto ai lavoratori AMT) assumendo freelance Upwork per replicare le attività costa $ 262,50 aggiuntivi.
Ogni compito consisteva in quattro criteri di valutazione: grammatica ( ‘Quanto è grammaticalmente corretto il testo del frammento di storia?’ ); coerenza ( “Quanto bene si adattano le frasi nel frammento di storia?” ); simpatia ( ‘Quanto ti è piaciuto il frammento di storia?’ ); e pertinenza ( “Quanto è rilevante il frammento di storia per il prompt?” ).
Generazione dei testi
Per ottenere materiale NLG per i test, i ricercatori hanno utilizzato il set di dati 2018 Hierarchical Neural Story Generation di Facebook AI Research , che comprende 303.358 storie in lingua inglese composte da utenti del popolarissimo subreddit r/writingprompts (più di 15 milioni di utenti) , dove le storie degli abbonati sono “seminate”. ‘ con “suggerimenti” di una sola frase in modo simile alle pratiche attuali nella generazione da testo a immagine – e, naturalmente, nei sistemi di generazione del linguaggio naturale a tempo indeterminato .
200 prompt dal set di dati sono stati selezionati casualmente e passati attraverso un modello GPT-2 di medie dimensioni utilizzando la libreria Hugging-Face Transformers . Pertanto, sono stati ottenuti due set di risultati dagli stessi prompt: i saggi discorsivi scritti dall’uomo dagli utenti di Reddit e i testi generati da GPT-2.
Al fine di evitare che gli stessi lavoratori AMT giudichino più volte la stessa storia, sono state sollecitate tre sentenze di lavoratori AMT per esempio. Insieme agli esperimenti riguardanti le capacità di lingua inglese dei lavoratori (vedi fine articolo) e scontando i risultati dei lavoratori a basso sforzo (vedi “Short Time” di seguito), questo ha aumentato la spesa totale per AMT a circa $ 1.500 USD.
Per creare condizioni di parità, tutti i test sono stati condotti nei giorni feriali tra le 11:00 e le 11:30 PST.
Risultati e Conclusioni
Lo studio tentacolare copre molto terreno, ma i punti chiave sono i seguenti:
Poco tempo
Il documento ha scoperto che un tempo medio di lavoro di 360 secondi riportato da Amazon ufficiale si è ridotto a un tempo di lavoro reale di soli 22 secondi e un tempo di lavoro medio di soli 13 secondi , un quarto del tempo impiegato dall’insegnante di inglese più veloce. replicare il compito.
Dal giorno 2 dello studio: i singoli lavoratori (in arancione) hanno trascorso notevolmente meno tempo a valutare ogni compito rispetto agli insegnanti meglio pagati e (in seguito) agli appaltatori Upwork ancora meglio pagati. Fonte: https://arxiv.org/pdf/2109.06835.pdf
Poiché AMT non impone limiti alle attività di intelligenza umana (HIT) che un singolo lavoratore può svolgere, sono emersi i “grandi picchiatori” di AMT, con reputazioni (redditizie) per il completamento di un numero elevato di attività per esperimento. Per compensare gli hit accettati dallo stesso lavoratore, i ricercatori hanno misurato il tempo tra gli HIT inviati consecutivamente, confrontando l’ora di inizio e di fine di ogni HIT. In questo modo, l’insufficienza tra i WorkTimeInSeconds riportati da AMT e il tempo effettivo speso per l’attività è stata messa a fuoco.
Poiché tale lavoro non può essere svolto in questi tempi ridotti, i ricercatori hanno dovuto compensare questo:
“Poiché è impossibile leggere attentamente una storia lunga un paragrafo e valutare tutte e quattro le proprietà in soli 13 secondi, misuriamo l’impatto sulle valutazioni medie quando filtriamo i lavoratori che trascorrono troppo poco tempo per HIT… In particolare, rimuoviamo i giudizi da lavoratori il cui tempo mediano è inferiore a 40 anni (che è una barra bassa) e scoprono che in media circa il 42% delle nostre valutazioni viene filtrato (che varia dal 20% al 72% in tutti gli esperimenti).’
Il documento sostiene che l’orario di lavoro effettivo riportato in modo errato in AMT è “un grosso problema” generalmente trascurato dai ricercatori che utilizzano i servizi.
Tenersi per mano necessario
I risultati suggeriscono inoltre che gli operatori di AMT non possono distinguere in modo affidabile tra testo scritto da un essere umano e testo scritto da una macchina, a meno che non vedano entrambi i testi fianco a fianco, il che comprometterebbe di fatto un tipico scenario di valutazione (in cui il lettore dovrebbe essere in grado di esprimere un giudizio sulla base di un singolo campione di testo, ‘reale’ o generato artificialmente).
Accettazione casuale di testo artificiale di bassa qualità
Gli operatori dell’AMT hanno costantemente valutato il testo artificiale basato su GPT di bassa qualità alla pari con il testo coerente e di qualità superiore scritto da umani, in contrasto con gli insegnanti di inglese, che erano facilmente in grado di distinguere la differenza di qualità.
Nessun tempo di preparazione, zero contesto
Entrare nella mentalità corretta per un compito così astratto come la valutazione dell’autenticità non è naturale; Gli insegnanti di inglese hanno richiesto 20 compiti per calibrare la loro sensibilità all’ambiente valutativo, mentre i lavoratori AMT in genere non ottengono alcun “tempo di orientamento”, abbassando la qualità del loro input.
Giocare con il sistema
Il report sostiene che il tempo totale che i lavoratori AMT trascorrono nelle singole attività viene aumentato dai lavoratori che accettano più attività contemporaneamente ed eseguono le attività in diverse schede sui loro browser, invece di concentrarsi su un’attività per la durata dell’attività registrata.
Il paese di origine è importante
Le impostazioni predefinite di AMT non filtrano i lavoratori per paese di origine e il rapporto rileva il lavoro precedente che indica che i lavoratori di AMT utilizzano le VPN per aggirare le restrizioni geografiche, consentendo ai non madrelingua di presentarsi come madrelingua inglese (in un sistema che, forse piuttosto ingenuamente, identifica la lingua madre di un lavoratore con la sua posizione geografica basata sull’IP).
Pertanto, i ricercatori hanno rifatto i test di valutazione su AMT con filtri che limitano i potenziali acquirenti ai paesi non di lingua inglese, scoprendo che “i lavoratori di paesi non di lingua inglese hanno valutato la coerenza, la pertinenza e la grammatica … significativamente inferiori rispetto ai lavoratori identicamente qualificati provenienti dall’inglese -paesi di lingua’ .
Il rapporto conclude:
“Quando possibile, dovrebbero essere utilizzati valutatori [esperti] come linguisti o insegnanti di lingue poiché sono già stati formati per valutare il testo scritto e non è molto più costoso…” .