ELABORAZIONE DEL LINGUAGGIO NATURALE
I modelli della PNL lottano per comprendere le frasi nominali ricorsive
 

Ricercatori statunitensi e cinesi hanno scoperto che nessuno dei principali modelli di elaborazione del linguaggio naturale (NLP) sembra essere in grado, per impostazione predefinita, di sbrogliare le frasi inglesi che presentano frasi nominali ricorsive (NP) e di “lottare” per individuare il significato centrale in esempi strettamente correlati come Il mio nuovo film preferito e Il mio film preferito (ognuno dei quali ha un significato diverso).

 
I ricercatori hanno impostato una Recursive Noun Phrase Challenge (RNPC) su diversi modelli di generazione del linguaggio open source installati localmente: GPT-3* di OpenAI , BERT di Google e RoBERTa e BART di Facebook , scoprendo che questi modelli all’avanguardia hanno raggiunto solo ‘ possibilita’ prestazioni. Concludono † :

“I risultati mostrano che i LM allo stato dell’arte (SOTA) messi a punto su benchmark standard dello stesso formato lottano tutti sul nostro set di dati, suggerendo che la conoscenza dell’obiettivo non è prontamente disponibile.”

Esempi di coppie minime nella sfida RNPC in cui i modelli SOTA hanno commesso errori.
Negli esempi sopra, i modelli non sono riusciti, ad esempio, a distinguere la disparità semantica tra un animale pericoloso morto (cioè un predatore che non rappresenta una minaccia perché è morto) e un animale morto pericoloso (come uno scoiattolo morto, che può contenere un virus dannoso ed è una minaccia attualmente attiva).

(Inoltre, sebbene il documento non lo tocchi, anche ‘morto’ è spesso usato come avverbio , che non si rivolge a nessuno dei due casi)

Tuttavia, i ricercatori hanno anche scoperto che la formazione aggiuntiva o supplementare che include materiale RNPC può risolvere il problema:

“I modelli linguistici pre-addestrati con prestazioni SOTA su benchmark NLU hanno scarsa padronanza di questa conoscenza, ma possono ancora apprenderla se esposti a piccole quantità di dati da RNPC.”

I ricercatori sostengono che la capacità di un modello linguistico di navigare in strutture ricorsive di questo tipo è essenziale per attività a valle come l’analisi del linguaggio, la traduzione e fanno un caso speciale per la sua importanza nelle routine di rilevamento dei danni:

“[Noi] consideriamo lo scenario in cui un utente interagisce con un agente orientato alle attività come Siri o Alexa e l’agente deve determinare se l’attività coinvolta nella query dell’utente è potenzialmente dannosa [cioè per i minori] . Scegliamo questo compito perché molti falsi positivi provengono da NP ricorsive.

“Ad esempio, come fare una bomba fatta in casa è ovviamente dannoso, mentre come fare una bomba da bagno fatta in casa è innocuo”.

Il documento è intitolato “Il mio nuovo film preferito” è il mio film preferito? Probing the Understanding of Recursive Noun Phrases e proviene da cinque ricercatori dell’Università della Pennsylvania e uno della Peking University.

Dati e metodo
Sebbene il lavoro precedente abbia studiato la struttura sintattica delle NP ricorsive e la categorizzazione semantica dei modificatori , nessuno di questi approcci è sufficiente, secondo i ricercatori, per affrontare la sfida.

Pertanto, sulla base dell’uso di frasi nominali ricorsive con due modificatori, i ricercatori hanno cercato di stabilire se la conoscenza prerequisita esiste nei sistemi SOTA NLP (non esiste); se può essere insegnato loro (può); cosa possono imparare i sistemi di PNL dalle NP ricorsive; e in che modo tale conoscenza può avvantaggiare le applicazioni a valle.

Il set di dati utilizzato dai ricercatori è stato creato in quattro fasi. La prima è stata la costruzione di un lessico dei modificatori contenente 689 esempi tratti dalla letteratura precedente e da nuovi lavori.

Successivamente i ricercatori hanno raccolto NP ricorsive dalla letteratura, dai corpora esistenti e dalle aggiunte di propria invenzione. Le risorse testuali includevano il Penn Treebank e il corpus Annotated Gigaword .

Quindi il team ha assunto studenti universitari preselezionati per creare esempi per i tre compiti che i modelli linguistici avrebbero dovuto affrontare, convalidandoli successivamente in 8.260 istanze valide.

Infine, sono stati assunti più studenti universitari preselezionati, questa volta tramite Amazon Mechanical Turk, per annotare ogni istanza come Human Intelligence Task (HIT), decidendo le controversie a maggioranza. Ciò ha ridotto le istanze a 4.567 esempi, che sono stati ulteriormente filtrati fino a 3.790 istanze più bilanciate.

I ricercatori hanno adattato vari set di dati esistenti per formulare le tre sezioni delle loro ipotesi di test, tra cui MNLI , SNLI , MPE e ADEPT , addestrando tutti i modelli SOTA stessi, ad eccezione del modello HuggingFace, in cui è stato utilizzato un checkpoint.

Risultati
I ricercatori hanno scoperto che tutti i modelli “lottano” su attività RNPC, rispetto a un punteggio di precisione affidabile superiore al 90% per gli esseri umani, con i modelli SOTA che funzionano a livelli “casuali” (cioè senza alcuna prova di capacità innata rispetto alla possibilità casuale in risposta).

Risultati dei test dei ricercatori. Qui i modelli linguistici vengono testati rispetto alla loro accuratezza su un benchmark esistente, con la linea centrale che rappresenta le prestazioni umane equivalenti nelle attività.
Linee di indagine secondarie indicano che queste carenze possono essere compensate nella fase di addestramento o messa a punto della pipeline di un modello di PNL includendo specificamente la conoscenza di frasi nominali ricorsive. Una volta intrapresa questa formazione supplementare, i modelli hanno ottenuto “prestazioni di impatto zero su un rilevamento estrinseco del danno [compiti]” .

 

Di ihal