La lotta per impedire all’intelligenza artificiale di barare nei test Test 

I nuovi risultati di una ricerca di un’università cinese offrono uno spaccato del motivo per cui i modelli di elaborazione del linguaggio naturale generativo come GPT-3 tendono a “imbrogliare” quando viene posta una domanda difficile, producendo risposte che possono essere tecnicamente corrette, ma senza una reale comprensione del perché la risposta è corretto; e perché dimostrano poca o nessuna capacità di spiegare la logica dietro le loro risposte “facili”. I ricercatori propongono anche alcuni nuovi metodi per rendere i sistemi “più difficili da studiare” durante la fase di formazione.

Il problema è duplice: in primo luogo, progettiamo sistemi che cercano di ottenere risultati velocemente e con un utilizzo ottimale delle risorse. Anche laddove, come con GPT-3, le risorse possono essere considerevolmente maggiori di quelle che il progetto di ricerca PNL medio è in grado di raccogliere, questa cultura dell’ottimizzazione guidata dai risultati pervade ancora la metodologia, perché è arrivata a dominare la convenzione accademica.

Di conseguenza, le nostre architetture formative premiano modelli che convergono rapidamente e producono risposte apparentemente appropriate alle domande, anche se il modello di PNL non è successivamente in grado di giustificare la sua risposta, o di dimostrare come è arrivato alle sue conclusioni.

Una disposizione precoce a imbrogliare
Ciò si verifica perché il modello apprende le “risposte di scelta rapida” molto prima nella formazione rispetto a tipi più complicati di acquisizione della conoscenza. Poiché una maggiore accuratezza viene spesso premiata in modo abbastanza indiscriminato durante l’addestramento, il modello dà la priorità a qualsiasi approccio che consenta di rispondere a una domanda in modo “facile” e senza un’intuizione reale.

Poiché l’apprendimento rapido rappresenterà inevitabilmente i primi successi durante la formazione, la sessione tenderà naturalmente ad allontanarsi dal compito più difficile di acquisire una prospettiva epistemologica utile e più completa, che può contenere strati di attribuzione e di logica più profondi e penetranti.

Nutrire l’IA Le risposte “facili”
Il secondo problema è che anche se recenti iniziative di ricerca hanno studiato la tendenza dell’IA a “imbrogliare” in questo modo e hanno identificato il fenomeno delle “scorciatoie”, finora non c’è stato alcuno sforzo per classificare il materiale che abilita le “scorciatoie” in un contributo set di dati, che sarebbe il primo passo logico per affrontare quello che potrebbe rivelarsi un difetto architettonico fondamentale nei sistemi di comprensione della lettura delle macchine (MRC).

Il nuovo documento , una collaborazione tra il Wangxuan Institute of Computer Technology e il MOE Key Laboratory of Computational Linguistics presso l’Università di Pechino, testa vari modelli linguistici rispetto a un set di dati appena annotato che include classificazioni per soluzioni “facili” e “difficili” a una possibile domanda .

 
Il dataset utilizza la parafrasi come criterio per le risposte più complicate e approfondite, poiché è necessaria una comprensione semantica per riformulare la conoscenza acquisita. Al contrario, le risposte “scorciatoie” possono utilizzare token come date e altre parole chiave incapsulanti, per produrre una risposta che sia effettivamente accurata, ma senza alcun contesto o ragionamento.

Il componente scorciatoia delle annotazioni include la corrispondenza delle parole interrogative (QWM) e la corrispondenza semplice (SpM). Per QWM, il modello utilizza entità estratte dai dati di testo forniti e dal contesto di scarichi; per SpM, il modello identifica la sovrapposizione tra le frasi di risposta e le domande, entrambe fornite nei dati di addestramento.

Dati di scelta rapida quasi “virali” in un’influenza in un set di dati
I ricercatori sostengono che i set di dati tendono a contenere un’alta percentuale di domande di scelta rapida, il che fa sì che i modelli addestrati si basino su trucchi di scelta rapida.

I due modelli utilizzati negli esperimenti erano BiDAF e BERT -base di Google . I ricercatori osservano che anche se addestrati sulle variazioni del set di dati con una percentuale maggiore di domande “difficili”, entrambi i modelli funzionano ancora meglio su domande scorciatoie rispetto a domande parafrasate più difficili, nonostante il piccolo numero di esempi nei set di dati.

Questo presenta “dati di scorciatoia” quasi nel contesto di un virus – che deve essere molto poco presente in un set di dati affinché possa essere adottato e prioritario nella formazione, secondo gli standard e le pratiche convenzionali in PNL.

Dimostrare il cheat
Un metodo utilizzato dalla ricerca per dimostrare come la fragilità di una risposta rapida sia quella di sostituire una parola di entità “facile” con una parola anomala. Laddove è stato utilizzato un metodo di scelta rapida, non è possibile fornire la logica della risposta “imbrogliata”; ma dove la risposta è stata fornita da un contesto più profondo e dalla valutazione semantica di una gamma più ampia di testi contribuenti, è possibile per il sistema decostruire l’errore e ricostruire una risposta corretta.

Sostituendo “Beyoncé” (una persona) con “America” ​​(un luogo), si rivela se il modello ha una logica di fondo per la sua risposta.
Scorciatoie dovute a un imperativo economico
Per quanto riguarda alcuni dei motivi architetturali per cui le scorciatoie sono così prioritarie nei flussi di lavoro di formazione della PNL, gli autori commentano “i modelli MRC possono imparare i trucchi delle scorciatoie, come QWM, con meno risorse computazionali rispetto alle sfide di comprensione, come l’identificazione della parafrasi” .

Questo, quindi, potrebbe essere un risultato non intenzionale dell’ottimizzazione standard e delle filosofie di conservazione delle risorse negli approcci alla comprensione della lettura della macchina e la pressione per ottenere risultati con risorse limitate in tempi ristretti.

I ricercatori notano inoltre:

“[Poiché] il trucco della scorciatoia può essere utilizzato per rispondere correttamente alla maggior parte delle domande di formazione, le limitate domande irrisolte rimaste potrebbero non motivare i modelli a esplorare soluzioni sofisticate che richiedono competenze stimolanti.”

Se i risultati del documento saranno successivamente confermati, sembrerebbe che il vasto e in continua crescita campo della pre-elaborazione dei dati potrebbe aver bisogno di considerare le “culle nascoste” nei dati come un problema da affrontare a lungo termine, oppure rivedere le architetture della PNL per dare priorità alle routine più impegnative per l’acquisizione dei dati.

Di ihal