Gli errori degli NLP come GPT-3 : Buzz Lightyear di Toy Story , non è è atterrato sulla Luna il 21 luglio 1969…………

Alcune domande sono senza risposta perché contengono informazioni errate, presupposti che la persona che ascolta la domanda deve filtrare e rinunciare. Ciò presuppone, ovviamente, che l’ascoltatore disponga di informazioni corrette sufficienti per contestare la domanda, piuttosto che utilizzare la domanda stessa come fonte di informazioni (errate).

È una sfida per i sistemi di elaborazione del linguaggio naturale (NLP) come GPT-3, che hanno la tendenza ad “allucinare” le informazioni per mantenere il dialogo.

Attualmente, chiedendo a GPT-3 “Quando Marie Curie ha inventato l’uranio?” probabilmente ti darà la risposta “Marie Curie ha inventato l’uranio nel 1898”.

Infatti, l’uranio fu scoperto nel 1789 dal chimico tedesco Martin Heinrich Klaproth, mentre la rivelazione dei Curie del 1898 fu l’ isolamento del radio.

Il problema dei sistemi di PNL che ignorano i presupposti errati è stato messo a fuoco in una serie di messaggi pubblicitari quest’anno, incluso il modo in cui i risultati di ricerca assistiti dall’intelligenza artificiale di Google ignoreranno le informazioni errate nella domanda “Quando Neil Armstrong ha messo piede su Marte?” – un errore che compare ancora al momento della stesura di questo articolo, e si applica ugualmente a Buzz Lightyear di Toy Story , che a quanto pare è atterrato sulla Luna il 21 luglio 1969.

Anche Tom Hanks, un altro alunno di Toy Story , è accreditato da Google per l’atterraggio sulla Luna nel 1970, nonostante il fatto che il suo personaggio dell’Apollo 13 , l’astronauta Jim Lovell, sia famoso soprattutto per non averlo raggiunto.

Affrontare i problemi di presupposto negli scambi di PNL
Ora Google Research, insieme ai ricercatori della John Hopkins University e della Brown University, sta studiando nuovi metodi di apprendimento automatico con cui i sistemi di PNL possono eventualmente essere fatti per sfidare domande effettivamente errate nello stesso modo in cui è essenziale che gli insegnanti umani facciano durante le conversazioni con gli studenti .

Il recente articolo Quale linguista ha inventato la lampadina? La verifica dei presupposti per la risposta alle domande delinea uno sforzo concertato per sviluppare un nuovo sistema per identificare i presupposti e considerare la loro veridicità prima di continuare lo scambio

Il nuovo algoritmo pre-elabora efficacemente le domande prima di tornare alla conversazione, scomponendo l'”autenticazione” della domanda in un processo in tre parti.

Non calcola! A sinistra, il ‘blocco stradale’ che si verifica anche quando un sistema avanzato di PNL è stato in grado di identificare che la domanda non ha senso. A destra, una ripartizione di un algoritmo proposto che tenta di correggere l’errore di origine. Fonte: https://arxiv.org/pdf/2101.00391.pdf
Sebbene sembri una semplice routine di verifica che avrebbe dovuto essere incorporata nei sistemi di conoscenza fin dall’inizio, la maggior parte delle routine di formazione basate sulla PNL apprendono informazioni con un livello di fiducia eccessivo per i dati di origine, inclusi i discorsi (come le notizie false) che potrebbero essere stati pubblicato su canali precedentemente ‘fidati’.

Pertanto, una questione chiave è identificare per consenso una fonte affidabile di fatti in un clima in cui la proliferazione di “notizie” errate attraverso i social media le conferirebbe, per impostazione predefinita, autorità secondo la logica della generalizzazione dell’apprendimento automatico. Quest’ultimo ha avuto la tendenza a utilizzare la quantità o la ripetizione dei dati come proxy di accuratezza, almeno fino a quando il fenomeno delle fake news non è diventato un’area di interesse critico nel settore negli ultimi anni.

Determinare il miglior approccio alle domande senza risposta
Per determinare un approccio adeguato per risolvere una domanda che contiene disinformazione, i ricercatori hanno eseguito 100 di tali indagini attraverso quattro diversi modelli di domande e risposte e hanno chiesto ai soggetti umani di scegliere la soluzione migliore o meno problematica generata dai modelli.

I quattro possibili esiti architettonici alla domanda “cattiva” erano: “Unanswerable” – dove un sistema di domande e risposte a libro chiuso interrompe efficacemente l’indagine senza ulteriori elaborazioni; ‘Spiegazione basata sul fallimento della presunzione’ – dove il sistema non riesce a verificare la supposizione errata, di fatto una risposta ‘senza risposta’, con una spiegazione aggiuntiva; ‘Spiegazione estrattiva’ – dove il sistema recupera una citazione di Wikipedia correlata all’argomento e la aggiunge alla prefazione ‘Questa domanda è senza risposta perché…’; e ‘Open domain rewrite’ – dove un sistema competitivo cerca fonti aggiuntive da Wikipedia.

Questo esempio di quattro possibili risposte a una domanda apparentemente “senza risposta” illustra la complessità del tentativo di una soluzione del problema basata su un dominio competitivo.
Nel corso dei test, i cinque partecipanti (reclutati su una piattaforma di crowdsourcing interna di Google) hanno preferito le risposte basate sui presupposti, che hanno portato i ricercatori a sviluppare un nuovo framework per scomporre e verificare le domande.

Nel nuovo sistema, i trigger linguistici sono ottenuti dalla domanda da un generatore basato su regole che decostruisce la frase in presunte affermazioni di fatto. Se dalla domanda derivano più supposizioni, ciascuna viene indagata e contribuirà alla risposta finale se affrontano presupposti errati dalla domanda originale.

Set di dati
I presupposti generati nella fase iniziale sono stati modificati manualmente per creare un set di dati di verifica con presupposti “oro”. Sono stati rimossi tutti i presupposti emersi dalla ramificazione dell’indagine, ma che non erano presenti nelle domande originarie.

Due degli autori dell’articolo hanno quindi annotato manualmente 462 presupposti in termini di verificabilità sì/no , sulla base di una pagina Wikipedia pertinente associata a ciascuna domanda. I casi di disaccordo sono stati risolti nella discussione post-fatto prima di essere impegnati nel set di dati.

I ricercatori hanno utilizzato l’ NLI zero-shot , un compito di classificazione di premesse/ipotesi che richiedeva la decostruzione degli articoli di Wikipedia relativi alle domande. Poiché questo processo produce molte più coppie di quelle che la domanda potrebbe comportare o il supporto del modello, i risultati filtrati sono stati quindi aggregati ed etichettati.

Risultati e formulazione della risposta
I risultati più efficaci sono stati ottenuti dalla soluzione più laboriosa: un ibrido basato su regole/NLI generato da ALBERT QNLI con frasi e presupposti Wiki.

Le prestazioni dei modelli di verifica, in cui le “frasi Wiki” utilizzano frasi ottenute da articoli di Wikipedia relativi a domande, e i “presupposti Wiki” sono presupposti generati da tali frasi.
Utilizzando questa formulazione, i ricercatori hanno sviluppato un sistema di modelli in cui un fatto negativo di Wikipedia è stato aggiunto a “Questa domanda è senza risposta perché…” e frasi simili. Sebbene non sia una soluzione ideale, gli autori suggeriscono che le risposte basate sull’inverificabilità possono ridurre l’incidenza dei falsi negativi.

Il sistema è stato infine implementato in un modello Extended Transformer Construction (ETC).

Implicazioni
A seconda delle sue prestazioni finali nel mondo reale, si potrebbe sostenere che l’intero approccio può portare alla mera sostituzione di “non verificabile” con “senza risposta”, nei casi in cui il sistema di ricerca di supporto non può valutare una correzione utile per il presupposto errato di una domanda . In effetti, sembra che stia preparando l’infrastruttura per futuri e migliori sistemi di verifica.

I ricercatori già ammettono che le spese delle richieste API basate su token sono un fattore limitante quando si formulano le risposte più lunghe che questo sistema genererà, e si deve presumere che il sovraccarico aggiuntivo della ricerca “dal vivo” su una domanda sembra probabile che si aggiunga latenza anche a sistemi su larga scala come GPT-3, poiché la reattività di tali sistemi è finora dipesa dall’incorporazione generalizzata della conoscenza al momento dell’addestramento, piuttosto che da routine di verifica estese e basate sulla rete.

Inoltre, i ricercatori notano che il sistema attualmente presenta limitazioni relative all’analisi degli aspetti semantici del testo:

Ad esempio, chi fa pip crede che la madre di estella abbia un possessivo incorporato sotto un verbo non fattivo creda , ma il nostro generatore genererebbe comunque ” estella” ha “madre” .

Tuttavia, il team prevede nuovi e più flessibili sistemi di risposta alle domande che verranno sviluppati sulla base di questa ricerca:

In futuro, prevediamo di basarci su questo lavoro proponendo sistemi di controllo della qualità più robusti e cooperativi. Ad esempio, diversi tipi di fallimenti dei presupposti potrebbero essere affrontati con strategie di risposta più fluide: ad esempio, la violazione dei presupposti dell’unicità può essere gestita meglio fornendo tutte le risposte possibili, piuttosto che affermare che il presupposto dell’unicità è stato violato.

Gli errori degli NLP come GPT-3 : Buzz Lightyear di Toy Story , non è è atterrato sulla Luna il 21 luglio 1969…………

Diihal

Di ihal

Articoli correlati

Microsoft integra l’AI in VS Code: GitHub Copilot Chat ora open source per tutti gli sviluppatori

Cursor porta gli agenti AI di coding sul web e sul mobile

Cybersecurity, XBOW bot AI sconfigge i migliori hacker umani

You missed

HUSH: l’AI che trasforma una foto panoramica in un modello 3D interattivo

Tencent lancia Hunyuan-A13B, LLM open source che unisce potenza ed efficienza

IBM prevede un futuro della cybersecurity dominato dall’intelligenza artificiale

La partnership tra New Tune e il National Gugak Center per preservare e innovare la musica tradizionale coreana con l’IA