Recentemente, Google Research ha introdotto un nuovo meccanismo di scarsa attenzione che migliora le prestazioni su una moltitudine di attività che richiedono contesti lunghi noti come BigBird. I ricercatori si sono ispirati ai metodi di sparsificazione dei grafi.
Hanno capito dove si rompe la prova dell’espressività di Transformers quando si distende la piena attenzione per formare il modello di attenzione proposto. Hanno affermato: “Questa comprensione ci ha aiutato a sviluppare BigBird, che teoricamente è espressivo e anche empiricamente utile.”
Perché è importante BigBird?
Le rappresentazioni degli encoder bidirezionali di Transformers o BERT , una tecnica di rete neurale pre-training per l’elaborazione del linguaggio naturale (PNL) hanno guadagnato un’enorme popolarità negli ultimi due anni. Questa tecnologia consente a chiunque di addestrare il proprio sistema di risposta alle domande all’avanguardia.
Tuttavia, uno dei limiti fondamentali di questa tecnica è la dipendenza quadratica, principalmente in termini di memoria sulla lunghezza della sequenza dovuta al loro pieno meccanismo di attenzione. Ciò aumenta anche i costi quando si tratta di utilizzare modelli basati su trasformatore per l’elaborazione di lunghe sequenze. Per mitigare questo problema, i ricercatori hanno introdotto BigBird.
BigBird è un approssimatore universale delle funzioni di sequenza che è progettato principalmente per soddisfare tutte le proprietà teoriche note dei trasformatori completi . Secondo i ricercatori, questa scarsa attenzione può gestire sequenze di lunghezza fino a 8 volte rispetto a quanto era possibile in precedenza utilizzando hardware simile.
In particolare, il BigBird è composto da tre parti principali:
Un insieme di token globali che partecipano a tutte le parti della sequenza.
Un insieme di chiavi casuali per ogni query.
Un blocco di vicini locali in modo che ogni nodo si occupi della loro struttura locale.
Set di dati utilizzato
Per addestrare l’encoder del modello, i ricercatori hanno utilizzato quattro set di dati stimolanti, che sono:
1 | Domande naturali: il corpus domande naturali è una serie di dati che risponde alle domande. Il set di dati comprende 307.373 esempi di training con singole annotazioni, 7.830 casi con annotazioni a 5 vie per dati di sviluppo e altri 7.842 esempi con annotazioni a 5 vie sequestrati come dati di test.
2 | Distrattore di HotpotQA: HotpotQA è un set di dati su larga scala con 113k coppie di domande e risposte basate su Wikipedia. Il set di dati viene raccolto dal crowdsourcing sulla base di articoli di Wikipedia, in cui agli operatori della folla vengono mostrati più documenti contestuali di supporto e viene chiesto esplicitamente di formulare domande che richiedono un ragionamento su tutti i documenti.
3 | TriviaQA-wiki: TriviaQA è un set di dati di comprensione della lettura impegnativa su larga scala contenente oltre 650K triple di domande e risposte. Il set di dati include 95.000 coppie di domande e risposte create da appassionati di trivia e documenti di prova raccolti in modo indipendente, sei in media per domanda, che forniscono supervisione distante di alta qualità per rispondere alle domande.
4 | WikiHop: il set di dati WikiHop è costituito da insiemi di articoli di Wikipedia in cui non è possibile trovare le risposte a domande su proprietà specifiche di un’entità nel report dell’entità.
BigBird soddisfa tutte le proprietà teoriche note di un trasformatore completo . In particolare, i ricercatori hanno dimostrato che l’aggiunta di token extra consente di esprimere tutte le funzioni continue sequenza-sequenza con solo prodotti interni O (n). Inoltre, hanno dimostrato che in base alle ipotesi standard relative alla precisione, BigBird è Turing completo.
Hanno dimostrato che il contesto esteso modellato da BigBird avvantaggia notevolmente una varietà di compiti di PNL. In particolare, i ricercatori hanno ottenuto risultati all’avanguardia per la risposta alle domande e la sintesi dei documenti su diversi set di dati.
Infine, hanno introdotto una nuova applicazione di modelli basati sull’attenzione in cui i contesti lunghi sono utili, come l’estrazione di rappresentazioni contestuali di sequenze genomiche come il DNA. Inoltre, con un pre-addestramento LM mascherato più lungo, BigBird migliora le prestazioni nelle attività a valle come la predizione della regione del promotore e del profilo della cromatina.
Riassumendo
BigBird soddisfa molti risultati teorici, ad esempio la tecnica è un approssimatore universale di funzioni da sequenza a sequenza ed è completa di Turing. Considerando le conseguenze della capacità di gestire un contesto più lungo, BigBird migliora drasticamente le prestazioni su varie attività di PNL come la risposta alle domande e il riassunto di documenti lunghi.
Inoltre, i ricercatori hanno anche proposto nuove applicazioni ai dati della genomica introducendo un modello di linguaggio contestuale basato sull’attenzione per il DNA e perfezionandolo per attività a valle come la previsione della regione del promotore e la previsione degli effetti delle varianti non codificanti.