Google rilascia FormNet; lavora per migliorare il modo in cui il testo viene letto nei moduli
FormNet supera i metodi esistenti utilizzando meno dati di pre-formazione e ottiene prestazioni SOTA sui benchmark CORD, FUNSD e Payment.
 
I ricercatori del team Cloud AI di Google Research hanno pubblicato un blog in cui affermano che la recente modellazione di sequenze che modella direttamente le relazioni tra tutte le parole in una selezione di testo ha dimostrato le prestazioni SOTA su attività in linguaggio naturale .

Un approccio naturale alla gestione delle attività di comprensione dei documenti dei moduli consiste innanzitutto nel serializzare i documenti dei moduli e quindi applicare i modelli di sequenza SOTA. Tuttavia, i documenti modulo hanno spesso layout complessi che contengono oggetti strutturati come tabelle, colonne e blocchi di testo. La loro varietà di modelli di layout rende difficile la serializzazione e limita le prestazioni di approcci di serializzazione rigorosi. Queste sfide uniche nella modellazione strutturale dei documenti di forma non sono state esplorate.

 

 

L’articolo dei ricercatori Chen-Yu Lee, Chun-Liang Li e coautori, ” FormNet: Structural Encoding Beyond Sequential Modeling in Form Document Information Extraction “, ha proposto un modello di sequenza sensibile alla struttura, chiamato FormNet, per mitigare il sub- serializzazione ottimale dei moduli per l’estrazione delle informazioni dai documenti. 

Hanno spiegato il loro processo in questo modo: per cominciare, hanno progettato un meccanismo RichAttention ( RichAtt ) che sfrutta la relazione spaziale 2D tra i token delle parole per il calcolo del peso dell’attenzione. Quindi, hanno costruito Super-Token per ogni parola incorporando le rappresentazioni dei loro token vicini attraverso una rete convolutiva del grafico . Alla fine, hanno dimostrato che FormNet supera i metodi esistenti utilizzando meno dati di pre-formazione e ottiene prestazioni SOTA sui benchmark CORD, FUNSD e Payment.

Di ihal