Google FormNet

Diihal

Apr 23, 2022

Google rilascia FormNet; lavora per migliorare il modo in cui il testo viene letto nei moduli
FormNet supera i metodi esistenti utilizzando meno dati di pre-formazione e ottiene prestazioni SOTA sui benchmark CORD, FUNSD e Payment.

I ricercatori del team Cloud AI di Google Research hanno pubblicato un blog in cui affermano che la recente modellazione di sequenze che modella direttamente le relazioni tra tutte le parole in una selezione di testo ha dimostrato le prestazioni SOTA su attività in linguaggio naturale .

Un approccio naturale alla gestione delle attività di comprensione dei documenti dei moduli consiste innanzitutto nel serializzare i documenti dei moduli e quindi applicare i modelli di sequenza SOTA. Tuttavia, i documenti modulo hanno spesso layout complessi che contengono oggetti strutturati come tabelle, colonne e blocchi di testo. La loro varietà di modelli di layout rende difficile la serializzazione e limita le prestazioni di approcci di serializzazione rigorosi. Queste sfide uniche nella modellazione strutturale dei documenti di forma non sono state esplorate.

L’articolo dei ricercatori Chen-Yu Lee, Chun-Liang Li e coautori, ” FormNet: Structural Encoding Beyond Sequential Modeling in Form Document Information Extraction “, ha proposto un modello di sequenza sensibile alla struttura, chiamato FormNet, per mitigare il sub- serializzazione ottimale dei moduli per l’estrazione delle informazioni dai documenti.

Hanno spiegato il loro processo in questo modo: per cominciare, hanno progettato un meccanismo RichAttention ( RichAtt ) che sfrutta la relazione spaziale 2D tra i token delle parole per il calcolo del peso dell’attenzione. Quindi, hanno costruito Super-Token per ogni parola incorporando le rappresentazioni dei loro token vicini attraverso una rete convolutiva del grafico . Alla fine, hanno dimostrato che FormNet supera i metodi esistenti utilizzando meno dati di pre-formazione e ottiene prestazioni SOTA sui benchmark CORD, FUNSD e Payment.

Google FormNet

Diihal

Di ihal

Articoli correlati

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Anthropic Claude trasforma ogni utente in uno sviluppatore di app no-code

ElevenLabs lancia l’app mobile per la sintesi vocale avanzata su iOS e Android

You missed

Il rinascimento digitale del Kung Fu: come la Cina riporta in vita i classici con l’AI

Grok arriva sulle Tesla: l’intelligenza artificiale di Elon Musk si integra nelle auto

Lavawave lancia SCAM GUARD, AI per contrastare i crimini digitali

Google Gemini introduce la funzione di generazione video da foto con Veo 3