JPMorgan ha presentato il suo nuovo modello di linguaggio generativo chiamato DocLLM, mirato alla comprensione multimodale dei documenti. DocLLM rappresenta una versione avanzata e leggera dei Language Model (LLM) e si concentra sulla comprensione dei documenti aziendali, come moduli, fatture, report e contratti, che spesso contengono informazioni complesse che intersecano modalità testuali e spaziali.
A differenza dei modelli LLM multimodali esistenti, DocLLM adotta una strategia intelligente per evitare codificatori costosi di immagini e si focalizza invece esclusivamente sulla comprensione delle informazioni legate alla disposizione spaziale del testo nei documenti. Il modello introduce un meccanismo di attenzione spaziale districato, suddividendo il tradizionale meccanismo di attenzione in matrici districate.
DocLLM è in grado di affrontare layout irregolari e contenuti eterogenei presenti nei documenti visivi grazie a un obiettivo di pre-formazione che si concentra sull’apprendimento della struttura dei segmenti di testo.
Per la fase di pre-formazione di DocLLM, sono stati utilizzati dati provenienti principalmente da due fonti principali: la collezione di test IIT-CDIP 1.0 e DocBank. La prima fonte include più di 5 milioni di documenti relativi a procedimenti legali contro l’industria del tabacco negli anni ’90, mentre la seconda è costituita da 500.000 documenti, ognuno con layout distinti.
Una valutazione dettagliata su diverse attività di analisi documentale ha dimostrato che DocLLM supera i modelli LLM di punta su 14 dei 16 set di dati conosciuti e dimostra una solida capacità di generalizzazione su nuovi set di dati in 4 casi su 5.
Guardando al futuro, JPMorgan ha dichiarato il suo impegno a migliorare ulteriormente le capacità di DocLLM e ad applicare questa tecnologia in modo leggero per arricchire ulteriormente la comprensione dei documenti.