Affrontare la montagna PDF del governo degli Stati Uniti con la visione artificiale
Il formato PDF di Adobe si è radicato così profondamente nelle pipeline di documenti del governo degli Stati Uniti che il numero di documenti emessi dallo stato attualmente esistenti è stimato prudentemente nell’ordine di centinaia di milioni. Spesso opachi e privi di metadati, questi PDF, molti dei quali creati da sistemi automatizzati, collettivamente non raccontano storie o saghe; se non sai esattamente cosa stai cercando, probabilmente non troverai mai un documento pertinente. E se lo sapevi, probabilmente non avevi bisogno della ricerca.
Tuttavia, un nuovo progetto sta utilizzando la visione artificiale e altri approcci di apprendimento automatico per trasformare questa montagna di dati quasi inaccessibile in una risorsa preziosa ed esplorabile per ricercatori, storici, giornalisti e studiosi.
Quando il governo degli Stati Uniti ha scoperto il Portable Document Format (PDF) di Adobe negli anni ’90, ha deciso che gli piaceva. A differenza dei documenti Word modificabili, i PDF potevano essere “cotti” in una varietà di modi che li rendevano difficili o addirittura impossibili da modificare in seguito; i caratteri potrebbero essere incorporati, garantendo la compatibilità multipiattaforma; e la stampa, la copiatura e persino l’apertura potrebbero essere controllate su base granulare.
Ancora più importante, queste caratteristiche fondamentali erano disponibili in alcune delle più antiche specifiche “di base” del formato, promettendo che il materiale d’archivio non avrebbe avuto bisogno di essere rielaborato o rivisitato in seguito per garantire l’accessibilità. Quasi tutto ciò di cui aveva bisogno l’editoria governativa era già operativo nel 1996 .
Con la provenienza blockchain e le tecnologie NFT lontane decenni, il PDF era quanto di più vicino potesse arrivare l’era digitale emergente a un documento analogico “morto”, solo un singhiozzo concettuale lontano da un fax. Questo era esattamente ciò che si voleva.
Dissenso interno sul PDF
La misura in cui i PDF sono ermetici, intrattabili e “non sociali” è caratterizzata nella documentazione sul formato presso la Library of Congress, che favorisce il PDF come “formato preferito”:
“Lo scopo principale del formato PDF/A è rappresentare documenti elettronici in modo da preservare il loro aspetto visivo statico nel tempo, indipendentemente dagli strumenti e dai sistemi utilizzati per creare, archiviare o visualizzare i file. A tal fine, PDF/A tenta di massimizzare l’indipendenza del dispositivo, l’autocontenimento e l’autodocumentazione.’
L’entusiasmo costante per il formato PDF, gli standard per l’accessibilità ei requisiti per una versione minima variano a seconda dei dipartimenti del governo degli Stati Uniti. Ad esempio, mentre l’Environmental Protection Agency ha politiche rigorose ma di supporto in questo senso, il sito web ufficiale del governo degli Stati Uniti plainlanguage.gov riconosce che “gli utenti odiano il PDF” e si collega direttamente a un rapporto del Nielsen Norman Group del 2020 intitolato PDF: Still Unfit for Consumo umano, 20 anni dopo .
Nel frattempo irs.gov, creato nel 1995 appositamente per trasferire la documentazione dell’agenzia delle entrate al digitale, ha immediatamente adottato il PDF ed è ancora un appassionato sostenitore .
La diffusione virale dei PDF
Dal momento che le specifiche di base per PDF sono stati rilasciati per l’open source da Adobe, un tranche di strumenti di elaborazione lato server e le librerie sono emersi, molti ora come venerabile e radicata come le specifiche PDF 1996-era e come affidabile e bug-resistente, mentre i fornitori di software si sono affrettati a integrare la funzionalità PDF in strumenti a basso costo.
Di conseguenza, amati o odiati dai suoi dipartimenti ospitanti, i PDF rimangono onnipresenti nelle strutture di comunicazione e documentazione in un numero enorme di dipartimenti del governo degli Stati Uniti.
Nel 2015, Phil Ydens, vicepresidente tecnico di Adobe per Document Cloud, ha stimato che nel mondo esistono 2,5 trilioni di documenti PDF, mentre si ritiene che il formato rappresenti tra il 6 e l’11% di tutti i contenuti web. In una cultura tecnologica dedita alla distruzione delle vecchie tecnologie, il PDF è diventato una “ruggine” ineliminabile, una parte centrale della struttura che lo ospita.
Dal 2018. Ci sono ancora scarse prove di uno sfidante formidabile. Fonte: https://twitter.com/trbrtc/status/980407663690502145
Secondo un recente studio condotto da ricercatori dell’Università di Washington e della Biblioteca del Congresso, “centinaia di milioni di documenti unici del governo degli Stati Uniti pubblicati sul Web in formato PDF sono stati archiviati dalle biblioteche fino ad oggi” .
Eppure i ricercatori sostengono che questa è solo la “punta dell’iceberg”*:
“Come il principale studioso di storia digitale Roy Rosenzweig aveva notato già nel 2003, quando si tratta di fonti primarie nate digitali per la borsa di studio, è essenziale sviluppare metodi e approcci che possano raggiungere decine e centinaia di milioni e persino miliardi di risorse digitali [ risorse]. Siamo ora arrivati al punto in cui è necessario sviluppare approcci per questa scala.
“Ad esempio, gli archivi web della Library of Congress ora contengono più di 20 miliardi di risorse digitali individuali.”
PDF: resistenti all’analisi
Il progetto dei ricercatori di Washington applica una serie di metodi di apprendimento automatico a un corpus pubblico e annotato di 1.000 documenti selezionati dalla Library of Congress, con l’intenzione di sviluppare sistemi in grado di recuperare rapidamente e multimodale query basate su testo e immagini in strutture che possono scalare fino alle vette degli attuali (e crescenti) volumi PDF, non solo nel governo, ma in una molteplicità di settori.
Come osserva il documento, il ritmo accelerato della digitalizzazione in una serie di dipartimenti governativi balcanici degli Stati Uniti negli anni ’90 ha portato a politiche e pratiche divergenti e spesso all’adozione di metodi di pubblicazione PDF che non contenevano la stessa qualità di metadati che una volta era il gold standard dei servizi delle biblioteche governative o anche metadati PDF nativi molto semplici, che potrebbero essere stati di aiuto nel rendere le raccolte PDF più accessibili e facili da indicizzare.
Discutendo di questo periodo di interruzione, gli autori osservano:
“Questi sforzi hanno portato a una crescita esplosiva della quantità di pubblicazioni governative, che a sua volta ha portato a una rottura dell’approccio generale con cui sono stati prodotti metadati coerenti per tali pubblicazioni e con cui le biblioteche ne hanno acquisito copie”.
Di conseguenza, esiste una tipica montagna PDF senza alcun contesto tranne gli URL che si collegano direttamente ad essa. Inoltre, i documenti nella montagna sono chiusi, autoreferenziali e non fanno parte di alcuna “saga” o narrativa che le attuali metodologie di ricerca potrebbero individuare, anche se tali connessioni nascoste esistono senza dubbio.
Alla scala in esame, l’annotazione o la curatela manuale è una prospettiva impossibile. Il corpus di dati da cui sono stati derivati i 1000 documenti della Library of Congress del progetto contiene oltre 40 milioni di PDF, che i ricercatori intendono rappresentare una sfida affrontabile nel prossimo futuro.
Visione artificiale per l’analisi dei PDF
La maggior parte delle ricerche precedenti citate dagli autori utilizza metodi basati sul testo per estrarre funzionalità e concetti di alto livello dal materiale PDF; al contrario, il loro progetto è incentrato sulla derivazione di caratteristiche e tendenze esaminando i PDF a livello visivo, in linea con la ricerca attuale sull’analisi multimodale del contenuto delle notizie.
Sebbene l’apprendimento automatico sia stato applicato in questo modo anche all’analisi PDF tramite schemi specifici di settore come Semantic Scholar , gli autori mirano a creare pipeline di estrazione di più alto livello che siano ampiamente applicabili in una vasta gamma di pubblicazioni, piuttosto che sintonizzate sulle restrizioni dell’editoria scientifica o di altri settori altrettanto ristretti.
Affrontare i dati sbilanciati
Nella creazione di uno schema di metriche, i ricercatori hanno dovuto considerare quanto siano distorti i dati, almeno in termini di dimensioni per articolo.
Dei 1000 PDF nel set di dati selezionato (che gli autori presumono essere rappresentativi dei 40 milioni da cui sono stati estratti), il 33% è lungo solo una pagina e il 39% è lungo 2-5 pagine. Questo mette il 72% dei documenti a cinque pagine o meno.
Dopo questo, c’è un bel salto: il 18% dei documenti rimanenti viene eseguito a 6-20 pagine, il 6% a 20-100 pagine e il 3% a più di 100 pagine. Ciò significa che i documenti più lunghi comprendono la maggior parte delle singole pagine estratte, mentre un approccio meno granulare che considera i documenti da soli distoglierebbe l’attenzione verso i documenti più brevi molto più numerosi.
Tuttavia, queste sono metriche perspicaci, poiché i documenti a pagina singola tendono ad essere schemi tecnici o mappe; I documenti di 2-5 pagine tendono ad essere comunicati stampa e moduli; e i documenti molto lunghi sono generalmente report e pubblicazioni lunghi come un libro, anche se, in termini di lunghezza, sono mescolati con vasti dump di dati automatizzati che contengono sfide completamente diverse per l’interpretazione semantica.
Pertanto, i ricercatori stanno trattando questo squilibrio come una proprietà semantica significativa in sé. Tuttavia, i PDF devono ancora essere elaborati e quantificati per pagina.
Architettura
All’inizio del processo, i metadati del PDF vengono analizzati in dati tabulari. Questi metadati non mancheranno, perché sono costituiti da quantità note come la dimensione del file e l’URL di origine.
Il PDF viene quindi suddiviso in pagine, con ogni pagina convertita in un formato JPEG tramite ImageMagick . L’immagine viene quindi inviata a una rete ResNet-50 che deriva un vettore dimensionale 2.048 dal penultimo strato.
La pipeline per l’estrazione dai PDF. Fonte: https://arxiv.org/ftp/arxiv/papers/2112/2112.02471.pdf
Allo stesso tempo, la pagina viene convertita in un file di testo da pdf2text e le funzionalità TF-IDF ottenute tramite scikit-learn .
TF-IDF sta per Term Frequency Inverse Document Frequency, che misura la prevalenza di ogni frase all’interno del documento rispetto alla sua frequenza in tutto il set di dati host, su una scala a grana fine da 0 a 1. I ricercatori hanno usato parole singole (unigrammi) come l’unità più piccola nelle impostazioni TF-IDF del sistema.
Sebbene riconoscano che l’apprendimento automatico ha metodi più sofisticati da offrire rispetto a TF-IDF, gli autori sostengono che nulla di più complesso non è necessario per il compito dichiarato.
Il fatto che ogni documento abbia un URL di origine associato consente al sistema di determinare la provenienza dei documenti nel set di dati.
Questo può sembrare banale per un migliaio di documenti, ma aprirà gli occhi per oltre 40 milioni.
Nuovi approcci alla ricerca testuale
Uno degli obiettivi del progetto è rendere più significativi i risultati della ricerca per le query basate su testo, consentendo un’esplorazione fruttuosa senza la necessità di un’eccessiva conoscenza precedente. Gli autori affermano:
“Sebbene la ricerca per parole chiave sia un metodo di ricerca intuitivo e altamente estensibile, può anche essere limitante, poiché gli utenti sono responsabili della formulazione di query di parole chiave che recuperano risultati pertinenti”.
Una volta ottenuti i valori TF-IDF, è possibile calcolare le parole più comunemente presenti e stimare un documento ‘medio’ nel corpus. I ricercatori sostengono che, poiché queste parole chiave tra documenti sono generalmente significative, questo processo forma relazioni utili da esplorare per gli studiosi, che non potrebbero essere ottenute esclusivamente mediante l’indicizzazione individuale del testo di ciascun documento.
Visivamente, il processo facilita un “mood board” di parole provenienti da vari dipartimenti governativi:
Parole chiave TF-IDF per vari dipartimenti del governo degli Stati Uniti, ottenute da TF-IDF.
Queste parole chiave e relazioni estratte possono essere successivamente utilizzate per formare matrici dinamiche nei risultati di ricerca, con il corpus dei PDF che iniziano a “raccontare storie” e le relazioni tra parole chiave che mettono insieme i documenti (possibilmente anche nel corso di centinaia di anni), per delineare un esplorabile multi- parte ‘saga’ per un argomento o un tema.
I ricercatori utilizzano il clustering k-means per identificare i documenti correlati, anche se i documenti non condividono una fonte comune. Ciò consente lo sviluppo di metadati di frasi chiave applicabili attraverso il set di dati, che si manifesterebbero come classifiche per i termini in una ricerca di testo rigorosa o come nodi vicini in un ambiente di esplorazione più dinamico:
Analisi visiva
La vera novità dell’approccio dei ricercatori di Washington consiste nell’applicare tecniche di analisi visiva basate sull’apprendimento automatico all’aspetto rasterizzato dei PDF nel set di dati.
In questo modo, è possibile generare un tag ‘REDATTO’ su base visiva, dove nulla nel testo stesso fornirebbe necessariamente una base sufficientemente comune.
Un gruppo di prime pagine PDF redatte identificate dalla visione artificiale nel nuovo progetto.
Inoltre, questo metodo può derivare tale tag anche da documenti governativi che sono stati rasterizzati, come spesso accade con materiale redatto, rendendo possibile una ricerca esauriente e completa di questa pratica.
Inoltre, mappe e schemi possono essere ugualmente identificati e classificati e gli autori commentano questa potenziale funzionalità:
“Per gli studiosi interessati alla divulgazione di informazioni classificate o comunque sensibili, potrebbe essere di particolare interesse isolare esattamente questo tipo di cluster di materiale per l’analisi e la ricerca”.
Il documento rileva che un’ampia varietà di indicatori visivi comuni a tipi specifici di PDF governativi può essere utilizzata allo stesso modo per classificare i documenti e creare “sagne”. Tali ‘token’ potrebbero essere il sigillo del Congresso, o altri loghi o caratteristiche visive ricorrenti che non hanno esistenza semantica in una pura ricerca testuale.
Inoltre, i documenti che sfidano la classificazione, o in cui il documento proviene da una fonte non comune, possono essere identificati dal loro layout, come colonne, tipi di carattere e altri aspetti distintivi.
Il layout da solo può permettersi raggruppamenti e classificazioni in uno spazio di ricerca visuale.
Sebbene gli autori non abbiano trascurato il testo, chiaramente lo spazio di ricerca visiva è ciò che ha guidato questo lavoro.
“La capacità di cercare e analizzare i PDF in base alle loro caratteristiche visive è quindi un approccio capiente: non solo aumenta gli sforzi esistenti relativi all’analisi testuale, ma reinventa anche ciò che la ricerca e l’analisi possono essere per i contenuti nati digitali.”
Gli autori intendono sviluppare la loro struttura per ospitare set di dati molto, molto più grandi, incluso il set di dati dell’archivio web presidenziale di fine mandato del 2008 , che contiene oltre 10 milioni di elementi. Inizialmente, tuttavia, intendono ampliare il sistema per affrontare “decine di migliaia” di PDF governativi.
Il sistema è destinato a essere valutato inizialmente con utenti reali, inclusi bibliotecari, archivisti, avvocati, storici e altri studiosi, e si evolverà in base al feedback di questi gruppi.
Alle prese con la scala delle pubblicazioni del governo digitale nato: Toward Pipelines for Processing and Searching Millions of PDFs è scritto da Benjamin Charles Germain Lee (presso la Paul G. Allen School for Computer Science & Engineering) e Trevor Owens, Public Historian in Residence e Responsabile del Digital Content Management presso la Library of Congress di Washington, DC.
Martin Anderson da UNITE.ai