Da sempre considerati ostici da trattare, i file PDF sono uno standard universale per la condivisione di documenti, ma si rivelano complessi quando si tratta di estrarne informazioni in maniera strutturata e leggibile da un computer. Con l’avvento dell’intelligenza artificiale, questo limite è diventato ancora più evidente: per addestrare i modelli servono dati puliti, ordinati, facili da manipolare. È proprio in questo contesto che Hancom, società sudcoreana nota per le sue soluzioni software e guidata dal CEO Yeonsu Kim, ha annunciato il rilascio di OpenDataLoader PDF, un motore di estrazione dati dai documenti PDF reso disponibile come progetto open source globale.
Il nuovo motore è frutto di una collaborazione con Dual Lab, azienda specializzata in tecnologie PDF con cui Hancom ha firmato un accordo commerciale lo scorso luglio. Da questa partnership è nato un caricatore di dati PDF capace di andare oltre le semplici funzioni di estrazione del testo: il sistema è in grado di riconoscere e prelevare tabelle, immagini, struttura di layout e di convertirli in formati strutturati come JSON, Markdown e HTML, subito pronti per l’uso in pipeline di addestramento AI.
Il rilascio come open source non è solo una scelta tecnica, ma strategica: Hancom vuole rendere la tecnologia disponibile alla comunità globale degli sviluppatori, aprendo la strada a miglioramenti collettivi e a una diffusione più rapida.
Per dimostrare la solidità della nuova tecnologia, Hancom ha condiviso i risultati dei benchmark comparativi. OpenDataLoader PDF ha ottenuto un punteggio pari all’85% nella Normalized Indel Distance (NID), una metrica che misura quanto l’ordine del testo estratto rispetti quello della lettura umana. Un risultato che lo pone sopra la media rispetto ad altre tecnologie open source disponibili oggi.
Un altro punto di forza è la possibilità di funzionare offline, senza necessità di connessione di rete. Questo non è un dettaglio marginale: in un’epoca in cui il tema della sicurezza dei dati è cruciale, l’elaborazione locale dei PDF riduce il rischio di fuga di informazioni riservate o sensibili.
Non solo: Hancom ha già annunciato che verranno introdotte ulteriori funzioni di protezione, come la capacità di rilevare e bloccare automaticamente le iniezioni rapide, cioè quei tentativi di inserire contenuti malevoli che potrebbero compromettere la sicurezza dei sistemi.
Il CTO di Hancom, Jeong Ji-hwan, ha sottolineato il valore strategico dell’iniziativa: “Grazie al rilascio della tecnologia di base di OpenDataLoader PDF, saremo riconosciuti dagli sviluppatori di tutto il mondo e, attraverso la cooperazione, svilupperemo ulteriormente la tecnologia di estrazione dei dati PDF e completeremo la migliore tecnologia di estrazione dei dati basata sull’intelligenza artificiale al mondo”.
L’azienda non vuole fermarsi qui: entro la fine dell’anno, prevede di integrare anche tecnologie di riconoscimento documentale basate su AI, per rendere ancora più accurata l’identificazione dei contenuti e delle strutture all’interno dei file. Questo significa che OpenDataLoader PDF potrebbe diventare uno strumento sempre più versatile, in grado di distinguere tra diversi tipi di documenti (contratti, report tecnici, documenti accademici) e di fornire dati di qualità superiore.
Il progetto è già disponibile online: casi d’uso e documentazione sono consultabili sul sito ufficiale di Hancom, mentre il codice open source è stato pubblicato su GitHub. Questo garantisce a sviluppatori, ricercatori e aziende la possibilità di integrare immediatamente la tecnologia nei propri workflow, personalizzarla, contribuire a migliorarla.
Per Hancom, aprire la tecnologia significa anche inserirsi nel tessuto dell’innovazione globale: la comunità open source può infatti accelerare lo sviluppo, correggere bug, proporre nuove funzioni e adattare il motore a contesti diversi, dai sistemi aziendali chiusi alle piattaforme cloud.