Upstage, specialista nell’intelligenza artificiale (AI), ha annunciato il lancio di “Document Parse,” un nuovo modello di riconoscimento ottico dei caratteri (OCR) in grado di convertire vari documenti, comprese le immagini, in file standardizzati.
Document Parse offre prestazioni superiori nel riconoscimento di layout complessi rispetto al precedente modello OCR di Upstage. Questo significa che può analizzare con precisione la struttura e le informazioni testuali, trasformando dati da documenti complicati, come quelli a più colonne o contenenti tabelle, in risorse utilizzabili. Inoltre, il modello può convertire qualsiasi tipo di documento in un formato di testo strutturato, come HTML, rendendolo subito pronto per l’uso in modelli linguistici (LLM) da parte di aziende e istituzioni.
Il nuovo modello include anche la generazione aumentata di ricerca (RAG), migliorando l’accuratezza nel processo di preelaborazione dei dati e, di conseguenza, aumentando l’accuratezza delle risposte fornite dai LLM. Upstage sostiene che Document Parse ha raggiunto una precisione e una velocità superiori a quelle dei grandi modelli delle aziende tecnologiche.
Un portavoce di Upstage ha spiegato che, sebbene esistessero benchmark OCR in precedenza, mancavano standard oggettivi e influenti da utilizzare nel settore. Per questo motivo, Upstage ha creato un proprio benchmark, chiamato “DP-Bench,” per stabilire uno standard oggettivo ampiamente utilizzabile.
I risultati mostrano che Document Parse ha ottenuto punteggi superiori di oltre il 5% rispetto ai servizi di cinque grandi aziende tecnologiche, tra cui Amazon Web Services (AWS) e Microsoft, in tutti gli indicatori di precisione, come layout, struttura delle tabelle e contenuto. Inoltre, il modello elabora 100 pagine al minuto, risultando dieci volte più veloce di “Amazon Textract” e cinque volte più veloce di “LlamaParse,” utilizzando lo stesso standard.
Document Parse introduce anche nuove funzionalità come il riconoscimento delle formule e l’estrazione delle immagini, supportando nove tipologie di documenti, tra cui DOCX, PDF, PPTX e PNG. Oltre al formato HTML, gli elementi di intestazione e tabella vengono forniti in formato Markdown, consentendo agli utenti di ridurre la dimensione del token del documento di input.
Upstage offre il proprio modello OCR dal 2023 e ha ottenuto il primo posto alla competizione “ICDAR,” la più prestigiosa al mondo nel campo dell’AI OCR, battendo concorrenti come Amazon e NVIDIA. Grazie a questa esperienza, l’azienda ha sviluppato un modello di prim’ordine.