Mistral AI ha rilasciato OCR 4, nuova versione del proprio sistema di document intelligence per l’estrazione di contenuti da PDF, scansioni e immagini. L’aggiornamento amplia il tradizionale riconoscimento ottico dei caratteri con informazioni strutturali che permettono di identificare non solo il testo presente in una pagina, ma anche la sua posizione, il tipo di blocco a cui appartiene e il livello di affidabilità associato a ogni elemento estratto.
Il modello, identificato nell’API come mistral-ocr-4-0, restituisce infatti bounding box a livello di paragrafo, etichette strutturali e confidence score inline. Le bounding box forniscono le coordinate del contenuto riconosciuto sulla pagina e rendono possibile collegare un dato estratto al punto preciso del documento da cui proviene. Questo passaggio è rilevante nei flussi enterprise nei quali non basta trasformare un PDF in testo: un sistema deve poter evidenziare la fonte, verificare visivamente un campo, applicare una redazione selettiva o mantenere il collegamento tra una risposta generata e il documento originale.
OCR 4 classifica i blocchi rilevati in categorie come testo, titolo, elenco, tabella, immagine, equazione, didascalia, codice, riferimenti, intestazione, piè di pagina e firma. L’output mantiene l’ordine di lettura e permette di distinguere, ad esempio, una clausola contrattuale dal titolo della sezione, un valore inserito in tabella da una nota laterale o un campo firmato da un elemento grafico. Questa segmentazione evita che tutte le informazioni vengano consegnate a un modello successivo come un’unica sequenza testuale priva di gerarchia.
L’API OCR di Mistral consente di attivare queste informazioni tramite il parametro include_blocks. Quando l’opzione è impostata su true, per ogni pagina viene restituito un array di blocchi che contiene il testo o il contenuto rilevato, il tipo strutturale e le coordinate. Per le tabelle è possibile scegliere la rappresentazione in Markdown oppure HTML, una funzione utile quando l’output deve essere passato a un modello linguistico, salvato in un sistema di ricerca semantica oppure trasformato in record strutturati.
La disponibilità dei punteggi di confidenza introduce un ulteriore livello operativo. Un processo di estrazione può utilizzare queste informazioni per inviare automaticamente a revisione umana soltanto i campi con affidabilità insufficiente, mentre i dati riconosciuti con score elevato possono proseguire verso sistemi gestionali, archivi o workflow di approvazione. In documenti come fatture, moduli, report tecnici, pratiche assicurative o fascicoli sanitari, questo consente di separare la digitalizzazione automatica dalla verifica dei casi ambigui senza dover controllare manualmente ogni pagina.
Mistral posiziona OCR 4 come componente di ingestione per la ricerca enterprise, i sistemi RAG e le pipeline di recupero documentale specializzate. In questi scenari il modello può essere utilizzato per trasformare archivi di PDF in contenuti interrogabili, mantenendo però la struttura necessaria per recuperare il passaggio corretto e ricondurre una risposta alla sezione, alla tabella o alla pagina di origine. Il modello supporta 170 lingue distribuite in dieci gruppi linguistici, caratteristica che permette di applicare lo stesso flusso a documenti operativi, contrattuali e tecnici prodotti in più mercati.
Mistral indica anche la possibilità di eseguire OCR 4 in un singolo container per deployment completamente self-hosted. Questa modalità è rilevante per organizzazioni che devono elaborare documenti riservati, archivi regolamentati o dati soggetti a requisiti di residenza e controllo dell’infrastruttura. Il modello è disponibile sia attraverso la Document AI API sia tramite il riferimento mistral-ocr-latest, che ora punta alla nuova versione.
Sul piano economico, OCR 4 è indicato a 4 dollari per mille pagine elaborate e a 5 dollari per mille pagine nel caso di pagine annotate. Il prezzo è superiore a quello di OCR 3, che Mistral proponeva a 2 dollari per mille pagine, ma il nuovo modello aggiunge funzioni che trasformano l’estrazione in un output utilizzabile direttamente da pipeline di verifica, indicizzazione, redazione e data extraction. La disponibilità di coordinate, classificazione dei blocchi e confidence score riduce infatti la necessità di costruire componenti separati per il layout analysis o per il collegamento tra dati estratti e documento sorgente.
OCR 4 non si limita quindi a migliorare la conversione di una scansione in testo digitale. Mistral lo ha progettato come uno strato di document intelligence in grado di produrre contenuti strutturati, localizzati e verificabili, pronti per essere utilizzati da sistemi di ricerca aziendale, modelli RAG, workflow di automazione e processi nei quali ogni dato deve poter essere ricondotto al documento che lo contiene.
