Immagine AI

L’esplosione dell’intelligenza artificiale ha sollevato l’asticella delle aspettative in ogni campo, ma la gestione e la ricerca di documenti su vasta scala, specialmente quando si superano le barriere linguistiche e di formato, è rimasta un’area di notevole complessità. Fino a poco tempo fa, la ricerca interlinguistica di documenti era considerata un compito quasi impraticabile, spesso classificato come “appena funzionale”. Oggi, con il lancio di NetraEmbed da parte di CognitiveLab, questo scenario è destinato a cambiare radicalmente, con l’azienda che dichiara di aver portato la ricerca multilingue di documenti a un livello di prontezza per la produzione mai raggiunto prima.

NetraEmbed è un modello di embedding multilingue e multimodale, progettato per affrontare la complessità dei documenti digitali che contengono sia testo che informazioni visive di layout. La sua funzione principale è codificare sia le immagini dei documenti visivi che le query di testo in vettori densi singoli, permettendo una ricerca di similarità estremamente efficiente. Il modello si distingue per la sua eccezionale versatilità linguistica: è stato addestrato e validato su ben ventidue lingue tipologicamente diverse, abbracciando una vasta gamma di famiglie di script come Latino, Devanagari, Dravidico e CJK (cinese, giapponese e coreano), dimostrando una coerenza di prestazioni impressionante a dispetto delle variazioni linguistiche e grafiche.

Il progresso offerto da NetraEmbed non è incrementale, bensì un salto quantico nelle prestazioni. L’implementazione del modello, supportata dal framework M3DR (Multilingual Multimodal Document Retriever), ha permesso di raggiungere risultati state-of-the-art (all’avanguardia) nel recupero interlinguistico, con un miglioramento relativo che sfiora il centocinquantadue per cento rispetto ai modelli di riferimento precedenti. Questo significa che la capacità dell’intelligenza artificiale di trovare documenti pertinenti anche quando la query e il documento sono in lingue o formati diversi è stata trasformata da un esercizio accademico a uno strumento aziendale estremamente affidabile.

Una delle innovazioni più affascinanti dietro la sua architettura risiede nell’uso del Matryoshka Representation Learning. Proprio come le bambole russe che si contengono l’una nell’altra, NetraEmbed può generare embeddings (rappresentazioni vettoriali) a dimensioni multiple (ad esempio, 768, 1536 o 2560 dimensioni) senza la necessità di ricaricare il modello o di addestrare varianti separate. Questa flessibilità è cruciale in ambienti operativi, poiché consente alle aziende di bilanciare dinamicamente la necessità di precisione (accuracy) con la velocità della ricerca, adattandosi ai requisiti di latenza e throughput del momento. In aggiunta a questa efficienza in termini di prestazioni, il modello si rivela anche eccezionalmente leggero, risultando fino a duecentocinquanta volte più efficiente a livello di memoria rispetto agli approcci multi-vector, un vantaggio non indifferente per le applicazioni che gestiscono milioni di documenti.

Per raggiungere un tale livello di competenza multilingue, CognitiveLab ha sviluppato il framework M3DR, un metodo scalabile che ha consentito di creare un imponente set di dati paralleli di quasi un milione di immagini di documenti. Questo processo sofisticato include la traduzione del documento con consapevolezza del layout (mantenendo la struttura visiva), il rendering con tipografie autentiche specifiche per ogni lingua e la sintesi di query basate su Vision Language Model (VLM), utilizzando modelli avanzati come Llama. La qualità e la diversità di questi dati sono state fondamentali per addestrare il modello a generalizzare in modo coerente su tutti i ventidue idiomi.

L’impatto di NetraEmbed è destinato a farsi sentire in tutti i settori che richiedono la gestione di grandi archivi di documenti globali. I casi d’uso spaziano dalla ricerca di documenti estremamente efficiente su milioni di record alla ricerca semantica di documenti visivamente simili, fino alla creazione di sistemi di recupero interlinguistico scalabili. La sua introduzione segna un punto di svolta, elevando il livello di affidabilità e accessibilità dei sistemi di conoscenza aziendale in un mondo sempre più globale e data-driven.

Di Fantasy