NVIDIA ha recentemente introdotto MM-Embed, un avanzato strumento di ricerca progettato per comprendere e gestire contenuti in formati diversi, come testo e immagini. Questo strumento ha raggiunto risultati all’avanguardia nei benchmark multimodali, dimostrando la sua efficacia nel trattamento di dati eterogenei.
MM-Embed utilizza un’architettura bi-encoder per ottimizzare il processo di ricerca, migliorando l’efficienza nell’elaborazione di query complesse. Inoltre, impiega una tecnica chiamata “mining di hard negative con consapevolezza della modalità” per ridurre i bias che possono sorgere durante la gestione di dati multimodali.
Questa metodologia consente al modello di focalizzarsi su specifici target, siano essi testi, immagini o una combinazione di entrambi, migliorando la precisione nelle risposte a query complesse.
Nei test condotti, MM-Embed ha ottenuto risultati eccezionali. Nel benchmark M-BEIR, ha registrato una precisione media del 52,7% nelle ricerche, superando modelli precedenti e stabilendo un nuovo standard nel campo della ricerca multimodale.
In particolare, nel dataset MSCOCO, ha raggiunto una precisione del 73,8%, dimostrando una notevole capacità di comprendere descrizioni complesse di immagini. Inoltre, l’utilizzo di modelli linguistici multimodali (LMM) per il reranking zero-shot ha migliorato la precisione in compiti complessi, come il question answering visivo e la ricerca di immagini composite.