Negli ultimi anni, i modelli linguistici visivi (VLM) hanno rivoluzionato il modo in cui le macchine comprendono e interagiscono con il linguaggio umano e le immagini. Questi modelli sono fondamentali in applicazioni come la ricerca di immagini, la generazione di didascalie e l’analisi di immagini mediche. Tuttavia, recenti studi hanno evidenziato una significativa limitazione: la difficoltà dei VLM nel comprendere il concetto di negazione.

La negazione è una componente essenziale del linguaggio umano, permettendo di esprimere l’assenza o la contrarietà di un concetto. Ad esempio, la frase “una stanza senza finestre” descrive specificamente una stanza priva di finestre. Sorprendentemente, molti VLM faticano a interpretare correttamente tali espressioni. Di conseguenza, quando viene richiesto di trovare un’immagine di una “stanza senza finestre”, il modello potrebbe erroneamente restituire immagini di stanze con finestre, ignorando la negazione presente nella richiesta.

Questa difficoltà deriva principalmente da un bias positivo nei dati di addestramento. I dataset utilizzati per addestrare i VLM contengono prevalentemente esempi affermativi, con poche rappresentazioni di concetti negativi o assenti. Di conseguenza, i modelli tendono a non riconoscere o a fraintendere le espressioni negative, portando a interpretazioni errate.

Per affrontare questa limitazione, un team di ricercatori del MIT, Google DeepMind e dell’Università di Oxford ha sviluppato “NegBench”, un framework progettato per valutare e migliorare la comprensione della negazione da parte dei VLM. NegBench comprende un vasto dataset di 79.000 campioni provenienti da 18 domini diversi, tra cui immagini, video e dati medici. Questo dataset è stato arricchito con elementi negativi, sia attraverso l’aggiunta di annotazioni a dataset esistenti che mediante la creazione di nuovi dati sintetici.

Il framework valuta le capacità dei VLM attraverso due principali test:

  • Retrieval-Neg: Valuta se il modello è in grado di recuperare esempi negativi specifici da un database.
  • MCQ-Neg: Propone domande a scelta multipla con didascalie negative, valutando la capacità del modello di selezionare la risposta corretta.

I test iniziali hanno rivelato che i VLM più avanzati attualmente disponibili mostrano una comprensione limitata della negazione, con performance spesso vicine al livello del caso. Per migliorare queste capacità, i ricercatori hanno effettuato una fine-tuning del modello CLIP utilizzando un vasto dataset sintetico contenente milioni di didascalie negative. Questo approccio ha portato a un incremento del 10% nella precisione del recupero di esempi negativi e a un miglioramento del 40% nelle risposte corrette alle domande a scelta multipla con negazioni.

Il miglioramento della comprensione della negazione nei VLM ha implicazioni significative in vari settori. Ad esempio, nell’analisi delle immagini mediche, una corretta interpretazione delle negazioni potrebbe aiutare a identificare con maggiore precisione l’assenza di determinate patologie. Nel campo della sicurezza, sistemi di sorveglianza avanzati potrebbero distinguere meglio tra la presenza e l’assenza di minacce specifiche.

Di Fantasy