Google AI lancia SimVLM, un semplice modello di linguaggio visivo pre-formazione con supervisione debole
Molti metodi di modellazione del linguaggio visivo sono recentemente emersi come un’opzione fattibile per la classificazione delle immagini basata sul contenuto. In tale metodo, ogni immagine viene convertita in una matrice di parole visive e si presume che ogni parola visiva dipenda condizionatamente dalle sue vicine.
Sebbene ci siano state varie sfide a tale lavoro intermodale, negli ultimi anni sono stati compiuti progressi significativi anche sulla modellazione del linguaggio visivo, grazie all’adozione di un efficace pre-formazione del linguaggio visivo (VLP). I VLP mirano ad apprendere un singolo spazio di funzionalità da input sia visivi che linguistici, piuttosto che apprendere due spazi di funzionalità separati, uno per gli input visivi e l’altro per gli input linguistici.
Registrati al nostro workshop su Come iniziare la tua carriera nella scienza dei dati?
Il VLP esistente utilizza spesso un rilevatore di oggetti addestrato su set di dati di rilevamento di oggetti etichettati per estrarre regioni di interesse (ROI) e tecniche specifiche per attività (ad esempio, funzioni di perdita specifiche per attività) per apprendere contemporaneamente rappresentazioni di immagini e testo. Tuttavia, tali approcci sono meno scalabili perché richiedono set di dati annotati e tempo per creare metodi specifici per l’attività.
Per affrontare un problema del genere, i ricercatori di Google suggeriscono un modello VLP semplice ma efficace chiamato SimVLM, che sta per “Simple Visual Language Model Pre-training with Weak Supervision”. SimVLM è addestrato su un gran numero di coppie immagine-testo mal allineate end-to-end con uno scopo unificante paragonabile alla modellazione linguistica. La facilità d’uso di SimVLM consente un addestramento efficiente su un set di dati così grande, consentendo al modello di ottenere le migliori prestazioni della categoria attraverso sei benchmark del linguaggio di visione.
SimVLM utilizza un framework da sequenza a sequenza ed è addestrato con un modello di linguaggio prefisso (PrefixLM). PrefixLM riceve la parte iniziale di una sequenza (il prefisso) come input e ne prevede la continuazione. In SimVLM, il prefisso concatena sia la sequenza di patch di immagini che la sequenza di testo del prefisso ricevuta dall’encoder per input multimodali (ad esempio, immagini e didascalie). Il decodificatore prevede quindi come continuerà la sequenza testuale.A differenza delle precedenti tecniche VLP basate su ROI, consente al modello di acquisire direttamente le immagini grezze come input. Inoltre, i ricercatori hanno utilizzato una fase di convoluzione costituita dai primi tre blocchi di ResNet per estrarre patch contestualizzate.
Mentre i ricercatori hanno addestrato SimVLM su una notevole quantità di dati provenienti da modalità visive e testuali, hanno anche studiato se può eseguire il trasferimento a modalità incrociata zero su vari compiti. Ciò includeva la didascalia delle immagini , la didascalia multilingue, la VQA aperta e il completamento del testo visivo. Il SimVLM pre-addestrato è stato impiegato per decodificare direttamente gli input multimodali, con solo la regolazione fine dei dati di testo o nessuna regolazione fine. I risultati hanno mostrato che il modello può produrre didascalie e descrizioni di immagini di alta qualità, consentendo la traduzione interlinguistica e intermodale.
Il team di Google AI Research afferma che il modello attuale è addestrato end-to-end con un unico obiettivo del modello di linguaggio del prefisso, a differenza del lavoro precedente che utilizzava modelli di rilevamento di oggetti e perdite ausiliarie specifiche per attività. Il nuovo approccio ottiene non solo prestazioni all’avanguardia, ma mostra anche intriganti comportamenti zero-shot nelle attività di comprensione multimodale.