In un importante sviluppo, i ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno recentemente presentato un framework innovativo capace di gestire sia il riconoscimento delle immagini che la generazione di immagini con elevata precisione. Conosciuto ufficialmente come Masked Generative Encoder (MAGE), questo sistema unificato di visione artificiale promette una vasta gamma di applicazioni e può ridurre la complessità dell’addestramento di due sistemi distinti per il riconoscimento e la generazione di immagini.
Questa notizia giunge in un momento in cui le aziende stanno puntando sull’intelligenza artificiale, in particolare sulle tecnologie generative, per migliorare i loro flussi di lavoro. Tuttavia, secondo i ricercatori, il sistema del MIT presenta ancora alcune lacune e richiederà ulteriori perfezionamenti nei prossimi mesi prima di poter essere adottato.
Attualmente, la creazione di sistemi per la generazione e il riconoscimento delle immagini si basa principalmente su due processi distinti: la modellazione generativa all’avanguardia e l’apprendimento della rappresentazione auto-supervisionato. Nel primo caso, il sistema apprende a generare dati ad alta dimensione da input a bassa dimensione, come etichette di classe, embedding di testo o rumore casuale. Nel secondo caso, un’immagine ad alta dimensione viene utilizzata come input per creare un embedding a bassa dimensione per il rilevamento o la classificazione delle caratteristiche.
Poiché entrambe queste tecniche richiedono una comprensione visiva e semantica dei dati, il team del MIT ha deciso di unirle in un’unica architettura, che ha portato alla creazione di MAGE.
Nello sviluppare il sistema, il gruppo ha utilizzato un approccio chiamato modellazione di token mascherati. Hanno trasformato sezioni di dati di immagini in versioni astratte rappresentate da token semantici. Ogni token rappresentava una patch di token 16×16 dell’immagine originale, funzionando come dei mini pezzi di un puzzle.
Successivamente, alcuni di questi token sono stati mascherati in modo casuale e una rete neurale è stata addestrata per prevedere i token nascosti analizzando il contesto dei token circostanti. In questo modo, il sistema ha imparato a comprendere i modelli presenti in un’immagine (riconoscimento delle immagini) e a generarne di nuovi (generazione delle immagini).
“Il nostro concetto chiave in questo lavoro è che la generazione viene vista come la ‘ricostruzione’ di immagini completamente mascherate, mentre l’apprendimento della rappresentazione viene visto come la ‘codifica’ di immagini completamente non mascherate”, hanno scritto i ricercatori in un documento che descrive dettagliatamente il sistema. “Il modello è addestrato per ricostruire una vasta gamma di livelli di mascheramento, che vanno da un alto livello di mascheramento per consentire la generazione a un basso livello di mascheramento per consentire l’apprendimento della rappresentazione. Questo approccio semplice ma molto efficace permette una combinazione fluida della generazione e dell’apprendimento della rappresentazione nella stessa struttura: stessa architettura, stesso schema di addestramento e funzione di perdita.”
Oltre alla generazione di immagini da zero, il sistema supporta anche la generazione di immagini condizionali, in cui gli utenti possono specificare criteri per le immagini e lo strumento genererà l’immagine appropriata.
“Tutto ciò che l’utente deve fare è fornire un’immagine completa e il sistema sarà in grado di comprenderla e riconoscerla, restituendo la classe dell’immagine”, ha affermato Tianhong Li, uno dei ricercatori responsabili del sistema. “In altre situazioni, l’utente può fornire un’immagine con ritagli parziali e il sistema sarà in grado di recuperare l’immagine ritagliata. Inoltre, gli utenti possono richiedere al sistema di generare un’immagine casuale o generare un’immagine appartenente a una classe specifica, come un pesce o un cane.”
Quando il modello è stato preaddestrato sui dati del database di immagini ImageNet, che comprende 1,3 milioni di immagini, ha ottenuto un punteggio di 9,1 nella Fréchet Inception Distance (una misura utilizzata per valutare la qualità delle immagini), superando i modelli precedenti. Per quanto riguarda il riconoscimento, ha ottenuto un’accuratezza del 80,9% nel sondaggio lineare e un’accuratezza del 71,9% nella valutazione a 10 colpi quando disponeva di soli 10 esempi etichettati per ogni classe.
“La nostra metodologia può naturalmente adattarsi a qualsiasi set di dati di immagini non etichettate”, ha affermato Li, sottolineando che le capacità di comprensione delle immagini del modello possono risultare utili in scenari in cui sono disponibili solo pochi dati etichettati, come in settori di nicchia o in tecnologie emergenti.
Allo stesso modo, ha affermato, il lato di generazione del modello può essere utile in settori come il fotoritocco, gli effetti visivi e la post-produzione, grazie alla sua capacità di rimuovere elementi da un’immagine mantenendo un aspetto realistico o di sostituire un elemento con un altro elemento generato, a partire da una classe specifica.
“È sempre stato un sogno realizzare la generazione e il riconoscimento delle immagini all’interno di un unico sistema. MAGE rappresenta una ricerca rivoluzionaria che sfrutta con successo la sinergia di questi due compiti, raggiungendo lo stato dell’arte in un’unica soluzione”, ha affermato Huisheng Wang, ingegnere software senior per la ricerca e l’intelligenza artificiale presso Google, che ha collaborato al progetto MAGE. “Questo sistema innovativo ha applicazioni molto ampie e potrebbe ispirare molti lavori futuri nel campo della visione artificiale”, ha aggiunto.
Per il futuro, il team si propone di semplificare il sistema MAGE, in particolare nella fase di conversione dei token. Attualmente, quando i dati delle immagini vengono convertiti in token, alcune informazioni vengono perse. Li e il suo team prevedono di affrontare questa sfida attraverso nuovi metodi di compressione.
Inoltre, Li ha dichiarato che hanno in programma di estendere MAGE a set di dati di immagini non etichettate di grandi dimensioni del mondo reale e di applicarlo ad attività multimodali, come la generazione di immagini a partire da testo e da testo a immagine.