Gli esperti utilizzano l’intelligenza artificiale per riconoscere materiali analoghi nelle immagini. Questa tecnica di machine learning potrebbe agevolare la comprensione di scene robotiche, la modifica di immagini e i sistemi di suggerimento online.
In una foto, un tavolo di legno e sedie di legno risplendono in rosso, come se fossero marcati. Un modello di machine learning progettato al MIT può riconoscere tutti i pixel in un’immagine che corrispondono a un particolare materiale. Questa tecnica potrebbe un giorno essere implementata nei sistemi di visione artificiale che aiutano i robot a interagire con gli oggetti nel mondo reale.
Una serie di immagini mostra una passerella in mattoni, con un mattone contrassegnato in un quadrato rosso. La successiva immagine mostra tutti i mattoni nella scena colorati di rosso. In un’altra scena, una spiaggia evidenzia come la sabbia rocciosa può essere contrassegnata. Questa tecnica è precisa anche quando gli oggetti hanno forme e dimensioni diverse e il modello di machine learning sviluppato non è ingannato da ombre o condizioni di luce che possono rendere lo stesso materiale diverso in apparenza.
Un robot che maneggia oggetti, per esempio, in una cucina, potrebbe beneficiare della comprensione di quali oggetti sono composti dallo stesso materiale. Con questa informazione, il robot saprebbe esercitare una forza simile sia che raccolga un piccolo pezzo di burro da un angolo ombreggiato del bancone o un intero panetto dal frigorifero ben illuminato.
L’identificazione di oggetti in una scena composti dallo stesso materiale, noto come selezione del materiale, è una sfida notevole per le macchine perché l’aspetto di un materiale può cambiare drasticamente a seconda della forma dell’oggetto o delle condizioni di illuminazione.
Ricercatori del MIT e di Adobe Research hanno fatto un passo avanti verso la risoluzione di questa difficoltà. Hanno creato una tecnica in grado di identificare tutti i pixel in un’immagine che rappresentano un materiale specifico, evidenziato da un pixel scelto dall’utente.
Nonostante il loro modello sia stato addestrato esclusivamente con dati “sintetici”, generati da un computer che modifica le scene 3D per creare molteplici immagini diverse, il sistema funziona efficacemente su scene reali sia interne che esterne, mai viste in precedenza. Questo approccio può essere utilizzato anche per i video; una volta che l’utente identifica un pixel nel primo fotogramma, il modello può riconoscere oggetti realizzati con lo stesso materiale per tutto il resto del video.
La tecnica può essere utilizzata anche per selezionare materiali simili in un video. Dopo che l’utente identifica un pixel nel primo fotogramma, il sistema identifica automaticamente gli oggetti realizzati con lo stesso materiale per tutto il resto del video.
Oltre all’applicazione nella comprensione di scene per la robotica, questo metodo potrebbe essere utilizzato per la modifica delle immagini o integrato nei sistemi computazionali che deducono i parametri dei materiali nelle immagini. Potrebbe anche essere utilizzato per i sistemi di raccomandazione online basati sui materiali. Ad esempio, potrebbe aiutare un acquirente che cerca abiti realizzati con un determinato tipo di tessuto.
Secondo Prafull Sharma, studente laureato in ingegneria elettrica e informatica e autore principale dell’articolo su questa tecnica, “Sapere con quale materiale stai interagendo è spesso molto importante. Sebbene due oggetti possano sembrare simili, possono avere proprietà del materiale diverse. Il nostro metodo può facilitare la selezione di tutti gli altri pixel in un’immagine realizzati con lo stesso materiale.”
I ricercatori hanno affrontato le sfide dell’identificazione precisa dei materiali simili. I metodi esistenti faticano a individuare con precisione tutti i pixel che rappresentano lo stesso materiale. Ad esempio, alcuni metodi si concentrano sugli oggetti nel loro insieme, ma un oggetto può essere composto da più materiali, come una sedia con gambe in legno e sedile in pelle. Altri metodi utilizzano un insieme predefinito di materiali, ma spesso le etichette sono generiche, come “legno”, nonostante le migliaia di varietà disponibili.
Per superare queste limitazioni, Sharma e i suoi collaboratori hanno sviluppato un approccio di apprendimento automatico che valuta dinamicamente tutti i pixel in un’immagine per determinare le somiglianze materiali tra un pixel selezionato dall’utente e tutte le altre regioni dell’immagine. Se un’immagine contiene un tavolo e due sedie e le gambe della sedia e il piano del tavolo sono realizzati con lo stesso tipo di legno, il loro modello può identificare con precisione quelle regioni simili.
Prima di poter creare un modello di intelligenza artificiale in grado di selezionare materiali simili, i ricercatori hanno dovuto affrontare alcuni ostacoli. Inizialmente, non esisteva un set di dati che contenesse materiali etichettati con precisione sufficiente per addestrare il modello di apprendimento automatico. Pertanto, hanno creato un set di dati sintetici utilizzando scene in interni, includendo 50.000 immagini con oltre 16.000 materiali applicati in modo casuale a ciascun oggetto.
Successivamente, hanno addestrato il modello di apprendimento automatico utilizzando un modello di visione artificiale preaddestrato, che aveva già analizzato milioni di immagini reali. Sfruttando la conoscenza acquisita da quel modello, il loro modello si concentra esclusivamente sulla risoluzione del compito di selezione dei materiali.
Il modello dei ricercatori converte le caratteristiche visive generiche e preaddestrate in caratteristiche specifiche del materiale, resistendo alle variazioni nella forma degli oggetti e alle diverse condizioni di illuminazione.
Il modello calcola quindi un punteggio di somiglianza del materiale per ogni pixel dell’immagine. Quando un utente seleziona un pixel, il modello calcola quanto gli altri pixel si avvicinano alla query. Produce una mappa in cui ogni pixel è classificato su una scala da 0 a 1 in base alla somiglianza.
L’utente può impostare una soglia di somiglianza, ad esempio 90%, per ottimizzare i risultati e ottenere una mappa dell’immagine con le regioni evidenziate. Questo metodo funziona anche per la selezione incrociata delle immagini: l’utente può selezionare un pixel in un’immagine e trovare lo stesso materiale in un’altra immagine.
Durante gli esperimenti, i ricercatori hanno dimostrato che il loro modello era in grado di prevedere in modo più accurato delle altre tecniche le regioni di un’immagine contenenti lo stesso materiale. Il loro modello ha ottenuto una precisione di circa il 92% quando confrontato con la verità fondamentale, ovvero le aree effettive dell’immagine costituite dallo stesso materiale.
In futuro, i ricercatori intendono migliorare ulteriormente il modello per catturare più dettagli degli oggetti presenti nelle immagini, al fine di aumentare la precisione del loro approccio.
Kavita Bala, decano del Cornell Bowers College of Computing and Information Science e professore di informatica, ha commentato: “I materiali arricchiscono la funzionalità e la bellezza del mondo in cui viviamo. Tuttavia, gli algoritmi di visione artificiale spesso trascurano i materiali, concentrandosi principalmente sugli oggetti. Questo studio fornisce un importante contributo al riconoscimento dei materiali nelle immagini e nei video in una vasta gamma di condizioni difficili.”