Il modello di apprendimento automatico comprende le relazioni tra oggetti
 

I ricercatori del Massachusetts Institute of Technology (MIT) hanno sviluppato un nuovo modello di machine learning (ML) che comprende le relazioni sottostanti tra gli oggetti in una scena. Il modello rappresenta le relazioni individuali una alla volta prima di combinare le rappresentazioni per descrivere la scena complessiva. 

Attraverso questo nuovo approccio, il modello ML può generare immagini più accurate dalle descrizioni di testo e può farlo anche quando la scena ha più progetti disposti in diverse relazioni tra loro. 

Questo nuovo sviluppo è importante dato che molti modelli di deep learning non sono in grado di comprendere le relazioni intricate tra i singoli oggetti.

Il modello del team potrebbe essere utilizzato nei casi in cui i robot industriali devono eseguire attività di manipolazione in più fasi, come impilare oggetti o assemblare apparecchi. Aiuta anche a far sì che le macchine alla fine siano in grado di imparare e interagire con i loro ambienti, proprio come gli umani. 

Yilun Du è uno studente di dottorato presso il Computer Science and Artificial Intelligence Laboratory (CSAIL) e co-autore dell’articolo. Du ha guidato la ricerca con Shuang Li, studente di dottorato CSAIL, e Nan Liu, studentessa laureata presso l’Università dell’Illinois a Urbana-Champaign. Comprendeva anche Joshua B. Tenenbaum, Paul E. Newton, professore di scienze cognitive e computazione presso il Dipartimento di scienze cognitive e del cervello, e l’autore senior Antonio Torralba, professore di ingegneria elettrica e informatica di Delta Electronics. Sia Tenenbaum che Torralba sono membri del CSAIL.

Il nuovo quadro
“Quando guardo un tavolo, non posso dire che ci sia un oggetto nella posizione XYZ. Le nostre menti non funzionano così. Nella nostra mente, quando comprendiamo una scena, la capiamo davvero in base alle relazioni tra gli oggetti. Pensiamo che costruendo un sistema in grado di comprendere le relazioni tra gli oggetti, potremmo utilizzare quel sistema per manipolare e modificare in modo più efficace i nostri ambienti”, afferma Du.

Il nuovo framework può generare un’immagine di una scena basata su una descrizione testuale degli oggetti e delle loro relazioni. 

Il sistema può quindi suddividere queste frasi in parti più piccole che descrivono ogni singola relazione. Ogni parte viene quindi modellata separatamente e i pezzi vengono combinati attraverso un processo di ottimizzazione che genera un’immagine della scena. 

Con le frasi scomposte in pezzi più brevi, il sistema può quindi ricombinarle in modi diversi, consentendogli di adattarsi a descrizioni di scene che non ha mai incontrato.

“Altri sistemi prenderebbero tutte le relazioni in modo olistico e genererebbero l’immagine one-shot dalla descrizione. Tuttavia, tali approcci falliscono quando abbiamo descrizioni fuori distribuzione, come descrizioni con più relazioni, poiché questi modelli non possono davvero adattare uno scatto per generare immagini contenenti più relazioni. Tuttavia, mentre stiamo componendo insieme questi modelli separati e più piccoli, possiamo modellare un numero maggiore di relazioni e adattarci a nuove combinazioni”, afferma Du.

Il sistema può eseguire questo processo anche al contrario. Se viene alimentata con un’immagine, può trovare descrizioni di testo che corrispondono alle relazioni tra gli oggetti nella scena. 

Valutazione del modello
I ricercatori hanno chiesto agli umani di valutare se le immagini generate corrispondessero alla descrizione della scena originale. Quando le descrizioni contenevano tre relazioni, che era il tipo più complesso, il 91% dei partecipanti ha affermato che il nuovo modello ha funzionato meglio di altri metodi di deep learning.

“Una cosa interessante che abbiamo scoperto è che per il nostro modello, possiamo aumentare la nostra frase dall’avere una descrizione di relazione ad avere due, o tre, o anche quattro descrizioni, e il nostro approccio continua a essere in grado di generare immagini che sono correttamente descritte da quelle descrizioni, mentre altri metodi falliscono”, afferma Du.

Il modello ha anche dimostrato un’impressionante capacità di lavorare con descrizioni che non aveva incontrato in precedenza.

“Questo è molto promettente perché è più vicino al modo in cui funzionano gli umani. Gli esseri umani possono vedere solo diversi esempi, ma possiamo estrarre informazioni utili solo da quei pochi esempi e combinarli insieme per creare infinite combinazioni. E il nostro modello ha una tale proprietà che gli consente di apprendere da un minor numero di dati ma di generalizzare a scene o generazioni di immagini più complesse”, afferma Li.

Il team ora cercherà di testare il modello su immagini del mondo reale che sono più complesse ed esplorerà come incorporare eventualmente il modello nei sistemi robotici. 

Di ihal