Apprendimento automatico, fai da te
Il nuovo software consente ai non specialisti di addestrare in modo intuitivo le macchine utilizzando i gesti

 

Molti sistemi informatici con cui le persone interagiscono quotidianamente richiedono la conoscenza di determinati aspetti del mondo, o modelli, per funzionare. Questi sistemi devono essere addestrati, spesso devono imparare a riconoscere oggetti da dati video o immagini. Questi dati contengono spesso contenuti superflui che riducono l’accuratezza dei modelli. Quindi i ricercatori hanno trovato un modo per incorporare i gesti naturali delle mani nel processo di insegnamento. In questo modo, gli utenti possono insegnare più facilmente alle macchine gli oggetti e le macchine possono anche apprendere in modo più efficace.

Probabilmente hai già sentito il termine apprendimento automatico, ma hai familiarità con l’insegnamento automatico? L’apprendimento automatico è ciò che accade dietro le quinte quando un computer utilizza i dati di input per formare modelli che possono essere utilizzati in seguito per eseguire funzioni utili. Ma l’apprendimento automatico è la parte un po’ meno esplorata del processo, di come il computer ottiene i suoi dati di input per cominciare. Nel caso dei sistemi visivi, ad esempio quelli in grado di riconoscere gli oggetti, le persone hanno bisogno di mostrare gli oggetti a un computer in modo che possa conoscerli. Ma ci sono degli svantaggi nei modi in cui ciò viene generalmente fatto che i ricercatori dell’Interactive Intelligent Systems Laboratory dell’Università di Tokyo hanno cercato di migliorare.

“In un tipico scenario di formazione con gli oggetti, le persone possono tenere un oggetto davanti a una telecamera e spostarlo in modo che un computer possa analizzarlo da tutte le angolazioni per costruire un modello”, ha affermato lo studente laureato Zhongyi Zhou. “Tuttavia, le macchine non hanno la nostra capacità evoluta di isolare gli oggetti dai loro ambienti, quindi i modelli che creano possono inavvertitamente includere informazioni non necessarie dagli sfondi delle immagini di addestramento. Questo spesso significa che gli utenti devono dedicare del tempo a perfezionare i modelli generati, il che può essere un’attività piuttosto tecnica e dispendiosa in termini di tempo. Abbiamo pensato che ci doveva essere un modo migliore per farlo, che fosse migliore sia per gli utenti che per i computer, e con il nostro nuovo sistema, LookHere, credo che l’abbiamo trovato”.

Zhou, in collaborazione con il Professore Associato Koji Yatani, ha creato LookHere per affrontare due problemi fondamentali nell’insegnamento automatico: in primo luogo, il problema dell’efficienza dell’insegnamento, con l’obiettivo di ridurre al minimo il tempo degli utenti, e le conoscenze tecniche richieste. E in secondo luogo, dell’efficienza dell’apprendimento: come garantire dati di apprendimento migliori per le macchine da cui creare modelli. LookHere ottiene questi risultati facendo qualcosa di nuovo e sorprendentemente intuitivo. Incorpora i gesti delle mani degli utenti nel modo in cui un’immagine viene elaborata prima che la macchina la incorpori nel suo modello, noto come HuTics. Ad esempio, un utente può puntare o presentare un oggetto alla telecamera in un modo che ne enfatizzi il significato rispetto agli altri elementi della scena. Questo è esattamente il modo in cui le persone potrebbero mostrarsi gli oggetti l’un l’altro. Ed eliminando i dettagli estranei,

“L’idea è abbastanza semplice, ma l’implementazione è stata molto impegnativa”, ha affermato Zhou. “Ognuno è diverso e non esiste un insieme standard di gesti delle mani. Quindi, per prima cosa abbiamo raccolto 2.040 video di esempio di 170 persone che presentano oggetti alla fotocamera in HuTics. Queste risorse sono state annotate per contrassegnare ciò che faceva parte dell’oggetto e quali parti dell’immagine erano solo le mani della persona. LookHere è stato addestrato con HuTics e, rispetto ad altri approcci di riconoscimento degli oggetti, può determinare meglio quali parti di un’immagine in ingresso dovrebbero essere utilizzate per costruire i suoi modelli. Per assicurarsi che sia il più accessibile possibile, gli utenti possono utilizzare i propri smartphone per lavorare con LookHere e l’elaborazione effettiva viene eseguita su server remoti. Abbiamo anche rilasciato il nostro codice sorgente e set di dati in modo che altri possano utilizzarlo se lo desiderano”.

Tenendo conto della riduzione della domanda di tempo degli utenti che LookHere offre alle persone, Zhou e Yatani hanno scoperto che può creare modelli fino a 14 volte più veloci rispetto ad alcuni sistemi esistenti. Attualmente, LookHere si occupa di insegnare alle macchine oggetti fisici e utilizza esclusivamente dati visivi per l’input. Ma in teoria, il concetto può essere ampliato per utilizzare altri tipi di dati di input come dati sonori o scientifici. E anche i modelli realizzati con quei dati trarrebbero vantaggio da miglioramenti simili nell’accuratezza.

###

Articolo di giornale: Zhongyi Zhou e Koji Yatani. ” Insegnamento automatico interattivo sensibile ai gesti con annotazioni di oggetti in situ “, 35° Simposio annuale ACM sul software e la tecnologia dell’interfaccia utente (UIST ‘ 

Informazioni sull’Università di Tokyo
L’Università di Tokyo è la principale università del Giappone e una delle migliori università di ricerca del mondo. La vasta produzione di ricerca di circa 6.000 ricercatori è pubblicata nelle migliori riviste mondiali di arti e scienze. Il nostro vivace corpo studentesco di circa 15.000 studenti universitari e 15.000 laureati comprende oltre 4.000 studenti internazionali. Scopri di più su www.u-tokyo.ac.jp/en/ o seguici su Twitter all’indirizzo @UTokyo_News_en.

Di ihal