Microsoft rilascia il sistema di rilevamento dello sguardo che funziona su qualsiasi dispositivo
Iricercatori di Microsoft hanno sviluppato un sistema di tracciamento dello sguardo basato sull’intelligenza artificiale che funziona su qualsiasi dispositivo. Questo sistema è correttamente definito come “hardware-agnostico”, data la sua capacità di funzionare su qualsiasi tipo di dispositivo; inoltre, i ricercatori ritengono che una tale caratteristica ora getterà le basi per lo sviluppo di capacità di previsione delle reti neurali profonde per controllare computer, tablet o telefoni usando solo gli occhi.
Questo sistema utilizza un’architettura di rete neurale profonda come metodo basato sull’aspetto che utilizza le immagini facciali per il monitoraggio dello sguardo vincolato. Le suddette immagini facciali vengono acquisite su una normale fotocamera RGB presente nella maggior parte dei dispositivi informatici moderni. La nuova architettura di tracciamento dello sguardo di Microsoft potrebbe trovare la sua applicazione nel consentire alle persone con disabilità dei motoneuroni come SLA e paralisi cerebrale di controllare i propri dispositivi, affinché i medici possano interagire con le informazioni del paziente senza toccare lo schermo o la tastiera, giochi interattivi, studi comportamentali, e ricerca sull’esperienza utente.
GazeTracker indipendente dall’hardware
I computer basati sullo sguardo dell’occhio dipendono da complesse attività computazionali che richiedono la misurazione della posizione della testa dell’utente, del posizionamento della testa, della rotazione degli occhi e della distanza tra l’utente e l’oggetto. Tutte le variabili menzionate sono calcolate rispetto al sistema di riferimento dell’osservatore, che è un insieme di un proiettore a luce infrarossa e una telecamera a infrarossi ad alta risoluzione. La precisione del sistema è influenzata da diversi fattori come l’illuminazione, il rumore di fondo, le proprietà ottiche dei sensori e la qualità dell’immagine, tra gli altri. Tuttavia, il problema con tali dispositivi standardizzati e generali è che sono personalizzati per il dispositivo su cui vengono utilizzati o per la calibrazione specifica dell’utente e quindi richiedono lo sviluppo di hardware specializzato. L’acquisizione di tale hardware comporta diverse sfide: disponibilità, convenienza,
La nuova architettura sviluppata dai ricercatori Microsoft mira a superare questo particolare problema. Come parte del loro esperimento, i ricercatori hanno utilizzato telecamere RGB, presenti in quasi tutti i moderni dispositivi informatici insieme alle applicazioni dei recenti progressi nell’apprendimento profondo .
Per l’esperimento, i ricercatori hanno riprodotto un’architettura di rete iTracker per il tracciamento dello sguardo vincolato basato su RGB come linea di base. L’iTracker sviluppato per questo progetto non utilizzava alcuna calibrazione della messa a punto specifica del dispositivo, come la versione originale. Questa architettura iTracker cattura gli occhi, la regione del viso dall’immagine originale e una griglia di faccia binaria 25X25 che indica le posizioni di tutti i pixel del viso nell’immagine originale. Queste immagini di input sono state quindi passate attraverso le sottoreti Eye e Face, dopodiché l’output corrispondente viene elaborato da più livelli completamente collegati per stimare le coordinate del punto di sguardo.
In particolare, i ricercatori hanno utilizzato il set di dati GazeCapture, acquisito su telefoni e tablet per addestrare il loro modello. GazeCapture, un corpus del MIT, è anche il più grande set di dati contenente dati di 1.450 persone con messa a punto che è disponibile pubblicamente. Tuttavia, hanno anche eseguito l’aumento dei dati per equipaggiare il modello nella gestione delle variazioni del mondo reale. Sono state introdotte altre modifiche casuali in termini di luminosità, contrasto e saturazione.
È stato addestrato un unico modello per smartphone e tablet con l’intero set di dati. Durante l’intero esperimento, sono stati utilizzati metodi come la regolarizzazione, l’aumento dei dati, la trasformazione del colore e la normalizzazione dei dati. L’esperimento dettagliato può essere trovato qui e il codice corrispondente può essere trovato qui .
Inoltre, per eliminare i potenziali bias, sono state utilizzate le tecniche Grad-Cam ++ per generare la mappa termica delle attività del gradiente interno del modello.
Ciò che è stato ottenuto alla fine è stato un sistema che ha ottenuto un RMSError di 1.8073 su GazeCapture.
Questa non è la prima volta che Microsoft sperimenta il tracciamento dello sguardo. In uno studio recente, i ricercatori hanno sperimentato luci a infrarossi attorno al display per il tracciamento degli occhi. Inoltre, il sistema operativo Microsoft Windows 10 è stato il primo a fornire una tecnologia chiamata Eye Control per consentire agli utenti di utilizzare solo il movimento degli occhi per controllare il mouse e la tastiera sullo schermo.