L’intelligenza artificiale scopre l’attività segreta rivelata dai muri vuoti

What You Can Learn by Staring at a Blank Wall

Una collaborazione di ricerca, che include collaboratori di NVIDIA e MIT, ha sviluppato un metodo di apprendimento automatico in grado di identificare le persone nascoste semplicemente osservando l’illuminazione indiretta su una parete vicina, anche quando le persone non si trovano vicino alle sorgenti luminose illuminanti. Il metodo ha una precisione vicina al 94% quando si tenta di identificare il numero di persone nascoste e può anche identificare l’attività specifica di una persona nascosta amplificando massicciamente i rimbalzi di luce che sono invisibili agli occhi umani e ai metodi standard di amplificazione dell’immagine.

Il nuovo documento si intitola What You Can Learn by Staring at a Blank Wall , con contributi di NVIDIA e MIT, nonché dell’Israel Institute of Technology.

I precedenti approcci per “vedere intorno alle pareti” si basavano su sorgenti luminose controllabili o su conoscenze pregresse di sorgenti note di occlusione, mentre la nuova tecnica può essere generalizzata a qualsiasi nuova stanza, senza necessità di ricalibrazione. Le due reti neurali convoluzionali che individuano le persone nascoste hanno utilizzato dati ottenuti da sole 20 scene.

Il progetto è rivolto a situazioni ad alto rischio e critiche per la sicurezza, per operazioni di ricerca e soccorso, attività di sorveglianza generale delle forze dell’ordine, scenari di risposta alle emergenze, rilevamento di cadute tra anziani e come mezzo per rilevare pedoni nascosti per veicoli autonomi.

Valutazione passiva
Come spesso accade con i progetti di visione artificiale, il compito centrale era identificare, classificare e rendere operativi i cambiamenti di stato percepiti in un flusso di immagini. La concatenazione delle modifiche porta a modelli di firma che possono essere utilizzati per identificare un numero di individui o per rilevare l’attività di uno o più individui.

Il lavoro apre la possibilità di una valutazione della scena completamente passiva, senza la necessità di utilizzare superfici riflettenti, segnali Wi-Fi , radar , suoni o altre “circostanze speciali” richieste in altri sforzi di ricerca degli ultimi anni che hanno cercato di stabilire presenza umana in un ambiente pericoloso o critico.

In effetti, la luce ambientale per lo scenario tipico previsto per l’applicazione prevarrebbe su eventuali perturbazioni minori causate dalla luce riflessa da persone nascoste altrove nella scena. I ricercatori calcolano che il contributo al disturbo della luce degli individui sarebbe in genere inferiore all’1% della luce visibile totale.

Rimozione dell’illuminazione statica
Per estrarre il movimento dall’immagine della parete apparentemente statica, è necessario calcolare la media temporale del video e rimuoverla da ogni fotogramma. I modelli di movimento risultanti sono generalmente al di sotto della soglia di rumore anche di apparecchiature video di buona qualità, e in effetti gran parte del movimento si verifica all’interno di uno spazio pixel negativo.

Per rimediare a questo, i ricercatori hanno eseguito il downsampling del video di un fattore di 16 e l’upscaling del filmato risultante di un fattore di 50, aggiungendo un livello di base grigio medio per discernere la presenza di pixel negativi (che non potevano essere spiegati dal video di base rumore del sensore).

La differenza tra il muro percepito dall’uomo e la perturbazione estratta di individui nascosti. Poiché la qualità dell’immagine è una questione centrale in questa ricerca, fare riferimento al video ufficiale alla fine dell’articolo per un’immagine di qualità superiore.
La finestra di opportunità per percepire il movimento è molto fragile e può essere influenzata anche dallo sfarfallio delle luci a una frequenza CA di 60 Hz. Pertanto, anche questa perturbazione naturale deve essere valutata e rimossa dal filmato prima che emerga il movimento indotto dalla persona.

Infine, il sistema produce grafici spazio-temporali che segnalano un numero specifico di abitanti della stanza nascosta – firme visive discrete:

Diverse attività umane risulteranno anche in perturbazioni della firma che possono essere classificate e successivamente riconosciute:

Le firme della trama spazio-temporale per inattività, camminare, accovacciarsi, agitare le mani e saltare.
Al fine di produrre un flusso di lavoro automatizzato basato sull’apprendimento automatico per il riconoscimento di persone nascoste, sono stati utilizzati filmati diversi da 20 scenari appropriati per addestrare due reti neurali che operano su configurazioni sostanzialmente simili: una per contare il numero di persone in una scena e l’altra per identificare qualsiasi movimento che si verifica.

test
I ricercatori hanno testato il sistema addestrato in dieci ambienti reali invisibili progettati per ricreare i limiti previsti per la distribuzione finale. Il sistema è stato in grado di raggiungere una precisione fino al 94,4% (oltre 256 fotogrammi, in genere poco più di 8 secondi di video) nella classificazione del numero di persone nascoste e una precisione fino al 93,7% (nelle stesse condizioni) nella classificazione delle attività. Sebbene la precisione diminuisca con un minor numero di frame sorgente, non è un calo lineare e anche 64 frame raggiungeranno un tasso di precisione del 79,4% per la valutazione del “numero di persone” (contro quasi il 95% per quattro volte il numero di frame).

Sebbene il metodo sia robusto per i cambiamenti dell’illuminazione dovuti alle condizioni meteorologiche, fa fatica in una scena illuminata da un televisore o in circostanze in cui le persone indossano abiti monocromatici dello stesso colore del muro riflettente.

Maggiori dettagli della ricerca, inclusi filmati di qualità superiore delle estrazioni, possono essere visti nel video ufficiale qui sotto.

Di ihal