Computer Vision ha visto una rapida crescita negli ultimi anni, principalmente a causa del deep learning che ha consentito di rilevare ostacoli, segmentare immagini o estrarre importanti contesti da una determinata scena. Dal punto di vista biologico, la visione computerizzata si sforza di elaborare modelli computazionali del sistema visivo umano. Dal punto di vista ingegneristico, l’obiettivo della computer vision è quello di creare sistemi autonomi in grado di svolgere alcuni dei compiti che il sistema visivo umano può svolgere e addirittura superarlo in molti casi. Ma la visione del computer è una cosa incredibilmente complessa da realizzare.

Ad esempio, alcune delle difficoltà più fondamentali nella visione artificiale possono essere riconosciute come estrarre e rappresentare la grande quantità di esperienza umana in un computer in modo tale che il recupero sia facile e necessiti di un’enorme quantità di calcolo per eseguire compiti come come riconoscimento facciale o guida autonoma in tempo reale e altro ancora.

Quanto può essere difficile un’attività di visione in aree come la guida autonoma?

I ricercatori hanno lavorato per comprendere la visione e la base di conoscenze necessarie per dare vita ai veicoli autonomi. Tesla sta lavorando su qualcosa chiamato pilota automatico che è principalmente un sistema basato sulla visione, che coinvolge una rete neurale multi-task. Mentre altre tecnologie potrebbero aiutare i veicoli a guida autonoma a riconoscere ed evitare gli ostacoli, la visione artificiale li aiuta a leggere i segnali stradali e seguire le regole del traffico per la massima sicurezza. Quindi, la guida può essere convertita in un problema puramente visivo e risolta con tecniche di apprendimento automatico?

Jitendra Malik, rinomata esperta di visione artificiale, afferma di essere ottimista sulla guida completamente autonoma nel prossimo futuro. Secondo lui, ci sarà lo 0,01% dei casi in cui è richiesto un ragionamento cognitivo abbastanza sofisticato. Fare errori quando si guida per sessanta miglia all’ora potrebbe potenzialmente uccidere qualcuno.


Secondo Malik, la maggior parte di ciò che facciamo in visione viene fatto inconsciamente o inconsciamente. Questa facilità ci dà la sensazione che questo deve essere molto facile da implementare su un computer. “Se vai nella neuroscienza della visione artificiale, la complessità diventa chiara. Gran parte della corteccia cerebrale è dedicata all’elaborazione della vista. La realtà è molto più complessa di quanto immaginato “, ha dichiarato di recente in un’intervista a Lex Fridman.

Le macchine vedono numeri non immagini

Uno degli altri motivi per cui la visione artificiale è una sfida è che quando le macchine vedono le immagini, le vedono come numeri che rappresentano i singoli pixel. Considerando che gli umani percepiscono le foto come oggetti, in modo altamente visivo e intuitivo. È certamente difficile per le macchine elaborare tutti questi dati durante l’addestramento di un modello di visione artificiale. Inoltre, rendere le macchine complesse attività visive è ancora più impegnativo in termini di risorse di elaborazione e dati richieste.

Secondo Malik, ci sono sottoinsiemi del problema di guida basato sulla visione che sono molto risolvibili come in condizioni di autostrada senza pedaggio. Ma la guida autonoma deve funzionare in tutte le condizioni, qualunque cosa accada. Quindi, ciò potrebbe richiedere modelli predittivi di comportamenti dei pedoni sulla strada e di altri agenti , il che può essere incredibilmente complicato. Ad esempio, il sistema potrebbe aver bisogno di una comprensione cognitiva di alto livello di ciò che fa un ciclista tipico e agire di conseguenza in anticipo. Ma il comportamento tipico di un ciclista può differire da un pedone. Ciò significa che gli attuali sistemi di visione artificiale hanno bisogno di molti più dati rispetto agli umani per apprendere le stesse capacità. Se confrontiamo questo con gli umani, si potrebbe vedere che siamo esperti naturali nei compiti che coinvolgono complessi compiti di visione al computer come andare in bicicletta o guidare un’auto.

I ricercatori si sono concentrati fortemente sull’elaborazione di singole immagini . Storicamente, devi capire le restrizioni delle capacità computazionali che abbiamo avuto. Molte delle scelte fatte nella comunità della visione artificiale nel corso dei decenni possono essere comprese come scelte forzate dalla mancanza di risorse informatiche. Ciò ha portato a concentrarsi ampiamente su singole immagini anziché su video.

Mentre oggi non ci sono problemi computazionali e la necessità di una visione computerizzata a immagine singola può essere raggiunta abbastanza comodamente. Ma il video è ancora sottovalutato perché il calcolo del video è ancora piuttosto impegnativo. Puoi ancora formare grandi reti neurali con set di dati video relativamente più grandi rispetto agli anni ’90, ma se vuoi operare su scala di tutti i contenuti su YouTube, è molto impegnativo.

Secondo Malik, la comprensione dei video a lungo raggio è uno dei problemi della visione artificiale. Dice che se hai un video e vuoi capire il comportamento in termini di agenti, i loro obiettivi, intenzionalità e fare previsioni su ciò che potrebbe accadere, è piuttosto impegnativo. “Nel breve raggio della visione artificiale, si tratta solo di rilevare se una persona è seduta o in piedi. Questo è qualcosa che possiamo fare adesso. Ma in termini di comprensione dei video a lungo raggio, non penso che possiamo fare oggi, poiché si fonde con la cognizione, ed è questo il motivo per cui è impegnativo “, ha detto Malik a Lex Fridman.

Di ihal