Che cos’è la visione artificiale (o visione artificiale)? 

Il processo di identificazione degli oggetti e comprensione del mondo attraverso le immagini raccolte dalle fotocamere digitali viene spesso definito “visione artificiale” o “visione artificiale”. Rimane una delle aree più complicate e impegnative dell’intelligenza artificiale (AI), in parte a causa della complessità di molte scene catturate dal mondo reale. 

L’area si basa su una combinazione di geometria, statistica, ottica, apprendimento automatico e talvolta illuminazione per costruire una versione digitale dell’area vista dalla telecamera. Molti algoritmi si concentrano deliberatamente su un obiettivo molto ristretto e mirato, come identificare e leggere le  

 
Aree chiave della visione artificiale 
Gli scienziati dell’IA spesso si concentrano su obiettivi particolari e queste particolari sfide si sono evolute in importanti sottodiscipline. Spesso, questa attenzione porta a prestazioni migliori perché gli algoritmi hanno un compito più chiaramente definito. L’obiettivo generale della visione artificiale può essere insormontabile, ma può essere fattibile rispondere a semplici domande come, ad esempio, leggere ogni targa che passa davanti a un casello. 

Alcune aree importanti sono:

Riconoscimento facciale: individuare i volti nelle immagini e identificare le persone utilizzando i rapporti delle distanze tra i tratti del viso può aiutare a organizzare raccolte di foto e video. In alcuni casi, può fornire un’identificazione sufficientemente accurata da garantire la sicurezza. 
Riconoscimento degli oggetti: trovare i confini tra gli oggetti aiuta a segmentare le immagini, inventariare il mondo e guidare l’automazione. A volte gli algoritmi sono abbastanza forti da identificare con precisione oggetti, animali o piante, un talento che costituisce la base per applicazioni in impianti industriali, fattorie e altre aree. 
Riconoscimento strutturato: quando l’impostazione è prevedibile e facilmente semplificabile, cosa che spesso accade in una catena di montaggio o in un impianto industriale, gli algoritmi possono essere più accurati. Gli algoritmi di visione artificiale forniscono un buon modo per garantire il controllo della qualità e migliorare la sicurezza, soprattutto per le attività ripetitive. 
Illuminazione strutturata: alcuni algoritmi utilizzano schemi di luce speciali, spesso generati da laser, per semplificare il lavoro e fornire risposte più precise di quelle che possono essere generate da una scena con illuminazione diffusa da molte sorgenti, spesso imprevedibili. 
Analisi statistica: in alcuni casi, le statistiche sulla scena possono aiutare a tenere traccia degli oggetti delle persone. Ad esempio, monitorare la velocità e la lunghezza dei passi di una persona può identificare la persona. 
Analisi del colore: un’analisi attenta dei colori in un’immagine può rispondere alle domande. Ad esempio, la frequenza cardiaca di una persona può essere misurata monitorando l’onda leggermente più rossa che attraversa la pelle ad ogni battito. Molte specie di uccelli possono essere identificate dalla distribuzione dei colori. Alcuni algoritmi si basano su sensori in grado di rilevare frequenze luminose al di fuori del campo visivo umano. 
Le migliori applicazioni per la visione artificiale
Sebbene la sfida di insegnare ai computer a vedere il mondo rimanga grande, alcune applicazioni limitate vengono comprese abbastanza bene da poter essere implementate. Potrebbero non offrire risposte perfette, ma sono abbastanza giuste per essere utili. Raggiungono un livello di affidabilità sufficiente per gli utenti. 

Riconoscimento facciale: molti siti Web e pacchetti software per l’organizzazione delle foto offrono alcuni meccanismi per ordinare le immagini in base alle persone al loro interno. Potrebbero, ad esempio, consentire di trovare tutte le immagini con un volto particolare. Gli algoritmi sono sufficientemente accurati per questo compito, in parte perché gli utenti non richiedono una precisione perfetta e le foto classificate erroneamente hanno poche conseguenze. Gli algoritmi stanno trovando qualche applicazione nelle aree delle forze dell’ordine e della sicurezza, ma molti temono che la loro accuratezza non sia sufficientemente certa per supportare l’azione penale. 
Ricostruzione di oggetti 3D: la scansione di oggetti per creare modelli tridimensionali è una pratica comune per produttori, game designer e artisti. Quando l’illuminazione è controllata, spesso utilizzando un laser, i risultati sono sufficientemente precisi da riprodurre accuratamente molti oggetti lisci. Alcuni alimentano il modello in una stampante 3D, a volte con alcune modifiche, per creare efficacemente una riproduzione tridimensionale. I risultati delle ricostruzioni senza illuminazione controllata variano ampiamente.
Mappatura e modellazione: alcuni utilizzano immagini di aerei, droni e automobili per costruire modelli accurati di strade, edifici e altre parti del mondo. La precisione dipende dalla precisione dei sensori della fotocamera e dall’illuminazione del giorno in cui è stata catturata. Le mappe digitali sono già abbastanza precise per pianificare i viaggi e vengono continuamente perfezionate, ma spesso richiedono l’editing umano per scene complesse. I modelli degli edifici sono spesso sufficientemente accurati per la costruzione e il rimodellamento degli edifici. I roofer, ad esempio, spesso offrono lavori basati su misurazioni di modelli digitali costruiti automaticamente. 
Veicoli autonomi: sono comuni le auto che possono seguire le corsie e mantenere una buona distanza di percorrenza. Catturare dettagli sufficienti per tracciare accuratamente tutti gli oggetti nell’illuminazione mutevole e imprevedibile delle strade, tuttavia, ha portato molti a utilizzare l’illuminazione strutturata, che è più costosa, più grande e più elaborata. 
Vendita al dettaglio automatizzata: i proprietari di negozi e gli operatori di centri commerciali utilizzano comunemente algoritmi di visione artificiale per tenere traccia dei modelli di acquisto. Alcuni stanno sperimentando l’addebito automatico dei clienti che ritirano un articolo e non lo rimettono. I robot con scanner montati tengono anche traccia dell’inventario per misurare le perdite. 
[Correlato: i ricercatori hanno scoperto che le etichette nei set di dati di visione artificiale catturano male la diversità razziale ]

Come i giocatori affermati stanno affrontando la visione artificiale
Le grandi aziende tecnologiche offrono tutte prodotti con alcuni algoritmi di visione artificiale, ma questi sono in gran parte focalizzati su attività limitate e molto applicate come l’ordinamento di raccolte di foto o la moderazione dei post sui social media. Alcuni, come Microsoft, mantengono un ampio staff di ricerca che sta esplorando nuovi argomenti. 

 
Google, Microsoft e Apple, ad esempio, offrono ai propri clienti siti Web di fotografia che archiviano e catalogano le foto degli utenti. L’uso del software di riconoscimento facciale per ordinare le raccolte è una funzione preziosa che semplifica la ricerca di foto particolari. 

Alcune di queste funzionalità sono vendute direttamente come API per l’implementazione da parte di altre aziende. Microsoft offre anche un database di caratteristiche facciali di celebrità che possono essere utilizzate per organizzare le immagini raccolte dai media nel corso degli anni. Le persone che cercano la loro “celebrità gemella” possono trovare anche la corrispondenza più vicina nella collezione. 

Alcuni di questi strumenti offrono dettagli più elaborati. L’API di Microsoft, ad esempio, offre una funzione “descrivi l’immagine” che cercherà in più database dettagli riconoscibili nell’immagine, come l’aspetto di un importante punto di riferimento. L’algoritmo restituirà anche le descrizioni degli oggetti e un punteggio di affidabilità che misura la precisione della descrizione. 

La piattaforma cloud di Google offre agli utenti la possibilità di addestrare i propri modelli o di fare affidamento su un’ampia raccolta di modelli preaddestrati. C’è anche un sistema predefinito incentrato sulla fornitura di ricerca visiva dei prodotti per le aziende che organizzano il loro catalogo. 

Il servizio Rekognition di AWS si concentra sulla classificazione delle immagini con parametri facciali e modelli di oggetti addestrati. Offre anche opzioni di tagging delle celebrità e moderazione dei contenuti per le applicazioni dei social media. Un’applicazione predefinita è progettata per far rispettare le regole di sicurezza sul lavoro guardando filmati per garantire che ogni dipendente visibile indossi dispositivi di protezione individuale (DPI). 

 
Anche le principali società informatiche sono fortemente coinvolte nell’esplorazione del viaggio autonomo, una sfida che si basa su diversi algoritmi di intelligenza artificiale, ma soprattutto algoritmi di visione artificiale. Google e Apple, ad esempio, sono ampiamente segnalati per lo sviluppo di auto che utilizzano più telecamere per pianificare un percorso ed evitare ostacoli. Si basano su una combinazione di fotocamere tradizionali e alcune che utilizzano l’illuminazione strutturata come i laser. 

Scena di avvio della visione artificiale
Molte delle startup di visione artificiale si stanno concentrando sull’applicazione dell’argomento alla costruzione di veicoli autonomi. Startup come Waymo , Pony AI , Wayve , Aeye , Cruise Automation e Argo sono alcune delle startup con finanziamenti significativi che stanno costruendo il software e i sistemi di sensori che consentiranno alle auto e ad altre piattaforme di navigare per le strade.

Alcuni stanno applicando gli algoritmi per aiutare i produttori a migliorare la loro linea di produzione guidando l’assemblaggio robotico o esaminando le parti per individuare eventuali errori. Saccade Vision , ad esempio, crea scansioni tridimensionali dei prodotti per cercare i difetti. Veo Robotics ha creato un sistema visivo per il monitoraggio delle “celle di lavoro” per osservare le interazioni pericolose tra gli esseri umani e gli apparati robotici.  

Tracciare gli esseri umani mentre si muovono attraverso il mondo è una grande opportunità sia per motivi di sicurezza, protezione o conformità. VergeSense , ad esempio, sta costruendo una soluzione di “analisi del posto di lavoro” che spera di ottimizzare il modo in cui le aziende utilizzano uffici condivisi e hot desk. Kairos crea strumenti di riconoscimento facciale attenti alla privacy che aiutano le aziende a conoscere i propri clienti e a migliorare l’esperienza con opzioni come chioschi più consapevoli. AiCure identifica i pazienti dal loro volto, dispensa i farmaci corretti e li osserva per assicurarsi che prendano il farmaco. Trueface osserva i clienti e i dipendenti per rilevare le alte temperature e far rispettare i requisiti delle maschere. 

Altre società di visione artificiale si stanno concentrando su lavori più piccoli. Remini , ad esempio, offre un “AI Photo Enhancer” come servizio online che aggiungerà dettagli per migliorare le immagini aumentando la loro risoluzione apparente. 

Ciò che la visione artificiale non può fare 
Il divario tra l’intelligenza artificiale e le capacità umane è, forse, maggiore per gli algoritmi di visione artificiale rispetto ad altre aree come il riconoscimento vocale. Gli algoritmi riescono quando viene loro chiesto di riconoscere oggetti che sono in gran parte immutabili. I volti delle persone, ad esempio, sono in gran parte fissi e la raccolta dei rapporti delle distanze tra le caratteristiche principali come il naso e gli angoli degli occhi raramente cambia molto. Quindi gli algoritmi di riconoscimento delle immagini sono abili nella ricerca di vaste raccolte di foto per i volti che mostrano gli stessi rapporti. 

 
Ma anche concetti di base come capire cosa potrebbe essere una sedia sono confusi dalla variazione. Ci sono migliaia di diversi tipi di oggetti in cui le persone potrebbero sedersi, e forse anche milioni di esempi. Alcuni stanno costruendo database che cercano repliche esatte di oggetti conosciuti, ma spesso è difficile per le macchine classificare correttamente i nuovi oggetti. 

Una sfida particolare viene dalla qualità dei sensori. L’occhio umano può funzionare in un’ampia gamma di luce, ma le fotocamere digitali hanno problemi a far corrispondere le prestazioni quando la luce è più bassa. D’altra parte, ci sono alcuni sensori in grado di rilevare i colori al di fuori della gamma dei bastoncelli e dei coni negli occhi umani. Un’area di ricerca attiva sta sfruttando questa più ampia capacità per consentire agli algoritmi di visione artificiale di rilevare cose che sono letteralmente invisibili all’occhio umano. 

Di ihal