Non è un segreto che l’ IA sia ovunque, ma non è sempre chiaro quando interagiamo con essa, figuriamoci quali tecniche specifiche sono in gioco. Ma un sottoinsieme è facile da riconoscere: se l’esperienza è intelligente e coinvolge foto o video, o è visiva in qualche modo, è probabile che la visione artificiale funzioni dietro le quinte.

La visione artificiale è un sottocampo dell’intelligenza artificiale, in particolare dell’apprendimento automatico. Se l’intelligenza artificiale consente alle macchine di “pensare”, allora la visione artificiale è ciò che consente loro di “vedere”. Più tecnicamente, consente alle macchine di riconoscere, dare un senso e rispondere a informazioni visive come foto, video e altri input visivi.

 
Negli ultimi anni, la visione artificiale è diventata uno dei principali motori dell’intelligenza artificiale. La tecnica è ampiamente utilizzata in settori come la produzione, l’e-commerce, l’agricoltura, l’automotive e la medicina, solo per citarne alcuni. Supporta qualsiasi cosa, dagli obiettivi Snapchat interattivi alle trasmissioni sportive, agli acquisti basati su AR, all’analisi medica e alle capacità di guida autonoma. E entro il 2022, si prevede che il mercato globale del sottocampo raggiungerà i 48,6 miliardi di dollari all’anno, rispetto ai soli 6,6 miliardi di dollari del 2015.

La storia della visione artificiale segue quella dell’IA in generale. Una lenta ascesa piena di ostacoli tecnici. Un grande boom reso possibile da enormi quantità di dati. Proliferazione rapida. E poi cresce la preoccupazione per i pregiudizi e per il modo in cui viene utilizzata la tecnologia. Per comprendere la visione artificiale, è importante capire come funziona, come viene utilizzata e sia le sfide che ha superato sia quelle che deve ancora affrontare oggi.

Come funziona la visione artificiale
La visione artificiale consente ai computer di svolgere una varietà di compiti. C’è la segmentazione dell’immagine (divide un’immagine in parti e le esamina individualmente) e il riconoscimento di schemi (riconosce la ripetizione degli stimoli visivi tra le immagini). C’è anche la classificazione degli oggetti (classifica gli oggetti trovati in un’immagine), il tracciamento degli oggetti (trova e tiene traccia di oggetti in movimento in un video) e il rilevamento degli oggetti (cerca e identifica oggetti specifici in un’immagine). Inoltre, c’è il riconoscimento facciale, una forma avanzata di rilevamento di oggetti in grado di rilevare e identificare i volti umani.

Come accennato, la visione artificiale è un sottoinsieme dell’apprendimento automatico e utilizza allo stesso modo le reti neurali per ordinare enormi quantità di dati finché non capisce cosa sta guardando. In effetti, l’esempio nella nostra spiegazione sull’apprendimento automatico su come l’apprendimento profondo potrebbe essere utilizzato per separare le foto di gelato e pizza con peperoni è più specificamente un caso d’uso di visione artificiale. Si fornisce il sistema di intelligenza artificiale con un saccodi foto che ritraggono entrambi i cibi. Il computer quindi sottopone le foto a diversi livelli di elaborazione, che costituiscono la rete neurale, per distinguere il gelato dalla pizza ai peperoni un passo alla volta. I livelli precedenti esaminano le proprietà di base come linee o bordi tra le parti chiare e scure delle immagini, mentre i livelli successivi identificano caratteristiche più complesse come forme o persino volti.

Funziona perché i sistemi di visione artificiale funzionano interpretando un’immagine (o video) come una serie di pixel, ciascuno dei quali è contrassegnato da un valore di colore. Questi tag fungono da input per il processo del sistema mentre sposta l’immagine attraverso la rete neurale.

L’ascesa della visione artificiale
Come l’apprendimento automatico in generale, la visione artificiale risale agli anni ’50. Senza la nostra attuale potenza di calcolo e l’accesso ai dati, la tecnica era originariamente molto manuale e soggetta a errori. Ma somigliava ancora alla visione artificiale come la conosciamo oggi; l’efficacia della prima lavorazione secondo proprietà di base come linee o bordi, ad esempio, è stata scoperta nel 1959 . Quello stesso anno vide anche l’invenzione di una tecnologia che consentiva di trasformare le immagini in griglie di numeri, che incorporavano il linguaggio binario che le macchine potevano comprendere in immagini.

Nei decenni successivi, ulteriori scoperte tecniche hanno contribuito a spianare la strada alla visione artificiale. In primo luogo, c’è stato lo sviluppo della tecnologia di scansione del computer, che per la prima volta ha permesso ai computer di digitalizzare le immagini. Poi è arrivata la capacità di trasformare immagini bidimensionali in forme tridimensionali. La tecnologia di riconoscimento degli oggetti in grado di riconoscere il testo  arrivò nel 1974 e nel 1982 la visione artificiale iniziò davvero a prendere forma. Nello stesso anno, un ricercatore sviluppò ulteriormente la gerarchia di elaborazione, proprio come un altro sviluppò una prima rete neurale.

All’inizio degli anni 2000, il riconoscimento degli oggetti in particolare stava suscitando molto interesse. Ma è stato il rilascio di ImageNet , un set di dati contenente milioni di immagini taggate, nel 2010 che ha contribuito a dare impulso all’ascesa della visione artificiale . Improvvisamente, una grande quantità di dati etichettati e pronti all’uso era disponibile per chiunque lo desiderasse. ImageNet è stato ampiamente utilizzato e la maggior parte dei sistemi di visione artificiale che sono stati costruiti oggi si basava su di esso. Ma mentre i sistemi di visione artificiale erano popolari a questo punto, stavano ancora riscontrando molti errori. La situazione è cambiata nel 2012 quando un modello chiamato AlexNet , che utilizzava ImageNet, ha ridotto significativamente il tasso di errore per il riconoscimento delle immagini, inaugurando il campo odierno della visione artificiale.

Pregiudizi e sfide della visione artificiale
La disponibilità di ImageNet è stata trasformativa per la crescita e l’adozione della visione artificiale. È diventato letteralmente la base per l’industria. Ma ha anche segnato la tecnologia in modi che stanno avendo un impatto reale oggi.

La storia di ImageNet riflette un detto popolare nella scienza dei dati e nell’intelligenza artificiale: “spazzatura dentro, spazzatura fuori”. Nel saltare per sfruttare il set di dati, ricercatori e scienziati dei dati non si sono soffermati a considerare da dove provenissero le immagini, chi le ha scelte, chi le ha etichettate, perché sono state etichettate come erano, quali immagini o etichette potrebbero essere state omesse, e l’effetto che tutto ciò potrebbe avere sul funzionamento della loro tecnologia, per non parlare dell’impatto che avrebbe sulla società e sulla vita delle persone. Anni dopo, nel 2019, uno studio su ImageNet ha rivelato la prevalenza di bias e etichette problematiche in tutto il set di dati.

“Molte categorie veramente offensive e dannose si nascondono nella profondità delle categorie Persona di ImageNet. Alcune classificazioni erano misogino, razzista, ageist e abilista. … Abbondano insulti, insulti razzisti e giudizi orali”, ha scritto la ricercatrice di intelligenza artificiale Kate Crawford nel suo libro Atlas of AI . E anche oltre a questi danni esplicitamente ovvi (alcuni dei quali sono stati rimossi – secondo quanto riferito, ImageNet sta lavorando per affrontare varie fonti di pregiudizio), scelte curiose in termini di categorie, gerarchia ed etichettatura sono state trovate in tutto il set di dati. Ora è ampiamente criticato anche per le violazioni della privacy, poiché le persone le cui foto sono state utilizzate nel set di dati non hanno acconsentito a essere incluse o etichettate.

La distorsione dei dati e degli algoritmi è uno dei problemi principali dell’intelligenza artificiale in generale, ma è particolarmente facile vedere l’impatto in alcune applicazioni di visione artificiale. La tecnologia di riconoscimento facciale, ad esempio, è nota per identificare erroneamente i neri , ma il suo uso è in aumento nei negozi al dettaglio . È anche già comune nella polizia , che ha provocato proteste e regolamenti in diverse città e stati degli Stati Uniti.

I regolamenti in generale sono una sfida emergente per la visione artificiale (e l’intelligenza artificiale in generale). È chiaro che ne arriveranno altri (soprattutto se più persone del mondo seguiranno il percorso dell’Unione Europea), ma non si sa ancora esattamente come saranno tali regolamenti, rendendo difficile la navigazione per ricercatori e aziende in questo momento. “Non c’è standardizzazione ed è incerto. Per questo tipo di cose, sarebbe utile avere chiarimenti”, ha affermato Haniyeh Mahmoudian, etica globale dell’intelligenza artificiale di DataRobot e vincitrice del premio Women in AI per la responsabilità e l’etica di VentureBeat.

Anche la visione artificiale presenta alcune sfide tecniche. È limitato dall’hardware, inclusi fotocamere e sensori. Inoltre, i sistemi di visione artificiale sono molto complessi da scalare. E come tutti i tipi di intelligenza artificiale, richiedono enormi quantità di potenza di calcolo (che è costosa) e dati. E come l’intera storia della visione artificiale rende chiaro, i dati validi che siano rappresentativi, imparziali ed eticamente raccolti sono difficili da trovare e incredibilmente noiosi da etichettare.

 

Di ihal