Sommario
Tipi di percezione della macchina
Quali sensi umani possono imitare bene le macchine?
La percezione della macchina è difficile?
In che modo le principali aziende di intelligenza artificiale gestiscono la percezione delle macchine?
In che modo le startup e gli sfidanti si avvicinano alla percezione della macchina?
Cosa non può fare la percezione della macchina?
La percezione della macchina è la capacità di un computer di raccogliere ed elaborare informazioni sensoriali in un modo simile a come gli umani percepiscono il mondo. Può fare affidamento su sensori che imitano i comuni sensi umani – vista, suono, tatto, gusto – oltre a raccogliere informazioni in modi che gli esseri umani non possono. 

Il rilevamento e l’elaborazione delle informazioni da parte di una macchina generalmente richiedono hardware e software specializzati. È un processo in più fasi per acquisire e quindi convertire o tradurre i dati grezzi nella scansione complessiva e nella selezione dettagliata del focus con cui gli esseri umani (e gli animali) percepiscono il loro mondo.

 
Creare app aziendali e automatizzare i flussi di lavoro rapidamente, ma con successo, Low-Code/No-Code Summit
La percezione è anche il primo stadio in molti dei modelli sensoriali dell’intelligenza artificiale (AI) . Gli algoritmi convertono i dati raccolti dal mondo in un modello grezzo di ciò che viene percepito. La fase successiva è la costruzione di una comprensione più ampia del mondo percepito, una fase a volte chiamata cognizione. Dopodiché arriva la strategia e la scelta di come agire. 

In alcuni casi, l’obiettivo non è far pensare le macchine esattamente come gli umani, ma solo pensare in modo simile. Molti algoritmi per la diagnosi medica possono fornire risposte migliori rispetto agli umani perché i computer hanno accesso a immagini o dati più precisi di quanto gli umani possano percepire. L’obiettivo non è insegnare agli algoritmi di intelligenza artificiale a pensare esattamente come fanno gli umani, ma fornire informazioni utili sulla malattia che possono aiutare medici e infermieri umani. Vale a dire, va bene e talvolta è persino preferibile che la macchina percepisca in modo diverso rispetto agli umani. 

Tipi di percezione della macchina
Ecco alcuni tipi di percezione della macchina, in vari stadi di sviluppo:

Visione artificiale o artificiale tramite telecamera ottica
Udito meccanico (audizione al computer) tramite microfono
Tocco della macchina tramite sensore tattile
Odore della macchina (olfattivo) tramite naso elettronico
Gusto macchina tramite lingua elettronica
Imaging 3D o scansione tramite sensore o scanner LiDAR
Rilevamento del movimento tramite accelerometro, giroscopio, magnetometro o sensore di fusione
Termografia o rilevamento di oggetti tramite scanner a infrarossi
In teoria, qualsiasi raccolta di informazioni dal mondo diretta e basata su computer è la percezione della macchina.


Molte delle aree solitamente considerate sfide per lo sviluppo di una buona percezione della macchina sono quelle in cui gli esseri umani si comportano bene, ma che non sono facili da codificare come semplici regole. Ad esempio, la calligrafia umana spesso varia da parola a parola. Gli esseri umani possono discernere uno schema, ma è più difficile insegnare a un computer a riconoscere le lettere con precisione perché ci sono così tante piccole variazioni. 

Anche la comprensione del testo stampato può essere una sfida, a causa dei diversi caratteri e delle sottili variazioni nella stampa. Il riconoscimento ottico dei caratteri richiede di programmare il computer per pensare a domande più ampie, come la forma di base della lettera, e adattare se il carattere estende alcuni degli aspetti.

Alcuni ricercatori nella percezione della macchina vogliono costruire attaccamenti al computer che possano davvero iniziare a duplicare il modo in cui gli umani percepiscono il mondo. Alcuni stanno costruendo nasi e lingue elettroniche che cercano di imitare o addirittura duplicare le reazioni chimiche interpretate dal cervello umano.


In alcuni casi, l’elettronica offre un rilevamento migliore rispetto agli organi umani equivalenti. Molti microfoni possono percepire frequenze sonore molto al di fuori della portata umana. Possono anche raccogliere suoni troppo deboli per essere rilevati dagli esseri umani. Tuttavia, l’obiettivo è capire come far percepire al computer il mondo come fa un essere umano.

Alcuni scienziati della percezione della macchina si concentrano sul tentativo di simulare il modo in cui gli esseri umani sono in grado di agganciarsi a suoni specifici. Ad esempio, il cervello umano è spesso in grado di tenere traccia di particolari conversazioni in un ambiente rumoroso. Filtrare il rumore di fondo è una sfida per i computer perché richiede l’identificazione delle caratteristiche salienti in un mare di cacofonia. 

Quali sensi umani possono imitare bene le macchine?
I computer si affidano a molti sensori diversi per connettersi con il mondo, ma si comportano tutti in modo diverso dagli organi umani che percepiscono le stesse cose. Alcuni sono più accurati e possono acquisire più informazioni sull’ambiente con maggiore precisione. Altri non sono così precisi.


La visione artificiale può essere il senso più potente, grazie a sofisticate telecamere e lenti ottiche che possono raccogliere più luce. Mentre molte di queste fotocamere sono deliberatamente sintonizzate per duplicare il modo in cui l’occhio umano risponde al colore, fotocamere speciali possono rilevare una gamma più ampia di colori, inclusi alcuni che l’occhio umano non può vedere. I sensori a infrarossi, ad esempio, vengono spesso utilizzati per cercare perdite di calore nelle abitazioni.

Le telecamere sono anche più sensibili ai sottili cambiamenti nell’intensità della luce, quindi è possibile che i computer percepiscano piccoli cambiamenti meglio degli umani. Ad esempio, le telecamere possono rilevare il sottile rossore che deriva dal sangue che scorre attraverso i capillari facciali e quindi tracciare il battito cardiaco di una persona.

Il suono è spesso il secondo tipo di percezione della macchina di maggior successo. I microfoni sono piccoli e spesso più sensibili delle orecchie umane, in particolare delle orecchie umane più anziane. Possono rilevare frequenze ben al di fuori della portata umana, consentendo ai computer di ascoltare eventi e tracciare suoni che gli umani letteralmente non possono. I microfoni possono anche essere posizionati in array, con il computer che traccia più microfoni contemporaneamente, consentendogli di stimare la posizione della sorgente in modo più efficiente di quanto possano fare gli umani. Gli array con tre o più microfoni possono fornire stime migliori rispetto agli esseri umani che hanno solo due orecchie. 


I computer possono percepire il tatto , ma di solito solo in circostanze speciali. I touchscreen o i touchpad su telefoni e laptop possono essere molto precisi. Possono rilevare più dita e piccoli movimenti. Gli sviluppatori hanno anche lavorato per consentire a questi sensori di rilevare differenze nella durata di un tocco, in modo che azioni come un tocco lungo o un tocco breve possano avere significati diversi.

L’olfatto e il gusto sono affrontati meno comunemente dagli sviluppatori di percezione della macchina. Ci sono pochi sensori che tentano di imitare questi sensi umani, forse perché questi sensi sono basati su una chimica così complessa. In alcuni laboratori, tuttavia, i ricercatori sono stati in grado di scomporre i processi in passaggi così piccoli che alcuni algoritmi di intelligenza artificiale possono iniziare a sentire l’odore o il sapore.

La percezione della macchina è difficile?
Gli scienziati dell’intelligenza artificiale hanno imparato rapidamente che alcuni dei compiti più semplici per gli esseri umani possono essere incredibilmente difficili da imparare per i computer. Ad esempio, guardare una stanza e cercare un posto dove sedersi avviene automaticamente per la maggior parte di noi. È ancora un compito difficile per i robot.


Negli anni ’80, Hans Moravec descrisse il paradosso in questo modo: “È relativamente facile fare in modo che i computer mostrino prestazioni di livello adulto nei test di intelligenza o nel gioco della dama, e difficile o impossibile dare loro le capacità di un bambino di un anno quando si tratta di alla percezione e alla mobilità.”

Alcuni di questi sono dovuti al fatto che gli umani non si accorgono di quanto il loro cervello stia lavorando duramente per interpretare i suoi sensi. Gli scienziati del cervello spesso stimano che più della metà del cervello lavori per capire cosa stanno guardando i nostri occhi. Tendiamo a vedere le cose senza decidere consapevolmente di cercarle, almeno con la normale illuminazione. È solo nell’oscurità o nella nebbia che gli esseri umani cercano indizi visivi sugli oggetti e su dove potrebbero trovarsi.

La visione artificiale è solo un’area della percezione meccanica e gli scienziati continuano a lottare per duplicare anche i compiti umani più semplici. Quando gli algoritmi funzionano, restituiscono risposte semplici, in gran parte numeriche e spesso prive di contesto o interpretazione. I sensori potrebbero essere in grado di individuare un oggetto rosso in una posizione particolare, ma identificarlo o persino determinare se fa parte di un altro oggetto è difficile.


In che modo le principali aziende di intelligenza artificiale gestiscono la percezione delle macchine?
Le principali aziende che vendono algoritmi di intelligenza artificiale forniscono tutte una varietà di strumenti per rilevare ed elaborare tipi di percezione umana, dalla vista al linguaggio. Sono spesso differenziati dagli algoritmi software che elaborano, analizzano e presentano risultati e previsioni sensoriali. Offrono strumenti grezzi per le aziende che vogliono lavorare da una base, nonché strumenti specifici del dominio che affrontano problemi particolari come la ricerca di un feed video per azioni anomale o la conversazione con i clienti.

IBM 
IBM è stata leader nel migliorare la capacità dei suoi algoritmi di vedere il mondo come lo vedono gli umani. Il suo sistema Watson AI , ad esempio, inizia con un sofisticato livello di elaborazione del linguaggio naturale (NLP) che gli fornisce un’interfaccia conversazionale. I clienti possono utilizzare Watson Studio di IBM per analizzare le domande, proporre risposte ipotetiche e quindi cercare nel corpus delle prove le risposte corrette. La versione che ha vinto partite di Jeopardy contro campioni umani è un buon esempio di algoritmi ben socializzati che possono interagire con gli umani perché percepiscono le parole, più o meno, come fanno gli umani. 


Amazon 
Amazon offre una vasta gamma di prodotti e servizi, a partire dagli strumenti di base e includendo anche strumenti specializzati. Amazon Comprehend, ad esempio, estrae le informazioni dal linguaggio naturale. Una versione specializzata, Amazon Comprehend Medical , è incentrata sulla fornitura del tipo di analisi e codifica automatizzate necessarie agli ospedali e agli studi medici. Amazon HealthLake è un prodotto di archiviazione dati che si ripiega in routine di intelligenza artificiale per estrarre significato e fare previsioni dai dati archiviati. 

Google
Google offre una serie di prodotti cloud per la risoluzione dei problemi di base e mirata. Ha anche aggiunto silenziosamente algoritmi migliori per la percezione della macchina ai suoi prodotti standard, rendendoli più utili e spesso intuitivi. Google Drive, ad esempio, applicherà silenziosamente algoritmi di riconoscimento ottico dei caratteri per leggere il testo nelle e-mail o nei file archiviati. Ciò consente agli utenti di cercare con successo parole che potrebbero trovarsi solo in un’immagine o in un meme. Google Foto utilizzerà algoritmi di classificazione di livello superiore per rendere possibile la ricerca di immagini in base al loro contenuto. 

 
Microsoft
Microsoft offre un’ampia varietà di servizi per aiutare i clienti a creare strumenti più percettivi. Azure Percept offre una raccolta di modelli di intelligenza artificiale predefiniti che possono essere personalizzati e distribuiti con un semplice IDE di Studio. Questi prodotti edge sono progettati per integrare software e hardware personalizzato in un unico prodotto. Gli strumenti di sviluppo di Microsoft sono incentrati sulla comprensione del linguaggio naturale e dei feed video e audio che possono essere raccolti dai dispositivi Internet of Things (IoT) . 

Meta
Meta utilizza anche una varietà di algoritmi NLP per migliorare il suo prodotto di base, il suo social network. La società sta inoltre iniziando a esplorare il metaverso e a utilizzare attivamente interfacce in linguaggio naturale e algoritmi di visione artificiale per aiutare gli utenti a creare e utilizzare il metaverso. Ad esempio, gli utenti vogliono decorare i loro spazi personali e le buone interfacce AI rendono più semplice per le persone creare ed esplorare diversi design. 

  
In che modo le startup e gli sfidanti si avvicinano alla percezione della macchina?
Un certo numero di aziende, startup e sfidanti affermati, stanno lavorando per far funzionare i loro modelli come fanno gli umani.

Un’area in cui questo è di grande interesse è il trasporto autonomo. Quando le IA condivideranno la strada con conducenti e pedoni umani, le IA dovranno capire il mondo come fanno gli umani. Startup come Waymo , Pony AI , Aeye , Cruise Automation e Argo sono alcune delle principali aziende con finanziamenti significativi che stanno costruendo auto già operative per le strade di alcune città. Stanno integrando IA ben progettate in grado di catalogare ed evitare gli ostacoli sulla strada. 

 
Alcune startup sono più focalizzate sulla creazione solo del software che tiene traccia degli oggetti e delle potenziali barriere per il movimento autonomo. Aziende come aiMotive , StradVision , Phantom AI e CalmCar sono solo alcuni esempi di aziende che stanno creando “stack di percezione” che gestiscono tutte le informazioni provenienti da una varietà di sensori.

Questi sistemi sono spesso migliori degli umani in vari modi. A volte si affidano a una serie di telecamere in grado di vedere simultaneamente a 360 gradi intorno al veicolo. In altri casi, usano speciali luci controllate, come i laser, per estrarre dati ancora più precisi sulla posizione degli oggetti. 

Comprendere le parole e andare oltre la ricerca di parole chiave di base è una sfida che alcune startup stanno affrontando. Blackbird.ai , Basis Technology e Narrative Science (ora parte di Tableau) sono buoni esempi di aziende che vogliono comprendere l’intento dell’essere umano che sta creando il testo. Parlano di andare oltre la semplice identificazione delle parole chiave, per rilevare le narrazioni. 

 
Alcuni stanno cercando un modo predittivo per anticipare ciò che gli umani potrebbero pianificare di fare cercando indizi visivi. Humanising Autonomy vuole ridurre le responsabilità ed eliminare gli incidenti costruendo un modello predittivo degli esseri umani da un feed video. 

Alcune aziende si concentrano sulla risoluzione di particolari problemi pratici. AMP Robotics , ad esempio, sta costruendo macchine di selezione in grado di separare i materiali riciclabili dai flussi di rifiuti. Queste macchine utilizzano la visione artificiale e algoritmi di apprendimento per fare ciò che fanno gli umani nel processo di smistamento. 

Alcuni stanno semplicemente usando l’intelligenza artificiale per migliorare l’esperienza umana attraverso la sua comprensione di ciò che gli umani percepiscono. Pensa Systems , ad esempio, utilizza videocamere per esaminare gli scaffali dei negozi e cercare display scadenti. Questa “shelf intelligence” mira a migliorare la visibilità e il posizionamento per rendere più facile per i clienti trovare ciò che desiderano.

 
Cosa non può fare la percezione della macchina?
I computer pensano in modo diverso dagli umani. Sono particolarmente abili nei semplici calcoli aritmetici e nel ricordare grandi raccolte di numeri o lettere. Ma trovare una serie di algoritmi che consentano loro di vedere, ascoltare o sentire il mondo che li circonda come fanno gli umani è più impegnativo. 

Il livello di successo varia. Alcuni compiti, come individuare oggetti in un’immagine e distinguerli, sono sorprendentemente complessi e difficili. Gli algoritmi creati dagli scienziati della visione artificiale possono funzionare, ma sono ancora fragili e commettono errori che un bambino eviterebbe. 

Gran parte di ciò è dovuto al fatto che non disponiamo di modelli solidi e logici di come percepiamo il mondo. La definizione di un oggetto come una sedia è ovvia per gli esseri umani, ma chiedere a un computer di distinguere tra uno sgabello e un tavolino è una sfida. 

 
Gli algoritmi di maggior successo sono spesso in gran parte statistici. I sistemi di apprendimento automatico raccolgono una grande quantità di dati e quindi elaborano modelli statistici elaborati e adattivi che generano la risposta giusta a volte. Questi algoritmi di apprendimento automatico e reti neurali sono la base per molti degli algoritmi di classificazione in grado di riconoscere gli oggetti in un’immagine. 

Nonostante tutto il loro successo, questi meccanismi statistici sono solo approssimazioni. Sono più come trucchi da salotto. Approssimano il modo in cui pensano gli umani, ma in realtà non pensano allo stesso modo. Ciò rende abbastanza difficile prevedere quando falliranno. 

In generale, gli algoritmi di percezione della macchina sono utili, ma commetteranno errori e produrranno risultati errati in momenti imprevedibili. Gran parte di questo è dovuto al fatto che non comprendiamo molto bene la percezione umana. Abbiamo alcuni buoni elementi logici della fisica e della psicologia, ma sono solo l’inizio. Non sappiamo davvero come gli esseri umani percepiscono il mondo e quindi per ora ci accontentiamo dei modelli statistici.

 
A volte è meglio concentrarsi maggiormente su ciò che le macchine fanno meglio. Molte delle telecamere e dei sensori di immagine, ad esempio, possono rilevare la luce in lunghezze d’onda che non possono essere viste dall’occhio umano. Il telescopio spaziale Webb, ad esempio, funziona interamente con luce infrarossa. Le immagini che vediamo vengono modificate dal computer per apparire in colori nella gamma visibile. Invece di costruire qualcosa che duplicasse ciò che la percezione umana potrebbe fare, questi scienziati hanno creato un telescopio che ha esteso la portata umana per vedere cose che altrimenti non potrebbero essere viste.

Di ihal