Questo è un estratto da How Smart Machines Think di Sean Gerrish . Il modo in cui Smart Machines Think offre una panoramica accattivante e accessibile delle scoperte dell’intelligenza artificiale e dell’apprendimento automatico che hanno reso le macchine di oggi così intelligenti.
Il10 giugno 2015, un’immagine strana e misteriosa è comparsa su Internet, pubblicata anonimamente sul sito Web Imgur.com. A prima vista, l’immagine sembrava uno o due scoiattoli che si rilassavano su una sporgenza. Ma la somiglianza finì lì: mentre guardavi più da vicino, potevi distinguere dettagli bizzarri – e oggetti – ad ogni scala. L’immagine su Internet era psichedelica, come un frattale, con il muso di un cane sul volto dello scoiattolo, una pagoda mistica qui, un busto umano lì, e una creatura giraffa di uccelli laggiù, incastonata senza soluzione di continuità nei minimi dettagli dell’immagine. Occhi indomabili sbirciavano da ogni angolo. Guardare questa immagine sembrava cercare oggetti nelle nuvole, tranne che non era la tua immaginazione. O era? Dovevi guardare di nuovo per vedere.
Era chiaro che l’immagine non era stata creata da un umano. Era troppo bizzarro per essere una fotografia, e il suo dettaglio era troppo bello per essere un esempio. L’utente anonimo che ha pubblicato la foto su Imgur.com l’ha descritta solo con questa nota:
Questa immagine è stata generata da un computer a sé stante (da un amico che lavora su AI).
Quando l’immagine ha cominciato a diffondersi e gli abitanti di Internet hanno cercato di dare un senso a ciò, gli ingegneri di Google stavano generando più immagini proprio come queste e condividendole l’una con l’altra. Una settimana dopo, hanno pubblicato un post sul blog che spiega il fenomeno. L’immagine era stata effettivamente generata dall’IA, in particolare una rete neurale artificiale. Il fenomeno divenne noto come Deep Dream. Con l’arrivo di queste immagini, le persone hanno iniziato a porre alcune domande scomode che erano state nascoste sotto la superficie. Sono davvero sogni android? Capiamo persino cosa succede in queste reti? I ricercatori sono andati troppo lontano nei loro sforzi per ricreare il pensiero umano?
Queste preoccupazioni riguardo alle macchine intelligenti erano state ulteriormente scatenate perché i professionisti del moderno industriale Elon Musk esprimevano le loro preoccupazioni. Musk, che aveva riferito di aver investito in DeepMind per tenere d’occhio i progressi dell’IA, preoccupato che il suo buon amico Larry Page – uno dei fondatori di Google – potesse “produrre qualcosa di malvagio per sbaglio”, tra cui, in particolare, “una flotta di artificiali” robot potenziati dall’intelligence capaci di distruggere l’umanità. ”
Quando queste immagini sono uscite, sapevamo già che le reti neurali potevano essere utili per giocare ai giochi Atari e per capire il contenuto delle immagini. Le immagini hanno sollevato alcune domande scomode, ma i motivi per cui le reti neurali possono essere brave a giocare ai giochi Atari e le ragioni per cui sono in grado di produrre paesaggi onirici psichedelici sono in realtà strettamente correlati. E anche se questi paesaggi onirici sembravano in un primo momento rendere più misteriose le reti neurali profonde, si scopre che possono anche renderle meno misteriose.
Supponiamo di scattare una foto del tuo cane e di passare quella foto attraverso una rete neurale profonda come quelle che usa Google. Finché sai come è stata sintonizzata la rete, i neuroni artificiali nella rete si “accenderanno” in modo prevedibile, strato per strato. In ogni livello, alcuni neuroni rimarranno scuri mentre altri si illumineranno in modo brillante mentre rispondono a diversi modelli nell’immagine. Da quando abbiamo passato una foto del tuo cane nella rete, se guardiamo abbastanza in profondità nella rete – diciamo, al quarto o al quinto livello – i neuroni rappresenteranno parti di oggetti che probabilmente riconosceremo. Quei neuroni che rispondono a cose come la pelliccia e le parti del viso di un cane si illumineranno brillantemente. Se la rete neurale viene addestrata a riconoscere diversi oggetti, inclusi i cani, quando guardiamo all’ultimo strato, il neurone del cane si accenderà,
Ora qui è dove diventa interessante. L’algoritmo per addestrare la rete a riconoscere i cani aggiustava i pesi della rete basandosi su quanto “errato” il neurone cane alla fine della rete fosse per un mucchio di immagini. Ha usato una funzione matematica che ha misurato la vicinanza dell’output della rete all’etichetta dell’esempio di addestramento. Quell’etichetta era solo un 1 o un 0 che descriveva se l’immagine avesse o meno un cane. L’algoritmo per addestrare la rete ha quindi calcolato, utilizzando il calcolo della scuola superiore, in quale direzione dovrebbe regolare i pesi della rete in modo che la rete potesse prevedere i valori di uscita solo un po ‘più accuratamente la volta successiva.
Cosa succede se, invece di regolare i pesi della rete per accordarci di più con l’immagine, abbiamo invece regolato l’immagine per accordarci di più con la rete? In altre parole, una volta che abbiamo già addestrato la rete, cosa succederebbe se mantenessimo i pesi della rete fissi su quello che sono, e regoliamo l’immagine di input – diciamo, una fotografia di una nuvola – in modo che il neurone del cane sia più luminoso mentre gli altri neuroni rimangono oscuri?
Se regoliamo l’immagine in questo modo, regolando i pixel un po ‘alla volta e poi ripetendo, in realtà inizieremmo a vedere i cani nella foto, anche se all’inizio non c’erano cani! In effetti, questo è il modo in cui sono state generate alcune delle immagini nell’ultimo capitolo: un gruppo di ricercatori dell’apprendimento profondo ha preso una rete proprio come AlexNet e ha regolato le immagini di input in modo che alcuni neuroni – per esempio un grande squalo bianco o una clessidra – divenne luminoso, mentre altri neuroni rimanevano oscuri. I ricercatori di Google hanno utilizzato un metodo simile per analizzare le proprie reti neurali. Quando hanno scritto su come l’hanno fatto, hanno dato diversi esempi. In uno di questi esempi, hanno guardato le immagini generate da un neurone che ha riconosciuto i manubri, l’attrezzatura che si troverebbe in una palestra. Hanno scoperto che le immagini mostravano effettivamente dei manubri; ma hanno anche mostrato delle braccia muscolose attaccate a questi manubri. Apparentemente, hanno osservato, la rete ha appreso che un’importante caratteristica distintiva dei manubri non è solo l’hardware stesso; ma anche il contesto in cui vengono utilizzati. Google ha creato le sue immagini Deep Dream in un modo simile, tranne che invece di forzare la rete a generare immagini di cani o altri oggetti specifici, hanno permesso alla rete di creare più di qualsiasi cosa vedesse nell’immagine Come gli ingegneri di Deep Dream hanno scritto sul blog di ricerca di Google: eccetto che invece di forzare la rete a generare immagini di cani o altri oggetti specifici, hanno permesso alla rete di creare più di qualsiasi cosa vedesse nell’immagine. Come gli ingegneri di Deep Dream hanno scritto sul blog di ricerca di Google: eccetto che invece di forzare la rete a generare immagini di cani o altri oggetti specifici, hanno permesso alla rete di creare più di qualsiasi cosa vedesse nell’immagine. Come gli ingegneri di Deep Dream hanno scritto sul blog di ricerca di Google:
Invece di prescrivere esattamente quale funzione vogliamo che la rete si amplifichi, possiamo anche permettere alla rete di prendere quella decisione. In questo caso, semplicemente alimentiamo la rete un’immagine o una foto arbitraria e permettiamo alla rete di analizzare l’immagine. Selezioniamo quindi un livello e chiediamo alla rete di migliorare qualsiasi cosa venga rilevata. Ogni livello della rete si occupa di funzionalità a un diverso livello di astrazione, quindi la complessità delle funzioni che generiamo dipende dal livello che scegliamo di migliorare. Ad esempio, gli strati inferiori tendono a produrre tratti o semplici motivi a ornamento, poiché questi livelli sono sensibili alle funzioni di base come i bordi e i loro orientamenti.
Se scegliamo livelli di livello superiore, che identificano caratteristiche più sofisticate nelle immagini, tendono a emergere caratteristiche complesse o persino interi oggetti. Di nuovo, iniziamo con un’immagine esistente e la diamo alla nostra rete neurale. Chiediamo alla rete: “Qualunque cosa tu veda lì, ne voglio di più!” Questo crea un ciclo di feedback: se una nuvola assomiglia un po ‘a un uccello, la rete lo renderà più simile a un uccello. Questo a sua volta farà sì che la rete riconosca l’uccello ancora più forte al passaggio successivo e così via, fino a quando un uccello altamente dettagliato appare, apparentemente dal nulla.
Ed è così che è stata creata la misteriosa immagine di Imgur.com.