Cosa riserva il futuro all’intelligenza artificiale?
Un collega IBM con 116 brevetti condivide la sua visione futura dell’informatica per l’intelligenza artificiale.
Simon Erickson ( TMFInnovator )

Le cose stanno per diventare davvero interessanti.

L’intelligenza artificiale è già diventata mainstream . Le aziende utilizzano le unità di elaborazione grafica NVIDIA ( NASDAQ: NVDA ) , gli array di gate programmabili sul campo Xilinx ( NASDAQ: XLNX ) oi propri chip personalizzati per addestrare i modelli di apprendimento automatico a riconoscere una varietà di input diversi. Questo metodo di formazione delle reti neurali è la ragione tecnica per cui le auto autonome di Tesla possono riconoscere i segnali di stop e il social network di Facebook può riconoscere i volti.

Ma stiamo raggiungendo un’era nuova ed eccitante, che si basa su un processo chiamato inferenza di apprendimento automatico. Diverso dall’addestramento, l’inferenza coinvolge i computer prendendo tutto ciò che abbiamo insegnato loro a produrre qualcosa di completamente nuovo.

Un’immagine raffigurante un robot umanoide con il mondo come il suo cervello.
L’INTELLIGENZA ARTIFICIALE STA GUADAGNANDO TRAZIONE A LIVELLO GLOBALE. FONTE IMMAGINE: GETTY IMAGES.

Prendi questo sito come esempio. Mostra immagini ad alta risoluzione di persone dall’aspetto normale, che potrebbero facilmente essere i tuoi colleghi o vivere nella porta accanto.

Ma il problema è che nessuna di queste persone esiste realmente. Ognuna delle immagini è falsa, creata artificialmente da una rete generativa di avversari che è stata addestrata su quali occhi, nasi e capelli tendono ad assomigliare. AI ha creato qualcosa da solo, basato su tutto ciò che l’abbiamo insegnato.

Questo stesso concetto di inferenza della macchina è ciò che consente a Google ( NASDAQ: GOOGL ) Duplex di fissare appuntamenti per te o Amazon ( NASDAQ: AMZN ) Alexa per creare proattivamente consigli sui prodotti per te.

Dietro le quinte, l’inferenza richiede un sacco di potenza di calcolo per funzionare davvero. Amazon Web Services stima che l’inferenza può rappresentare fino al 90% dei costi di elaborazione richiesti per qualsiasi applicazione.

In altre parole, abbiamo bisogno di innovare l’hardware di calcolo. Non possiamo più eseguire tutto sulle CPU (CPU) centrali di Intel , almeno senza dover pagare una bolletta dell’elettricità per l’energia consumata. La gara è in procinto di progettare nuovi chip e ecosistemi software in grado di eseguire l’inferenza in modo più efficiente.

Il percorso in avanti
Per aiutarci a vedere cosa riserva il futuro, ho recentemente parlato con il collega e co-agitatore di IBM ( NYSE: IBM ) John Cohn. John ha una delle menti informatiche più innovative del pianeta, con oltre 116 brevetti e 36 documenti tecnici al suo nome dopo quasi 40 anni in una delle più grandi aziende del mondo.

Nella nostra conversazione alla conferenza South of Southwest di Austin , John discute perché e in che modo l’intelligenza artificiale è diventata così popolare e il ruolo crescente degli acceleratori di intelligenza artificiale. Spiega anche perché è un fan dell’uso di FPGA (Field Programmable Gate Arrays) per l’innovazione, ma di chip di silicio personalizzati per applicazioni commerciali a volume più elevato.

La nostra conversazione viene catturata nel seguente video, con una trascrizione completa inclusa anche di seguito.

Trascrizione
IBM Fellow John Cohn: Beh, lasciatemi dire che sono un grande fan dell’hardware. Sono venuto da quello. Ed è molto interessante.

Quando parlavamo prima di come il cloud stava per conquistare il mondo. Bene, come molte cose, la verità reale è da qualche parte tra. Ci sarà un riequilibrio tra hardware locale e hardware cloud. Su entrambi i lati, ci saranno molti progressi tecnologici. La tecnologia del silicio, che è un po ‘come dopo la [legge] di Moore, le cose stavano iniziando a livellarsi.

Beh, c’è molto più lavoro in architettura sull’accelerazione, ecc. Come GPU, TPU. Abbiamo appena annunciato un investimento da un miliardo di dollari ad Albany su un gruppo che sta effettivamente considerando gli approcci tecnologici all’IA.

Motley Fool Explorer Consigliere principale Simon Erickson: un acceleratore, stai dicendo, eseguendo il codice in modo più efficiente e rapido?

John Cohn: Quando dici codice, guardi una struttura come una GPU. Le GPU funzionano per l’intelligenza artificiale perché in una rete neurale – diciamo nell’apprendimento approfondito – stai solo facendo un sacco di algebra lineare. Stai facendo un sacco di moltiplicatori. Questo è fondamentalmente. La stessa cosa che rende la grafica davvero fluida per un gioco è in realtà solo facendo molti moltiplicatori di matrice.

Così nel 2012, quando qualcuno ha detto “Ehi, proviamo a usare le GPU commerciali”, beh, è ​​stata una combinazione di usare cose come CUDA ma poi di costruire degli strati su di esso. Sia che si trattasse di Pytorch, TensorFlow, Octave, qualunque cosa sia in grado di liberarti dal gorp di scrivere effettivamente il codice CUDA da solo. Fu allora che l’intelligenza artificiale e l’apprendimento profondo iniziarono a decollare.

Quegli acceleratori, è grandioso, tranne il tipo di calcolo che puoi fare con una certa quantità di tempo e un certo budget energetico. Perché alla fine devi adattarlo tutto nella stessa scatola. Sta diventando limitato, perché le GPU non sono state progettate per farlo. Ora molte aziende, tra cui noi, stanno lavorando su più acceleratori speciali, i cosiddetti TPU.

Ma stiamo anche guardando oltre. Sto per installare un cluster hardware al MIT che è di circa 112 kilowatt. È un sacco di potere. Il nostro cervello umano è di circa 20 watt quando sei seduto lì. C’è molto spazio per migliorare.

Questo posto ad Albany sta osservando tutti i tipi di tecnologia di accelerazione. Stiamo guardando alle tecnologie analogiche. Stiamo esaminando la memoria a cambiamento di fase, MRAM. Essere in grado di fare computazione analogica su questi modelli di reti neurali.

Non necessariamente per eseguire codice, codice lineare, come faresti su una GPU. Ma per fare effettivamente il calcolo analogico che un modello neuronale farebbe in analogico. Con meno precisione ma molto meno potere. Molto meno potere può essere – a causa del parallelismo – può essere scambiato in un rendimento molto più alto o in un modello molto più grande.

Ora hai chiesto degli FPGA. Sono tratti diversi per persone diverse, giusto? Devi capire cosa stai cercando di fare.

Sono un grande sostenitore degli FPGA come tecnologia per fare innovazione. Una delle cose più importanti che devi fare è che hai bisogno, in quella nozione di poter giocare con qualcosa, di essere in grado di fare dei giri di innovazione molto rapidi. È necessario provarne alcuni, eseguire carichi di lavoro reali su di esso, impostare il rappresentante e quindi apportare alcune modifiche.

Simon Erickson: Che cosa hai bisogno di apportare le modifiche, però?

John Cohn: alla vera architettura. Quindi, se stai davvero cercando di ottimizzare le prestazioni energetiche – che è una scatola – “Quante prestazioni posso ottenere in un determinato budget energetico?” Questo è fondamentalmente di cosa si tratta. Questa è la messa a punto. Per molti anni abbiamo solo messo a punto il software e l’hardware era quello che era. Bene, non possiamo permetterci di farlo ora, quando il prossimo turno della manovella non ci darà più prestazioni sull’hardware. Come hai detto, vero?

Quindi quello che dobbiamo fare è essere in grado di co-ottimizzare molto i livelli del software e i livelli dell’hardware molto di più. Quasi come i primi giorni dell’hardware. Quasi quando i giorni in cui potevi contare i tuoi frammenti di memoria. Dovevi davvero, davvero preoccuparti di dove andava ogni picowatt.

Quando stai provando a farlo, crei una struttura di calcolo del tipo, “Beh, lo faccio a 64 bit, o lo faccio a 32 bit, o lo faccio anche a otto bit?” Alcuni calcoli nel riconoscimento di immagini sono in realtà molto più veloci e di gran lunga più efficienti in termini di bassa risoluzione con la stessa accuratezza. Vai a capire, giusto?

Bene, l’unico modo per creare un’accelerazione hardware è quello di poter cambiare radicalmente l’architettura dell’acceleratore. Per fare ciò come un ciclo di chip, potrebbero essere necessari molti milioni di dollari e quattro mesi. O da tre a sei mesi di creazione di un nuovo chip. Beh, non puoi davvero permettertelo.

Simon Erickson: Sì.

John Cohn: gli FPGA sono una prototipazione rapida. Posso avvicinarmi alle prestazioni hardware personalizzate, ma in un giorno. Posso fare un cambiamento.

Come tecnologia di dispiegamento – come se avessi intenzione di fare qualcosa di profondo apprendimento – è una sorta di ritorno in diminuzione. Ad un certo punto, spendi tanti più soldi e verrai colpito per costi, densità e potenza. Che se hai un volume qualsiasi, dopo averlo sintonizzato, ha senso fare un chip. Se hai una nicchia molto piccola, qualcosa di cui non hai bisogno di molte, allora le complessità attuali – le complessità di costo e di rischio di costruire effettivamente un chip personalizzato – potrebbero non essere una buona idea. Se è uno scopo molto speciale, “Sto solo riconoscendo uno specifico tipo di immagine e ho bisogno di accelerarlo perché sto facendo qualcosa in tempo reale”, quindi un FPGA potrebbe avere senso. Ma se hai qualche tipo di volume, personalmente penso, che devi andare a [un chip personalizzato].

Ciò che è interessante, anche, è che ci sono ibridi tra quello che è un FPGA standard, che può emulare qualsiasi tipo di logica e combinazioni programmabili sul campo di funzioni più elevate. Vedrai cose che sono in realtà unità componibili di livello superiore che potresti personalizzare, in qualche modo, ma non avere il sovraccarico di rendere le singole unità logiche in FPGA.

Simon Erickson: il meglio di entrambi i mondi.

John Cohn: Sì, è una specie di equilibrio. In definitiva, guarda qualcosa come il bitcoin mining. Alla fine dovevi andare – e io non sono un grande fan del bitcoin mining – ma alla fine devi andare a uno scopo speciale per essere competitivo.

Simon Erickson: La cosa a cui sto cercando di rispondere, la domanda fondamentale che ho, è che sembra che tutte le aziende cloud stiano ora utilizzando, o stanno iniziando a utilizzare, gli FPGA, giusto? Inferenza di apprendimento automatico come servizio. Perché stanno usando gli FPGA?

John Cohn: per flessibilità. È possibile personalizzare la logica in un carico di lavoro. Personalmente credo, come un ragazzo dell’hardware, che questo cambierà. Siamo solo ad una nuova cuspide. Dove hai bisogno di quella flessibilità. I carichi di lavoro che stanno accadendo per l’inferenza. Le cose come l’inferenza sono piuttosto sfumate. Quando in realtà finisci in un mondo in cui stai facendo qualcosa come un GAN, una rete di contraddittorio generalizzata. Quello che chiameremmo inferenza, in realtà ha un bel po ‘di calcolo in avanti, computazione in esso. Hai bisogno di accelerazione per la via d’uscita. Non stai solo facendo un semplice passo avanti.

Quel tipo di cose sono nuove. Non sappiamo come dovrebbe essere l’hardware. Personalmente credo che alla fine arriveremo a un punto in cui saremo in grado di scegliere un paio di classi. Alla fine sarà una sorta di combinazione di componenti più grandi e, infine, di silicio personalizzato. Ma io sono un ragazzo di silicio!

Di ihal