Un nuovo chip neuromorfo per l’intelligenza artificiale al limite, a una piccola frazione dell’energia e delle dimensioni delle piattaforme di calcolo odierne
Il chip NeuRRAM è il primo chip di calcolo in memoria a dimostrare un’ampia gamma di applicazioni di intelligenza artificiale a una frazione dell’energia consumata da altre piattaforme, pur mantenendo una precisione equivalente
Un team internazionale di ricercatori ha progettato e costruito un chip che esegue i calcoli direttamente in memoria e può eseguire un’ampia varietà di applicazioni di intelligenza artificiale, il tutto a una frazione dell’energia consumata dalle piattaforme informatiche per l’elaborazione AI generica.
Il chip neuromorfo NeuRRAM avvicina l’IA all’esecuzione su un’ampia gamma di dispositivi edge, disconnessi dal cloud, dove possono eseguire sofisticate attività cognitive ovunque e in qualsiasi momento senza fare affidamento su una connessione di rete a un server centralizzato. Le applicazioni abbondano in ogni angolo del mondo e in ogni aspetto della nostra vita e spaziano da orologi intelligenti, cuffie VR, auricolari intelligenti, sensori intelligenti nelle fabbriche e rover per l’esplorazione dello spazio.
Il chip NeuRRAM non solo è due volte più efficiente dal punto di vista energetico rispetto ai chip “compute-in-memory” all’avanguardia, una classe innovativa di chip ibridi che esegue calcoli in memoria, ma fornisce anche risultati altrettanto accurati come chip digitali convenzionali. Le piattaforme di intelligenza artificiale convenzionali sono molto più ingombranti e in genere sono vincolate all’utilizzo di server di dati di grandi dimensioni che operano nel cloud.
Inoltre, il chip NeuRRAM è estremamente versatile e supporta molti diversi modelli e architetture di reti neurali. Di conseguenza, il chip può essere utilizzato per molte applicazioni diverse, incluso il riconoscimento e la ricostruzione delle immagini, nonché il riconoscimento vocale.
“La saggezza convenzionale è che la maggiore efficienza del calcolo in memoria è a scapito della versatilità, ma il nostro chip NeuRRAM ottiene efficienza senza sacrificare la versatilità”, ha affermato Weier Wan, il primo autore corrispondente del documento e un recente dottorato di ricerca. laureato alla Stanford University che ha lavorato sul chip mentre era alla UC San Diego, dove è stato co-consulente da Gert Cauwenberghs nel Dipartimento di Bioingegneria.
Il gruppo di ricerca, co-guidato da bioingegneri dell’Università della California a San Diego, presenta i risultati nel numero del 17 agosto di Nature .
Attualmente, l’intelligenza artificiale è sia affamata di energia che computazionalmente costosa. La maggior parte delle applicazioni di intelligenza artificiale sui dispositivi perimetrali comporta lo spostamento dei dati dai dispositivi al cloud, dove l’intelligenza artificiale li elabora e li analizza. Quindi i risultati vengono spostati nuovamente sul dispositivo. Questo perché la maggior parte dei dispositivi edge sono alimentati a batteria e, di conseguenza, hanno solo una quantità limitata di energia che può essere dedicata all’informatica.
Riducendo il consumo energetico necessario per l’inferenza dell’IA all’edge, questo chip NeuRRAM potrebbe portare a dispositivi edge più robusti, più intelligenti e accessibili e a una produzione più intelligente. Potrebbe anche portare a una migliore privacy dei dati poiché il trasferimento di dati dai dispositivi al cloud comporta maggiori rischi per la sicurezza.
Sui chip AI, lo spostamento dei dati dalla memoria alle unità di calcolo è uno dei principali colli di bottiglia.
“E ‘l’equivalente di fare un pendolarismo di otto ore per una giornata lavorativa di due ore”, ha detto Wan.
Per risolvere questo problema di trasferimento dei dati, i ricercatori hanno utilizzato quella che è nota come memoria resistiva ad accesso casuale, un tipo di memoria non volatile che consente il calcolo direttamente all’interno della memoria anziché in unità di calcolo separate. La RRAM e altre tecnologie di memoria emergenti utilizzate come array di sinapsi per l’elaborazione neuromorfica sono state sperimentate nel laboratorio di Philip Wong, consulente di Wan a Stanford e uno dei principali contributori di questo lavoro. Il calcolo con chip RRAM non è necessariamente nuovo, ma generalmente porta a una diminuzione dell’accuratezza dei calcoli eseguiti sul chip e a una mancanza di flessibilità nell’architettura del chip.
“Il calcolo in memoria è stata una pratica comune nell’ingegneria neuromorfica da quando è stato introdotto più di 30 anni fa”, ha affermato Cauwenberghs. “La novità di NeuRRAM è che l’estrema efficienza ora si unisce a una grande flessibilità per diverse applicazioni di intelligenza artificiale con quasi nessuna perdita di precisione rispetto alle piattaforme di calcolo digitali generiche standard.”
Una metodologia accuratamente realizzata è stata la chiave del lavoro con più livelli di “co-ottimizzazione” attraverso i livelli di astrazione di hardware e software, dalla progettazione del chip alla sua configurazione per eseguire varie attività di intelligenza artificiale. Inoltre, il team si è assicurato di tenere conto di vari vincoli che vanno dalla fisica dei dispositivi di memoria ai circuiti e all’architettura di rete.
“Questo chip ora ci fornisce una piattaforma per affrontare questi problemi attraverso lo stack, dai dispositivi e circuiti agli algoritmi”, ha affermato Siddharth Joshi, assistente professore di informatica e ingegneria all’Università di Notre Dame, che ha iniziato a lavorare al progetto come un dottorato di ricerca studente e ricercatore post-dottorato nel laboratorio Cauwenberghs presso la UC San Diego.
Prestazioni del chip
I ricercatori hanno misurato l’efficienza energetica del chip con una misura nota come prodotto a ritardo di energia o EDP. EDP combina sia la quantità di energia consumata per ogni operazione che il tempo necessario per completare l’operazione. Con questa misura, il chip NeuRRAM raggiunge un EDP da 1,6 a 2,3 volte inferiore (più basso è meglio) e una densità di calcolo da 7 a 13 volte superiore rispetto ai chip all’avanguardia.
I ricercatori hanno eseguito varie attività di intelligenza artificiale sul chip. Ha raggiunto una precisione del 99% su un’attività di riconoscimento delle cifre scritte a mano; 85,7% su un’attività di classificazione delle immagini; e l’84,7% su un’attività di riconoscimento dei comandi vocali di Google. Inoltre, il chip ha anche ottenuto una riduzione del 70% dell’errore di ricostruzione dell’immagine durante un’attività di ripristino dell’immagine. Questi risultati sono paragonabili ai chip digitali esistenti che eseguono calcoli con la stessa precisione di bit, ma con un drastico risparmio di energia.
I ricercatori sottolineano che un contributo chiave del documento è che tutti i risultati presentati sono ottenuti direttamente sull’hardware. In molti lavori precedenti sui chip di calcolo in memoria, i risultati del benchmark AI sono stati spesso ottenuti in parte mediante simulazione software.
I passaggi successivi includono il miglioramento di architetture e circuiti e il ridimensionamento del design a nodi tecnologici più avanzati. I ricercatori hanno anche in programma di affrontare altre applicazioni, come il potenziamento delle reti neurali.
“Possiamo fare di meglio a livello di dispositivo, migliorare la progettazione dei circuiti per implementare funzionalità aggiuntive e affrontare diverse applicazioni con la nostra piattaforma dinamica NeuRRAM”, ha affermato Rajkumar Kubendran, assistente professore per l’Università di Pittsburgh, che ha iniziato a lavorare al progetto mentre era un Ph. .D. studente nel gruppo di ricerca di Cauwenberghs alla UC San Diego.
Inoltre, Wan è un membro fondatore di una startup che lavora alla produzione della tecnologia di calcolo in memoria. “Come ricercatore e ingegnere, la mia ambizione è portare le innovazioni della ricerca dai laboratori all’uso pratico”, ha affermato Wan.
Nuova architettura
La chiave dell’efficienza energetica di NeuRRAM è un metodo innovativo per rilevare l’output in memoria. Gli approcci convenzionali utilizzano la tensione come input e misurano la corrente come risultato. Ma questo porta alla necessità di circuiti più complessi e più affamati di energia. In NeuRRAM, il team ha progettato un circuito neuronale che rileva la tensione ed esegue la conversione da analogico a digitale in modo efficiente dal punto di vista energetico. Questo rilevamento in modalità di tensione può attivare tutte le righe e tutte le colonne di un array RRAM in un unico ciclo di calcolo, consentendo un maggiore parallelismo.
Nell’architettura NeuRRAM, i circuiti dei neuroni CMOS sono fisicamente intercalati con pesi RRAM. Si differenzia dai progetti convenzionali in cui i circuiti CMOS si trovano tipicamente sulla periferia dei pesi RRAM. Le connessioni del neurone con l’array RRAM possono essere configurate per fungere da input o output del neurone. Ciò consente l’inferenza della rete neurale in varie direzioni del flusso di dati senza incorrere in spese generali nell’area o consumo di energia. Questo a sua volta rende l’architettura più facile da riconfigurare.
Per assicurarsi che l’accuratezza dei calcoli dell’IA possa essere preservata in varie architetture di reti neurali, i ricercatori hanno sviluppato una serie di tecniche di co-ottimizzazione degli algoritmi hardware. Le tecniche sono state verificate su varie reti neurali comprese le reti neurali convoluzionali, la memoria a lungo termine e le macchine Boltzmann limitate.
In quanto chip di intelligenza artificiale neuromorfica, NeuroRRAM esegue l’elaborazione distribuita parallela su 48 core neurosinaptici. Per ottenere contemporaneamente un’elevata versatilità e un’elevata efficienza, NeuRRAM supporta il parallelismo dei dati mappando uno strato nel modello di rete neurale su più core per l’inferenza parallela su più dati. Inoltre, NeuRRAM offre il parallelismo del modello mappando diversi livelli di un modello su core diversi ed eseguendo l’inferenza in modo pipeline.
Un gruppo di ricerca internazionale
Il lavoro è il risultato di un team internazionale di ricercatori.
Il team dell’UC San Diego ha progettato i circuiti CMOS che implementano le funzioni neurali che si interfacciano con gli array RRAM per supportare le funzioni sinaptiche nell’architettura del chip, per un’elevata efficienza e versatilità. Wan, lavorando a stretto contatto con l’intero team, ha implementato il design; caratterizzato il chip; addestrato i modelli di IA; ed eseguito gli esperimenti. Wan ha anche sviluppato una toolchain software che mappa le applicazioni AI sul chip.
L’array di sinapsi RRAM e le sue condizioni operative sono state ampiamente caratterizzate e ottimizzate alla Stanford University.
L’array RRAM è stato fabbricato e integrato su CMOS presso la Tsinghua University.
Il team di Notre Dame ha contribuito sia alla progettazione e all’architettura del chip che alla successiva progettazione e formazione del modello di apprendimento automatico.
La ricerca è iniziata nell’ambito del progetto Expeditions in Computing su Visual Cortex on Silicon presso la Penn State University, finanziato dalla National Science Foundation, con il continuo sostegno finanziario del programma dell’Office of Naval Research Science of AI, della Semiconductor Research Corporation e del programma DARPA JUMP e Western Digital Corporation.
Un chip di calcolo in memoria basato su memoria resistiva ad accesso casuale
Weier Wan, Rajkumar Kubendran, Stephen Deiss, Siddharth Joshi, Gert Cauwenberghs, Università della California San Diego
Weier Wan, S. Burc Eryilmaz, Priyanka Raina, HS Philip Wong, Università di Stanford
Clemens Schaefer, Siddharth Joshi, Università di Notre Dame
Rajkumar Kubendran, Università di Pittsburgh
Wenqiang Zhang, Dabin Wu, He Qian, Bin Gao, Huaqiang Wu, Università di Tsinghua
Autori corrispondenti: Wan, Gao, Joshi, Wu, Wong e Cauwenberghs