ROBE Array potrebbe consentire alle piccole aziende di accedere alla forma popolare di IA
Rice Lab svela la tecnica di memoria insufficiente per i sistemi di raccomandazione di deep learning
Una tecnica rivoluzionaria di bassa memoria degli scienziati informatici della Rice University potrebbe mettere una delle forme di intelligenza artificiale più dispendiose in termini di risorse – i modelli di raccomandazione di apprendimento profondo (DLRM) – alla portata delle piccole aziende.
I sistemi di raccomandazione DLRM sono una forma popolare di intelligenza artificiale che impara a dare suggerimenti che gli utenti troveranno rilevanti. Ma con modelli di addestramento all’avanguardia che richiedono più di cento terabyte di memoria ed elaborazione su scala di supercomputer, sono stati disponibili solo per un breve elenco di giganti della tecnologia con tasche profonde.
Il “random offset block embedding array” di Rice, o ROBE Array, potrebbe cambiarlo. È un approccio algoritmico per ridurre le dimensioni delle strutture di memoria DLRM chiamate tabelle di incorporamento e sarà presentato questa settimana alla Conference on Machine Learning and Systems ( MLsys 2022 ) a Santa Clara, in California, dove ha ottenuto il riconoscimento di Outstanding Paper .
“Utilizzando solo 100 megabyte di memoria e una singola GPU , abbiamo dimostrato di poter eguagliare i tempi di addestramento e raddoppiare l’ efficienza di inferenza dei metodi di addestramento DLRM all’avanguardia che richiedono 100 gigabyte di memoria e più processori”, ha affermato Anshumali Shrivastava , professore associato di informatica alla Rice che presenterà la ricerca a MLSys 2022 con i co-creatori di ROBE Array Aditya Desai , una studentessa laureata Rice nel gruppo di ricerca di Shrivastava e Li Chou , ex ricercatrice post-dottorato alla Rice che ora si trova nel Texas occidentale Università A&M.
“ROBE Array stabilisce una nuova linea di base per la compressione DLRM”, ha affermato Shrivastava. “E mette DLRM alla portata degli utenti medi che non hanno accesso all’hardware di fascia alta o alle competenze ingegneristiche necessarie per addestrare modelli di dimensioni di centinaia di terabyte”.
I sistemi DLRM sono algoritmi di apprendimento automatico che apprendono dai dati. Ad esempio, un sistema di consigli che suggerisce prodotti per gli acquirenti verrebbe addestrato con i dati delle transazioni passate, inclusi i termini di ricerca forniti dagli utenti, quali prodotti sono stati offerti e quali, se del caso, hanno acquistato. Un modo per migliorare l’accuratezza dei consigli consiste nell’ordinare i dati di addestramento in più categorie. Ad esempio, invece di raggruppare tutti gli shampoo in un’unica categoria, un’azienda potrebbe creare categorie per shampoo da uomo, donna e bambino.
Per la formazione, queste rappresentazioni categoriali sono organizzate in strutture di memoria chiamate tabelle di incorporamento e Desai ha affermato che le dimensioni di quelle tabelle “sono esplose” a causa della maggiore categorizzazione.
“Le tabelle di incorporamento rappresentano ora oltre il 99,9% dell’impronta di memoria complessiva dei modelli DLRM”, ha affermato Desai. “Questo porta a una serie di problemi. Ad esempio, non possono essere addestrati in modo puramente parallelo perché il modello deve essere suddiviso in pezzi e distribuito su più nodi di addestramento e GPU. E dopo che sono stati formati e in produzione, la ricerca di informazioni nelle tabelle incorporate rappresenta circa l’80% del tempo necessario per restituire un suggerimento a un utente”.
Shrivastava ha affermato che ROBE Array elimina la necessità di archiviare le tabelle di incorporamento utilizzando un metodo di indicizzazione dei dati chiamato hashing per creare “un singolo array di parametri appresi che è una rappresentazione compressa della tabella di incorporamento”. L’accesso alle informazioni di incorporamento dall’array può quindi essere eseguito “utilizzando l’hashing universale compatibile con le GPU”, ha affermato.
Shrivastava, Desai e Chou hanno testato ROBE Array utilizzando il ricercato benchmark DLRM MLPerf , che misura la velocità con cui un sistema può addestrare i modelli a una metrica di qualità target. Utilizzando una serie di set di dati di riferimento, hanno scoperto che ROBE Array potrebbe eguagliare o battere le tecniche DLRM precedentemente pubblicate in termini di precisione di addestramento anche dopo aver compresso il modello di tre ordini di grandezza.
“I nostri risultati mostrano chiaramente che la maggior parte dei benchmark di deep learning può essere completamente ribaltata da algoritmi fondamentali”, ha affermato Shrivastava. “Data la carenza globale di chip, questa è una buona notizia per il futuro dell’IA”.
ROBE Array non è il primo grande successo di Shrivastava a MLsys. A MLsys 2020, il suo gruppo ha presentato SLIDE , un “motore di deep learning sublineare” che funzionava su CPU di fascia bassa e poteva superare i trainer basati su GPU. Hanno fatto seguito a MLsys 2021, dimostrando che gli acceleratori di vettorizzazione e ottimizzazione della memoria potrebbero aumentare le prestazioni di SLIDE, consentendogli di addestrare reti neurali profonde fino a 15 volte più velocemente rispetto ai migliori sistemi GPU.
La ricerca ROBE Array è stata supportata dalla National Science Foundation (1652131, 1838177), dall’Air Force Office of Scientific Research (YIP-FA9550-18-1-0152), dall’Office of Naval Research, da Intel e VMware.
Situata in un campus boschivo di 300 acri a Houston, la Rice University è costantemente classificata tra le prime 20 università della nazione da US News & World Report. Rice ha scuole molto rispettate di architettura, economia, studi continui, ingegneria, scienze umane, musica, scienze naturali e scienze sociali ed è sede del Baker Institute for Public Policy. Con 4.240 studenti universitari e 3.972 studenti laureati, il rapporto tra studenti universitari e docenti di Rice è di poco inferiore a 6 a 1. Il suo sistema di college residenziali crea comunità affiatate e amicizie per tutta la vita, solo una delle ragioni per cui Rice è classificata al primo posto per molte interazioni razza/classe e al primo posto per qualità della vita dalla Princeton Review. Il riso è anche valutato come il miglior rapporto qualità-prezzo tra le università private da Personal Finance di Kiplinger.
Random Offset Block Embedding (ROBE) per tabelle di incorporamento compresse nei sistemi di raccomandazione di deep learning