Il chip su scala cerebrale CS-2 di Cerebras può alimentare modelli di intelligenza artificiale con 120 trilioni di parametri
Cerebras Systems ha affermato che il suo processore CS-2 Wafer Scale Engine 2 è un chip “su scala cerebrale” in grado di alimentare modelli di intelligenza artificiale con oltre 120 trilioni di parametri.
I parametri sono la parte di un algoritmo di apprendimento automatico appreso dai dati di training storici in una rete neutra. Maggiore è il numero di parametri, più sofisticato è il modello di intelligenza artificiale. Ed è per questo che Cerebras crede che il suo ultimo processore, che in realtà è costruito su un wafer anziché solo su singoli chip, sarà così potente, ha dichiarato il fondatore e CEO Andrew Feldman in un’intervista a VentureBeat.
Feldman, che ha anche fondato SeaMicro, ci ha fornito un’anteprima del suo intervento alla conferenza sul design dei semiconduttori Hot Chips che si tiene online oggi. La notizia da 120 trilioni di parametri segue un annuncio da parte dei ricercatori di Google a gennaio di aver addestrato un modello con un totale di 1,6 trilioni di parametri. Feldman ha osservato che Google ha aumentato il numero di parametri di circa 1.000 volte in soli due anni.
“Il numero di parametri, la quantità di memoria necessaria, sono cresciuti in modo esponenziale”, ha affermato Feldman. “Abbiamo modelli 1.000 volte più grandi che richiedono più di 1.000 volte più calcolo, e questo è successo in due anni. Annunciamo la nostra capacità di supportare fino a 120 trilioni di parametri, per raggruppare 192 CS-2 insieme. Non solo stiamo costruendo cluster più grandi e più veloci, ma li stiamo anche rendendo più efficienti”.
Feldman ha affermato che la tecnologia espanderà le dimensioni delle più grandi reti neurali AI di 100 volte.
“Reti più grandi, come GPT-3, hanno già trasformato il panorama dell’elaborazione del linguaggio naturale (NLP), rendendo possibile ciò che prima era inimmaginabile”, ha affermato. “L’industria sta superando un trilione di modelli di parametri e stiamo estendendo quel confine di due ordini di grandezza, abilitando reti neurali su scala cerebrale con 120 trilioni di parametri”.
Feldman ha affermato che Cerebras CS-2 è alimentato dal Wafer Scale Engine (WSE-2), il chip più grande mai realizzato e il processore AI più veloce fino ad oggi. Costruito appositamente per il lavoro sull’intelligenza artificiale, il WSE-2 a 7 nanometri ha 2,6 trilioni di transistor e 850.000 core ottimizzati per l’intelligenza artificiale. In confronto, la più grande unità di elaborazione grafica ha solo 54 miliardi di transistor, 2,55 trilioni di transistor in meno rispetto al WSE-2. Il WSE-2 ha anche 123 volte più core e 1.000 volte più memoria on-chip ad alte prestazioni rispetto ai concorrenti delle unità di elaborazione grafica.
Il CS-2 è costruito per attività di supercalcolo ed è la seconda volta dal 2019 che Cerebras , con sede a Los Altos, in California, presenta un chip che è fondamentalmente un intero wafer.
I produttori di chip normalmente tagliano un wafer da un lingotto di silicio di 12 pollici di diametro per lavorarlo in una fabbrica di chip. Una volta elaborato, il wafer viene suddiviso in centinaia di chip separati che possono essere utilizzati nell’hardware elettronico.
Ma Cerebras prende quel wafer e ne ricava un unico, enorme chip. Ogni pezzo del chip, chiamato core, è interconnesso in modo sofisticato ad altri core. Le interconnessioni sono progettate per mantenere tutti i core funzionanti ad alta velocità in modo che i transistor possano lavorare insieme come uno. L’intelligenza artificiale è stata utilizzata per progettare il chip stesso, ha dichiarato il CEO di Synopsys Aart De Geus in un’intervista a VentureBeat.
Cerebras inserisce questi wafer in un tipico rack di elaborazione di data center e li collega tutti insieme.
Informatica su scala cerebrale
Per fare un confronto, Feldman ha notato che il cervello umano contiene circa 100 trilioni di sinapsi. Come notato, i più grandi cluster hardware di intelligenza artificiale erano dell’ordine dell’1% della scala di un cervello umano, o circa 1 trilione di equivalenti di sinapsi, o parametri. Questi gruppi di processori grafici occupano solo una frazione dell’intera scala del cervello umano e consumano acri di spazio e megawatt di potenza e richiedono team dedicati per operare.
Ma Feldman ha affermato che un singolo acceleratore CS-2 – delle dimensioni di un frigorifero di un dormitorio – può supportare modelli di oltre 120 trilioni di parametri di dimensioni.
Quattro innovazioni
Inoltre, ha affermato che il nuovo portafoglio tecnologico di Cerebras contiene quattro innovazioni: Cerebras Weight Streaming, una nuova architettura di esecuzione del software; Cerebras MemoryX, una tecnologia di estensione della memoria; Cerebras SwarmX, una tecnologia per tessuti di interconnessione ad alte prestazioni; e Selectable Sparsity, una tecnologia di raccolta della sparsità dinamica.
La tecnologia Cerebras Weight Streaming può memorizzare i parametri del modello off-chip, offrendo allo stesso tempo le stesse prestazioni di addestramento e inferenza come se fossero on-chip. Questo nuovo modello di esecuzione disaggrega il calcolo e l’archiviazione dei parametri, consentendo ai ricercatori di ridimensionare in modo flessibile dimensioni e velocità in modo indipendente, ed elimina i problemi di latenza e larghezza di banda della memoria che mettono alla prova i grandi cluster di piccoli processori.
Ciò semplifica notevolmente il modello di distribuzione del carico di lavoro ed è progettato in modo che gli utenti possano scalare da 1 a un massimo di 192 CS-2 senza
modifiche al software, ha affermato Feldman.
Cerebras MemoryX fornirà il Cerebras Wafer Scale Engine (WSE-2) di seconda generazione fino a 2,4 petabyte di memoria ad alte prestazioni, che si comportano come se fossero su chip. Con MemoryX, CS-2 può supportare modelli con fino a 120 trilioni di parametri.
Cerebras SwarmX è un tessuto di comunicazione ottimizzato per l’intelligenza artificiale ad alte prestazioni che estende il tessuto on-chip di Cerebras Swarm a off-chip. SwarmX è progettato per consentire a Cerebras di connettere fino a 163 milioni di core ottimizzati per l’intelligenza artificiale su un massimo di 192 CS-2, lavorando in concerto per addestrare una singola rete neurale.
E Selectable Sparsity consente agli utenti di selezionare il livello di scarsità di peso nel proprio modello e fornisce una riduzione diretta dei FLOP e del tempo per la soluzione. La scarsità di peso è un’area entusiasmante della ricerca ML che è stata difficile da studiare, poiché è estremamente inefficiente sulle unità di elaborazione grafica.
La scarsità selezionabile consente al CS-2 di accelerare il lavoro e utilizzare ogni tipo di scarsità disponibile, compresa la scarsità di peso non strutturata e dinamica, per produrre risposte in meno tempo.
Questa combinazione di tecnologie consentirà agli utenti di sbloccare reti neurali su scala cerebrale e distribuire il lavoro su enormi cluster di core ottimizzati per l’intelligenza artificiale con la facilità di un pulsante, ha affermato Feldman.
Rick Stevens, direttore associato presso l’Argonne National Laboratory federale, ha dichiarato in una dichiarazione che gli ultimi anni hanno dimostrato che più sono i parametri, migliori sono i risultati per i modelli di elaborazione del linguaggio naturale. Le invenzioni di Cerebras potrebbero trasformare il settore, ha affermato.
Fondata nel 2016, Cerebras conta più di 350 dipendenti. La società annuncerà i clienti nel quarto trimestre.