Il supercomputer Andromeda di Cerebras ha 13,5 milioni di core che possono fare un exaflop nell’informatica AI
Il sistema è costituito da server con “chip” delle dimensioni di un wafer, ciascuno con centinaia di migliaia di core, ma occupa molto meno spazio ed è molto più potente dei normali server con unità di elaborazione centrale (CPU) standard.
Cerebras, con sede a Sunnyvale, in California, ha un modo radicalmente diverso di costruire chip. La maggior parte dei chip è costruita su un wafer di silicio da 12 pollici, che viene lavorato con sostanze chimiche per incorporare i progetti di circuiti su una sezione rettangolare del wafer. Quei wafer vengono tagliati in singoli chip. Ma Cerebras utilizza fondamentalmente un’enorme sezione rettangolare di un wafer per creare un solo enorme chip, ciascuno con 850.000 core di elaborazione su di esso, ha dichiarato Andrew Feldman, CEO di Cerebras, in un’intervista a VentureBeat.
Andromeda può fare un exaflop nell’informatica AI.
“È uno dei più grandi supercomputer AI mai costruiti. Ha un exaflop di calcolo AI, 120 petaflop di calcolo denso. Sono 16 CS-2 con 13,5 milioni di core. Solo per darti un’idea, il più grande computer sulla terra, Frontier, ha 8,7 milioni di core.
Al contrario, il processore per server Epyc di quarta generazione di fascia alta di Advanced Micro Devices aveva un chip (e sei chiplet di memoria) con solo 96 core. Tutto sommato, il supercomputer Andromeda assembla i suoi 13,5 milioni di core combinando insieme un cluster di 16 sistemi basati su wafer Cerebras CS-2.
“I clienti stanno già addestrando questi modelli linguistici di grandi dimensioni [LLM] , i più grandi dei modelli linguistici, da zero, quindi abbiamo clienti che stanno facendo formazione su set di dati unici e interessanti, che sarebbero stati proibitivi in tempo e costosi sui cluster GPU”, Feldmann ha detto.
Utilizza anche le tecnologie Cerebras MemoryX e SwarmX per ottenere più di un exaflop di calcolo AI, o un 1 seguito da 18 zeri, o un miliardo di miliardi. Può anche eseguire 120 petaflop (1 seguito da 15 zeri) di calcolo denso a mezza precisione a 16 bit.
Andromeda, nella foto con le porte chiuse, è un supercomputer AI da 13,5 milioni di core.
La società ha svelato la tecnologia alla fiera del supercomputer SC22. Sebbene questo supercomputer sia molto potente, non si qualifica nell’elenco dei 500 migliori supercomputer perché non utilizza la doppia precisione a 64 bit, ha affermato Feldman. Tuttavia, è l’unico supercomputer AI a dimostrare un ridimensionamento lineare quasi perfetto sui carichi di lavoro LLM basandosi solo sul semplice parallelismo dei dati, ha affermato.
“Quello che abbiamo detto alla gente tutto l’anno è che vogliamo creare cluster per dimostrare il ridimensionamento lineare tra i cluster”, ha affermato Feldman. “E vogliamo una distribuzione rapida e semplice del lavoro tra i cluster. E abbiamo parlato di farlo con il nostro MemoryX, che ci consente di separare la memoria di calcolo e supportare modelli di parametri multi-trilione”.
E Andromeda presenta più core di 1.953 GPU Nvidia A100 e 1,6 volte più core del più grande supercomputer del mondo, Frontier, che ha 8,7 milioni di core (ogni core Frontier è più potente).
“Siamo meglio di Frontier in AI. E questo è progettato per darti un’idea della portata del risultato “, ha affermato. “Quando programmi su Frontier, ti ci vogliono anni per progettare il tuo codice. Ed eravamo operativi senza modifiche al codice in 10 minuti. E questo è dannatamente bello.
Nelle immagini, i singoli computer all’interno di Andromeda sono ancora enormi perché la sezione superiore è per input/output e necessita del supporto per collegamenti Ethernet da 1.200 gigabit, alimentatori e pompe di raffreddamento.
AMD è uno dei partner di Cerebras nel progetto. Solo per alimentare i 13,5 milioni di core con i dati, il sistema ha bisogno di 18.176 processori AMD Epyc di terza generazione.
Ridimensionamento lineare
Cerebras afferma che il suo sistema si ridimensiona. Ciò significa che man mano che aggiungi più computer, le prestazioni del software aumentano di una quantità proporzionale.
I numeri in scala lineare di Andromeda.
A differenza di qualsiasi cluster noto basato su GPU, Andromeda offre un ridimensionamento quasi perfetto tramite un semplice parallelismo dei dati tra LLM di classe GPT, inclusi GPT-3, GPT-J e GPT-NeoX, ha affermato Cerebras. Il ridimensionamento significa che le prestazioni dell’applicazione non diminuiscono con l’aumentare del numero di core, ha affermato Feldman.
Il ridimensionamento quasi perfetto significa che quando vengono utilizzati CS-2 aggiuntivi, il tempo di addestramento viene ridotto in proporzione quasi perfetta. Ciò include LLM con lunghezze di sequenza molto grandi, un compito impossibile da raggiungere con le GPU, ha affermato Feldman.
In effetti, il lavoro impossibile della GPU è stato dimostrato da uno dei primi utenti di Andromeda, che ha ottenuto un ridimensionamento quasi perfetto su GPT-J a 2,5 miliardi e 25 miliardi di parametri con lunghezze di sequenza lunghe: MSL di 10.240, ha affermato Feldman. Gli utenti hanno tentato di fare lo stesso lavoro su Polaris, un cluster Nvidia A100 da 2.000, e le GPU non sono state in grado di svolgere il lavoro a causa della memoria della GPU e dei limiti di larghezza di banda della memoria, ha affermato.
Andromeda offre un ridimensionamento lineare quasi perfetto da uno a 16 Cerebras CS-2. Man mano che vengono utilizzati CS-2 aggiuntivi, la produttività aumenta in modo lineare e il tempo di addestramento diminuisce in proporzione quasi perfetta.
“Questo è inaudito nell’industria dei computer. E ciò significa che se aggiungi sistemi, il tempo per addestrare si riduce proporzionalmente “, ha detto Feldman.
L’accesso ad Andromeda è ora disponibile e i clienti e i ricercatori accademici stanno già eseguendo carichi di lavoro reali e traendo valore dalle straordinarie capacità del supercomputer AI leader.
Andromeda utilizza 16 sistemi CS-2 di Cerebras Systems.
“In collaborazione con i ricercatori di Cerebras, il nostro team di Argonne ha completato un lavoro pionieristico sui trasformatori genici, un lavoro che è finalista per il premio speciale ACM Gordon Bell per la ricerca COVID-19 basata su HPC. Utilizzando GPT3-XL, abbiamo inserito l’intero genoma COVID-19 nella finestra di sequenza e Andromeda ha eseguito il nostro carico di lavoro genetico unico con lunghezze di sequenza lunghe (MSL di 10K) su 1, 2, 4, 8 e 16 nodi, con risultati quasi perfetti ridimensionamento lineare “, ha dichiarato Rick Stevens, direttore del laboratorio associato presso l’Argonne National Laboratory, in una dichiarazione.
“Il ridimensionamento lineare è tra le caratteristiche più ricercate di un grande cluster e Andromeda di Cerebras ha fornito un throughput di 15,87 volte su 16 sistemi CS-2, rispetto a un singolo CS-2, e una riduzione del tempo di addestramento corrispondente. Andromeda stabilisce un nuovo standard per le prestazioni dell’acceleratore AI.
Anche Jasper AI lo usava
“Jasper utilizza modelli linguistici di grandi dimensioni per scrivere testi per marketing, pubblicità, libri e altro”, ha dichiarato Dave Rogenmoser, CEO di Jasper AI, in una dichiarazione. “Abbiamo oltre 85.000 clienti che utilizzano i nostri modelli per generare contenuti e idee in movimento. Data la nostra ampia e crescente base di clienti, stiamo esplorando modelli di test e ridimensionamento adatti a ciascun cliente e ai suoi casi d’uso. Creare nuovi sistemi di intelligenza artificiale complessi e portarli ai clienti a livelli crescenti di granularità richiede molto dalla nostra infrastruttura. Siamo entusiasti di collaborare con Cerebras e sfruttare le prestazioni e il ridimensionamento quasi perfetto di Andromeda senza il tradizionale calcolo distribuito e i problemi di programmazione parallela per progettare e ottimizzare il nostro prossimo set di modelli”.
AMD ha anche offerto un commento.
“AMD sta investendo in una tecnologia che aprirà la strada all’IA pervasiva, sbloccando nuove capacità di efficienza e agilità per le aziende”, ha dichiarato Kumaran Siva, vicepresidente aziendale per lo sviluppo aziendale di software e sistemi presso AMD, in una dichiarazione. “La combinazione del supercomputer AI di Cerebras Andromeda e di una pipeline di pre-elaborazione dei dati alimentata da server basati su AMD EPYC metterà insieme più capacità nelle mani dei ricercatori e supporterà capacità di intelligenza artificiale più rapide e approfondite”.
E Mateo Espinosa, dottorando presso l’Università di Cambridge nel Regno Unito, ha dichiarato in una dichiarazione: “È straordinario che Cerebras abbia fornito agli studenti laureati l’accesso gratuito a un cluster così grande. Andromeda offre 13,5 milioni di core AI e un ridimensionamento lineare quasi perfetto nei modelli di linguaggio più grandi, senza il dolore del calcolo distribuito e della programmazione parallela. Questo è il sogno di ogni studente laureato in ML.
I 16 CS-2 che alimentano Andromeda funzionano in una modalità strettamente parallela ai dati, consentendo una distribuzione del modello semplice e facile e il ridimensionamento con un solo tasto da 1 a 16 CS-2. In effetti, l’invio di lavori di intelligenza artificiale ad Andromeda può essere eseguito in modo rapido e indolore da un notebook Jupyter e gli utenti possono passare da un modello all’altro con pochi tasti.
I 16 CS-2 di Andromeda sono stati assemblati in soli tre giorni, senza alcuna modifica al codice, e subito dopo i carichi di lavoro sono stati scalati linearmente su tutti i 16 sistemi, ha affermato Feldman. E poiché il processore Cerebras WSE-2, al centro dei suoi CS-2, ha una larghezza di banda di memoria 1.000 volte superiore rispetto a una GPU, Andromeda può raccogliere scarsità strutturata e non strutturata, nonché scarsità statica e dinamica. Queste sono cose che altri acceleratori hardware, comprese le GPU, semplicemente non possono fare.
“Il supercomputer Andromeda AI è enorme, ma è anche estremamente efficiente dal punto di vista energetico. Cerebras ha resistito da soli nel giro di poche ore e ora impareremo molto sulle capacità di questa architettura su larga scala”, ha affermato Karl Freund, fondatore e principale analista di Cambrian AI.
Il risultato è che Cerebras può addestrare modelli con una precisione superiore al 90% fino a un’estrema precisione, ha affermato Feldman. Andromeda può essere utilizzato contemporaneamente da più utenti. Gli utenti possono facilmente specificare quanti CS-2 di Andromeda desiderano utilizzare in pochi secondi. Ciò significa che Andromeda può essere utilizzato come un cluster di 16 supercomputer CS-2 per un singolo utente che lavora su un singolo lavoro o 16 singoli sistemi CS-2 per 16 utenti distinti con 16 lavori distinti o qualsiasi combinazione intermedia.
Andromeda è distribuito a Santa Clara, in California, in 16 rack presso Colovore, un data center ad alte prestazioni . Gli attuali clienti di Cerebras includono Argonne National Labs, National Energy Technology Labs, Glaxo, Sandia National Laboratories e altri. L’azienda ha 400 persone.