Cerebras Systems pone le basi per un’enorme intelligenza artificiale
Startup annuncia la tecnologia per abilitare un modello da 120 trilioni di parametri sulla strada per l’intelligenza artificiale su scala cerebrale.
OK, pensavo di aver finito con la preparazione per HotChips, avendo preparato sei blog e tre documenti di ricerca. Ero pronto a prendermi qualche giorno di ferie. Tuttavia, ho deciso di ricevere una chiamata da Andrew Feldman, CEO di Cerebras Systems. Conosco e rispetto Andrew da oltre un decennio e ha sempre cose interessanti da condividere. Sono così felice di aver risposto alla chiamata.
Cosa aveva da dire Andrea?
Cerebras sta annunciando una straordinaria svolta, consentendo il supporto di modelli di intelligenza artificiale che sono fino a cento volte più grandi di qualsiasi altra cosa realizzata in precedenza. Utilizzando nuove tecnologie hardware e software, un singolo sistema CS-2 basato su Wafer-Scale Engine è in grado di addestrare un modello di intelligenza artificiale con parametri fino a 120 trilioni. Il record precedente per la dimensione dei parametri per un modello AI è di Microsoft, il modello MSFT-1T, che contiene (sorpresa) poco più di 1 trilione di parametri.
Ora mettiamolo nel contesto; la maggior parte dei confronti stima che il cervello umano abbia circa 125 trilioni di sinapsi, che sono analoghi ai parametri di una rete neurale artificiale. Quindi, una soluzione di intelligenza artificiale in grado di gestire 120 trilioni di parametri è della stessa grandezza del cervello umano. E nonostante tu sia un fan del confronto tra l’intelligenza artificiale artificiale e il cervello umano, ciò che è incontrovertibile è che la tecnologia Cerebras consente modelli 100 volte più grandi di qualsiasi cosa l’industria abbia mai visto. Questo è un grande passo avanti.
Oltre ad aumentare la capacità dei parametri, Cerebras sta anche annunciando una tecnologia che consente la creazione di cluster molto grandi di CS-2, fino a 192 CS-2.
Poiché ogni CS-2 ha 850.000 core, un 192 cluster CS-2 sarebbe un cluster di 163 milioni di core. Mentre la maggior parte delle aziende pubblicizza le dimensioni del cluster e i cluster Cerebras sono enormi, Cerebras ha scelto invece di concentrarsi sulla facilità di configurazione di questi grandi cluster. Questo è un approccio interessante e vale la pena esaminarlo
da vicino, poiché i cluster di grandi dimensioni sono notoriamente difficili da configurare ed eseguire, spesso richiedendo mesi. Esiste una reale opportunità nel rendere tutto questo più semplice e facile. Mentre immergersi in tutto questo richiederà un pezzo più lungo, diamo un breve sguardo a come questo è stato realizzato.
Grande hardware per grandi modelli
Innanzitutto, diamo un’occhiata alla crescita del modello di intelligenza artificiale per capire perché questo è importante. I modelli di intelligenza artificiale raddoppiano di dimensioni (misurate dal numero di parametri o pesi) ogni 3,5 mesi. Hanno anche raddoppiato la quantità di calcolo di cui hanno bisogno per addestrarsi. Questa tendenza ha prodotto modelli 1000 volte più grandi solo negli ultimi due anni. E questi modelli più grandi richiedono un calcolo 1000 volte maggiore per addestrarli. Ora, non crediamo che il ritmo possa essere sostenuto. Ma chiaramente, l’hardware necessario per i modelli più grandi avrà un aspetto molto diverso da un server comune con un mucchio di GPU. Serve un approccio diverso.
Anche NVIDIA concorda con tale affermazione. La crescita delle dimensioni del modello ha portato il leader dell’intelligenza artificiale ad annunciare piani per un’architettura completamente nuova all’ultimo GTC, utilizzando DPU, la CPU Grace di NVIDIA e una GPU di nuova generazione per gestire modelli da trilioni di parametri. L’obiettivo è creare larghezza di banda e capacità di memoria sufficienti per gestirli. Ma c’è un altro modo per scuoiare questa bestia.
Cerebras ha annunciato che il CS-2 è stato potenziato con nuove tecnologie hardware e software per consentire un massiccio ridimensionamento del modello. La prima è la tecnologia MemoryX, che contiene fino a 2,4 PB di DRAM e memoria flash per contenere i pesi del modello di massa, insieme alla capacità di calcolo interna per elaborare gli aggiornamenti del peso. Il secondo è la nuova tecnologia del tessuto SwarmX, che consente il ridimensionamento multi-sistema. SwarmX essenzialmente astrae l’hardware CS-2 in una scatola nera a cui vengono inviati i pesi e vengono ricevuti ed elaborati i gradienti. In questo approccio, non è necessario alcun parallelismo del modello; ogni CS-2 può eseguire il modello completo nei suoi 850.000 core e 40 GB di memoria on-die in cui vengono archiviate le attivazioni.
La terza innovazione è il software che trasmette i pesi a un cluster di server CS-2, mantenendo la semplicità di programmazione di un singolo server. Una delle maggiori sfide dell’utilizzo di cluster di grandi dimensioni per risolvere i problemi di intelligenza artificiale è la complessità e il tempo necessari per impostarli, configurarli e quindi ottimizzarli per una rete neurale specifica. Il modello di esecuzione di Weight Streaming è così elegante nella sua semplicità e consente una distribuzione del lavoro molto più fondamentalmente semplice tra le incredibili risorse di calcolo dei cluster CS-2. Con Weight Streaming, Cerebras sta tentando di rimuovere le complessità che molti devono affrontare oggi riguardo alla costruzione e all’utilizzo efficiente di enormi cluster, portando avanti il settore in quello che penso potrebbe essere un viaggio di trasformazione.
Infine, Cerebras sta riducendo la complessità computazionale con estrema scarsità, non solo applicando la forza bruta, dimostrando una scarsità fino al 90% con vantaggi quasi lineari di accelerazione. La maggior parte dei chip AI può gestire solo il 50% di scarsità. Ciò è possibile facendo in modo che ciascuno degli 850.000 core elabori solo dati diversi da zero e raccolga la scarsità in modo indipendente
Proprio quando pensavi di aver visto tutto, arriva qualcosa di nuovo e ti mostra quanto poco capivi davvero. Cerebras è intelligente. Sanno che non possono competere con NVIDIA sul territorio di NVIDIA. Quindi Cerebras sta cambiando il campo di gioco su ogni dimensione del calcolo AI per grandi AI. Arriveremo ai livelli di intelligenza computazionale del cervello umano? Non so quando, ma so che raggiungeremo questo e oltre. Forse allora un’intelligenza artificiale potrebbe scrivere questi blog e io potrei andare in montagna!