“Oggi quel mega-sistema, chiamato Selene, ha il suo assistente robotico e sta portando avanti l’IA nel settore automobilistico, sanitario e dell’elaborazione del linguaggio naturale”.
L’assemblaggio di supercomputer richiede anni per essere costruito. Per fornire una commissione è necessario che molti membri del personale di servizio lavorino 24 ore su 24 per molti mesi. Ma, battendo tutte le probabilità, NVIDIA afferma di aver costruito il suo supercomputer entro tre settimane. Non solo NVIDIA ha assemblato un gigantesco computer in breve tempo, ma ha anche battuto record nei test di benchmark MLPerf condotti di recente. Il supercomputer di NVIDIA si è confrontato con altri giganti del settore come Google e ha stabilito nuovi benchmark di calcolo su algoritmi all’avanguardia.
Ma come è stato possibile? Quali sono le pratiche che il team ha assorbito per essere al top?
Come è stato assemblato un supercomputer con un preavviso così breve
L’esperienza di NVIDIA nel networking, nell’archiviazione, nell’alimentazione e nei sistemi termici è stata utile durante la creazione di Selene. Secondo NVIDIA, il loro team ha creato cluster sempre più grandi di POD NVIDIA DGX basati su V100.
Il capo architetto dietro questo sistema, Michael Houston, afferma che lui e il suo team stanno costruendo macchine anticipando gli usi e le lunghe durate. Il team ha quindi assemblato grandi cluster di sistemi NVIDIA DGX-2 basati su V100, chiamati DGX POD.
“Abbiamo strappato tutto due volte. È stato il modo più veloce per andare avanti, ma ha comunque avuto molti tempi di inattività e costi “, ha affermato Houston. Il team ha quindi ridisegnato la rete complessiva per semplificare l’assemblaggio del sistema e dei moduli collegati di 20 nodi mediante semplici “interruttori sottili”, che possono essere testati facilmente. I cavi pre-progettati sono stati quindi raggruppati insieme al velcro in fabbrica. I rack sono stati etichettati in modo da poter essere rintracciati comodamente.
Nel migliore dei casi, ha affermato NVIDIA, possono essere necessari alcuni mesi a dozzine di ingegneri per assemblare, testare e mettere in servizio un sistema di classe supercomputer. Ma quando il mondo si è fermato a causa di una pandemia, un piccolo team di NVIDIA ha assemblato un sistema, che ora è il settimo computer più veloce del mondo! Questo mega-sistema, chiamato Selene, ora ha il suo assistente robotico e sta portando avanti l’IA nel settore automobilistico, sanitario e della PNL.
“Selene ha battuto i record per le prestazioni di formazione AI negli ultimi benchmark MLPerf.”
Dal cloud gaming all’intelligenza artificiale e alla genomica, la conferenza NVIDIA GTC in Cina è stata un pioniere
NVIDIA aveva Selene attivo e funzionante in poche settimane per essere pronta per la resa dei conti finale dei giganti computazionali e anche per i clienti come Argonne. Il computer di NVIDIA ha registrato 27 petaflop e, per confronto, il supercomputer più veloce dell’India Pratyush offre un misero 3,7 pflop.
L’azienda di oggi ha bisogno di una strategia end-to-end per le innovazioni AI per accelerare il time-to-insight e rivelare nuove frontiere di business. I sistemi DGX di NVIDIA sono realizzati su misura per offrire servizi per lo sviluppo di IA end-to-end. La loro pila di servizi include:
NVIDIA DGX Station è la workstation più veloce al mondo per i team di data science.
NVIDIADGX-1/2 / X è un sistema di intelligenza artificiale creato appositamente per l’IA aziendale nel data center. Integra otto GPU NVIDIA V100 Tensor Core, utilizzando la tecnologia NVLink, offrendo petaFLOP di prestazioni AI.
NVIDIA DGX POD è un’architettura di riferimento per il ridimensionamento dell’IA, che combina elaborazione, rete, archiviazione, alimentazione, raffreddamento e altro ancora.
Il culmine di anni di conoscenza ed esperienza ha permesso a NVIDIA di creare NVIDIA DGX SuperPOD. SuperPOD è una combinazione di 64 nodi DGX-2, che culmina in un’architettura a 96 nodi. I SuperPOD DGX stanno potenziando i sistemi per i migliori giocatori come Lockheed Martin nel settore aerospaziale e Microsoft nei servizi di cloud computing. Oggi, questo mega-sistema viene persino utilizzato dall’Argonne National Laboratory per ricercare modi per fermare il coronavirus. Finora, NVIDIA ha alimentato i supercomputer di tutto il mondo. Ora, con Selene, NVIDIA offre una concorrenza più dura ai suoi colleghi. Con uno stack così diversificato di prodotti, NVIDIA sarà un attore chiave nei prossimi giorni per una distribuzione più rapida dei data center.