Moor Insights e strategia
L’annuale International Supercomputer Conference (ISC), tenutasi praticamente quest’anno, è iniziata oggi. Non sorprende che NVIDIA abbia già fatto alcuni annunci di rilievo. Particolarmente interessante per me è stato l’annuncio di Selene, il supercomputer Exaflop AI 1+ di NVIDIA, che si classifica come il sistema industriale più veloce negli Stati Uniti e il 7 ° posto nella Top 500.. NVIDIA ha inoltre annunciato una nuova versione PCIe dell’acceleratore A100, sei vittorie di supercomputer basate su A100 e una nuova piattaforma Mellanox UFM Cyber AI per prevedere e rilevare minacce alla sicurezza e guasti della rete. Tuttavia, Selene è stata la star dello spettacolo.
Selene: un profondo fossato competitivo che la gente pensa al CUDA quando qualcuno menziona le difese della concorrenza di NVIDIA. Certamente, il software ad alte prestazioni è un vantaggio significativo per NVIDIA, anche 13 anni dopo la sua introduzione. CUDA consente alle applicazioni HPC e AI di funzionare in modo efficiente sulle GPU NVIDIA ed è accolto dai programmatori di tutto il mondo. Supporta migliaia di applicazioni su milioni di GPU. Tuttavia, Selene può formare un fossato difensivo ancora più formidabile rispetto alle venerabili librerie e strumenti CUDA.
Diamo un’occhiata a Selene. Comprende 280 server NVIDIA DGX A100, ciascuno con 8 GPU Ampere, interconnessi da oltre 490 switch Mellanox da 200 Gb. I supercomputer richiedono in genere fino a un anno per l’installazione, ma gli ingegneri NVIDIA hanno assemblato e testato la piattaforma in meno di un mese, a testimonianza della facilità di installazione plug-and-play della piattaforma DGX.
Nel 2017, NVIDIA ha annunciato il V100, insieme al supercomputer interno Saturn V dell’azienda. Un supercomputer top-30 costruito per consentire la ricerca e lo sviluppo di software e hardware NVIDIA, la piattaforma è stata utilizzata per aumentare le prestazioni di molti carichi di lavoro AI e HPC su larga scala. Inoltre, è stato ampiamente utilizzato nello sviluppo dei nuovi prodotti basati su Ampere. La disponibilità di un tale supercomputer a disposizione degli ingegneri e dei partner di NVIDIA può costituire un vantaggio competitivo strategico in diverse aree.
Innanzitutto, fornisce una piattaforma all’avanguardia per l’ottimizzazione del software e lo sviluppo del modello. La Figura 2 mostra che NVIDIA ha raddoppiato le prestazioni del V100 in una vasta gamma di applicazioni HPC nei due anni successivi all’introduzione di quel chip. Inoltre, il rilascio dei benchmark mlperf ha mostrato che le prestazioni quadruplicate di NVIDIA per AI, il tutto senza una singola modifica all’hardware.
In secondo luogo, una piattaforma come Saturn V o Selene crea una potente opportunità di ricerca e collaborazione. Un esempio in questo caso è lo sviluppo di Megatron, un’estensione di oltre un miliardo di parametri in linguaggio naturale a BERT (rappresentazioni di encoder bidirezionali da trasformatori) che NVIDIA e Microsoft sono state pioniere nel promuovere l’IA conversazionale. Non molti ricercatori e sviluppatori del settore hanno a disposizione un supercomputer di livello mondiale per affrontare tali progetti di ricerca all’avanguardia, ma NVIDIA e i suoi partner godono di questa capacità. Ho visitato la struttura di Saturno V a Santa Clara ed è davvero impressionante. Credo che Selene porterà questo al livello successivo.
Infine, e forse soprattutto, un supercomputer interno fornisce in modo univoco agli ingegneri NVIDIA un’enorme piattaforma AI per accelerare e migliorare lo sviluppo del prodotto. Come ho già discusso in precedenza , l’uso dell’IA sta emergendo come un potente approccio per accelerare lo sviluppo di chip e migliorare il prodotto finale. I clienti della sinossi, ad esempio, hanno utilizzato l’intelligenza artificiale per esplorare miliardi di possibili layout fisici, al fine di produrre chip che consumano meno energia, offrono maggiori prestazioni, richiedono meno area della matrice e arrivano sul mercato più rapidamente con meno ingegneri. Gli ingegneri NVIDIA che lavoravano su Ampere avevano accesso a Saturno V per quasi tre anni, usando un sistema che sarebbe costato decine di milioni di dollari per la costruzione di un rivale. Il chip Ampere è il risultato impressionante.
conclusioni
Il CEO di NVIDIA, Jensen Huang, ha dichiarato: “Più acquisti, più risparmi” e applica questa filosofia agli investimenti della sua azienda in HPC e AI per i suoi ingegneri. Cosa fa bene all’oca, fa bene al gander, vero? Di conseguenza, gli ingegneri NVIDIA sono in grado di produrre prodotti migliori e collaborano con ricercatori e partner più rapidamente di qualsiasi aspirante concorrente di NVIDIA (almeno per ora). Una startup farebbe fatica a schierare le risorse per abbinare questo livello di capacità di calcolo dedicata, e sospetto che aziende più grandi come Intel stiano realizzando che avere un sistema come Selene diventerà una posta in gioco per coloro che desiderano entrare nel gioco.