GigaIO, un importante fornitore di infrastrutture definite dal carico di lavoro per flussi di lavoro di calcolo tecnico e AI, ha recentemente annunciato un importante successo. Hanno configurato con successo 32 acceleratori AMD Instinct MI210 su un singolo server utilizzando il rivoluzionario tessuto di memoria PCIe FabreX a bassissima latenza sviluppato dall’azienda. Questa soluzione ingegnerizzata a 32 GPU, chiamata SuperNODE, offre un sistema semplificato in grado di scalare diverse tecnologie di accelerazione, come GPU e FPGA, senza i problemi di latenza, costi e sovraccarico energetico tipici dei sistemi multi-CPU.
“Questo test dimostra il valore enorme dell’utilizzo del SuperNODE di GigaIO per ottenere tutti i vantaggi della componibilità in modo senza problemi”, ha affermato Alan Benjamin, CEO e presidente di GigaIO.
Poiché le applicazioni basate su modelli linguistici di grandi dimensioni richiedono prestazioni GPU ancora più elevate, è fondamentale disporre di tecnologie in grado di ridurre il numero di comunicazioni di dati necessarie tra i nodi e gli acceleratori. Questo è essenziale per fornire la potenza di calcolo necessaria migliorando il TCO dell’infrastruttura.
“Man mano che i carichi di lavoro dell’IA vengono adottati più ampiamente, diventa essenziale avere sistemi in grado di sfruttare la potenza di calcolo di più GPU e gestire efficacemente la saturazione dei dati con latenza estremamente bassa”, ha affermato Mark Nossokoff, direttore della ricerca presso Hyperion Research. “Le tecnologie che riducono al minimo il traffico da nodo ad acceleratore sono meglio posizionate per fornire le prestazioni necessarie per un’infrastruttura AI solida, soprattutto considerando che le applicazioni basate su modelli linguistici di grandi dimensioni stanno guidando la richiesta di prestazioni GPU maggiori”.
“AMD collabora con startup innovative come GigaIO per offrire soluzioni uniche che soddisfino le esigenze in continua evoluzione dei carichi di lavoro di AI e HPC”, ha dichiarato Andrew Dieckmann, Corporate Vice President e General Manager del Dipartimento Data Center and Accelerated Processing di AMD. “Il sistema SuperNODE creato da GigaIO e potenziato dagli acceleratori AMD Instinct offre un interessante TCO sia per i carichi di lavoro HPC tradizionali che per quelli generativi”.
Il sistema SuperNODE di GigaIO è stato sottoposto a test con 32 acceleratori AMD Instinct MI210 su un server Supermicro 1U, alimentato da due processori AMD EPYC™ di terza generazione, utilizzando Hashcat e Resnet50. Entrambi i test hanno dimostrato una scalabilità senza precedenti, con Hashcat che ha raggiunto un fattore di scala del 100% e Resnet del 99%.
Questi risultati evidenziano una notevole miglioria in termini di scalabilità rispetto all’alternativa tradizionale di aumentare il numero di GPU utilizzando MPI per la comunicazione tra nodi. Quando si esegue un modello su più nodi, la scalabilità della GPU è ridotta al 50% o meno.
“Questo test dimostra l’enorme valore dell’utilizzo del SuperNODE di GigaIO per ottenere tutti i vantaggi della componibilità senza problemi”, ha dichiarato Alan Benjamin, CEO e presidente di GigaIO. AMD e GigaIO hanno progettato l’intero stack hardware e software del SuperNODE, incluso l’integrazione con le librerie TensorFlow e PyTorch, in modo che le applicazioni possano funzionare senza la necessità di modifiche al software. “I clienti possono scalare le prestazioni della GPU senza dover gestire più server utilizzando il nostro software FabreX e ottenere una flessibilità senza precedenti. Quando un lavoro di grandi dimensioni richiede risultati rapidi, è possibile implementare facilmente ed efficientemente 32 GPU su un singolo nodo di elaborazione, con bassa latenza e consumo energetico. Inoltre, gli stessi acceleratori possono essere facilmente e rapidamente riallocati su altri server, ottimizzandone così l’utilizzo. Lascia che sia il lavoro a definire il tuo sistema”.