Microsoft ha annunciato che la società ha creato un supercomputer AI 5 per OpenAI, ospitato nel cloud di Azure. Microsoft ha investito un miliardo di dollari nel gruppo di ricerca del settore OpenAI nel 2019. L’enorme sistema comprende circa 10.000 GPU e oltre 285.000 core di CPU e verrà utilizzato per far avanzare le capacità del settore nella gestione di modelli di IA molto grandi, che stanno raddoppiando le dimensioni ogni 3,5 mesi, secondo OpenAI. Il modello Turing di Microsoft per la generazione del linguaggio naturale contiene circa 17 miliardi di parametri, un aumento di 17 volte rispetto al modello più grande degli ultimi anni. Quindi questo supercomputer verrà sfruttato molto bene.

Stranamente, Microsoft non è riuscita a nominare il computer (un’omissione inaudita nel mondo dei supercomputer) e ha rifiutato di comunicare tutti i dettagli di configurazione del sistema che un utente deve comprendere: quale stack di sviluppo della GPU, quale CPU e il numero di core e thread per socket, quale interfaccia di rete e la configurazione di ciascun nodo (#CPU e #GPU). Mentre nessun portavoce confermerebbe i miei sospetti sul disco, penso di poter fare luce su questi importanti fattori.

Il blog di Microsoft sull’annuncio includeva questa immagine priva di contenuti del loro supercomputer
Il blog di Microsoft sull’annuncio includeva questa immagine priva di contenuti del loro supercomputer MICROSOFT
Figura 1: il blog di Microsoft sull’annuncio includeva questa immagine priva di contenuti del loro supercomputer. Fonte: Microsoft

Di chi sono state utilizzate le GPU? NVIDIA V100

In primo luogo, le GPU devono essere NVIDIA V100 perché a) NVIDIA ha appena annunciato l’A100 e sarebbe difficile trovare 10.000 unità prima di lanciarlo la scorsa settimana. E b) le GPU non possono essere AMD Radeon perché quelle GPU non godono ancora dell’ecosistema richiesto per supportare la ricerca in corso su OpenAI. Quindi, con il processo di eliminazione, si deve concludere che le GPU sono in realtà NVIDIA V100. A 10.000 unità, supponiamo che Microsoft abbia ottenuto un affare davvero dolce e pagato solo $ 5.000 ciascuno, il che produrrebbe forse $ 50 milioni di entrate per NVIDIA, probabilmente nell’ultimo trimestre.

Di chi sono state utilizzate le CPU? AMD EPYC Roma

Per quanto riguarda i socket della CPU, la matematica dice che sono CPU AMD EPYC di Roma; non ci sono abbastanza core in un Intel Xeon per far funzionare i numeri a meno che Microsoft non abbia speso un sacco di soldi per gli Xeon a 56 core di fascia alta. Con 285.000 core, supponiamo che sia la CPU a 64 core di AMD in una configurazione a due socket. Ciò implicherebbe circa 2220 nodi. A 4 GPU ciascuna, che si collegherebbe a circa 8800 GPU, quindi almeno siamo nel codice postale di 10.000 GPU. Alla domanda, una fonte informata ha confermato la mia logica anche qui, confermando l’uso di AMD EPYC, ma ha richiesto l’anonimato.

PROMOSSA

Per quanto riguarda l’interconnessione, l’acquisizione da parte di NVIDIA di Mellanox e la loro leadership nello spazio dei supercomputer favorirebbero InfiniBand, quindi questa è la mia ipotesi.

conclusioni

Mentre capisco che Microsoft e OpenAI volessero focalizzare l’annuncio su di loro e la grande ricerca che stanno intraprendendo, trovo il loro approccio piuttosto vecchio stile e incompatibile con la cultura trasformata da Satya Nadella. In un mondo IT aperto, tali fatti sono fondamentali e avrebbero dovuto essere inclusi nell’annuncio. La compagnia ha usato un disegno a fumetti invece di uno scatto glamour, quindi non possiamo dire quale sistema sia stato usato (suppongo che fosse un Open Compute HGX, ma …). Oh bene. Un piccolo lavoro investigativo mi porta a concludere che AMD, NVIDIA e probabilmente Mellanox hanno vinto le prese. E il mondo della ricerca dell’intelligenza artificiale trarrà vantaggio dalla loro tecnologia e dai loro sforzi principali; meritano il merito.

Di ihal