L’interno del “Colossus” di xAI, descritto dal CEO Elon Musk come il più grande cluster di supercalcolo per intelligenza artificiale (AI) al mondo, è stato rivelato per la prima volta.
Il YouTuber ServeTheHome ha ottenuto l’approvazione da xAI il 28 ottobre per filmare e condividere immagini del supercomputer situato a Memphis, negli Stati Uniti. Colossus è dotato di 100.000 unità di GPU “H100” di Nvidia ed è operativo dal settembre scorso, dopo un assemblaggio durato 122 giorni.
Nel video, è stato confermato che il supercomputer utilizza i server GPU “HGX H100” di NVIDIA, ciascuno contenente 8 GPU H100. Questi server sono alloggiati all’interno di un sistema di raffreddamento a liquido universale da 4U di Supermicro. Otto server sono raggruppati in un rack, che a sua volta contiene 64 GPU. Questi rack sono organizzati in 8 gruppi per formare un array di 512 GPU, e ci sono circa 200 array nel Colossus, per un totale di oltre 100.000 GPU.
Colossus ha completato solo la prima fase di costruzione e prevede di raddoppiare la sua capacità a 200.000 GPU, includendo 50.000 H100 e 50.000 “H200”. NVIDIA ha annunciato oggi che supporterà l’aggiunta di altre 100.000 GPU per xAI.
Inoltre, è stato rivelato che Colossus è progettato per connettere in modo efficiente cluster di chip di grandi dimensioni grazie alla tecnologia di rete basata su Ethernet di NVIDIA.
xAI prevede di addestrare il modello “Grok-3” utilizzando Colossus, con un lancio previsto per l’inizio del prossimo anno.