Meta sta progettando un imponente cluster di supercalcolo composto da 100.000 GPU, destinato a supportare lo sviluppo del progetto Llama 4. Secondo fonti vicine al progetto, il cluster utilizzerà più di 100.000 unità di GPU Nvidia “H100” e sarà completato tra ottobre e novembre. L’investimento per i soli chip supera i 2 miliardi di dollari.
Questa iniziativa segna un importante passo nella corsa per l’intelligenza artificiale generale (AGI), con altre aziende che stanno cercando di costruire cluster di GPU ancora più grandi, fino a 1 milione di unità. Elon Musk aveva recentemente annunciato il completamento di un cluster da 100.000 GPU chiamato “Colossus” per addestrare “Grock 3”, il più grande esistente fino a quel momento. Tuttavia, alcuni esperti hanno messo in dubbio questa affermazione, citando problemi tecnici legati alla rete e all’alimentazione necessarie per gestire un cluster così grande.
Meta, per evitare simili problemi, ha optato per un networking basato su Ethernet anziché utilizzare le attrezzature di rete di alta gamma di NVIDIA. Per il progetto “Llama 3” era stato utilizzato un protocollo di rete ad alta velocità chiamato “Remote Direct Memory Access (RoCE) over Converged Ethernet”.
La dimensione del cluster GPU è cruciale per migliorare le prestazioni del modello AI, ma non è l’unico fattore. Anche l’efficienza del training e la velocità di sviluppo giocano un ruolo fondamentale. Attualmente, le aziende di intelligenza artificiale come OpenAI, Google, Meta e xAI stanno lanciando una vera e propria corsa per sviluppare i modelli più avanzati il più rapidamente possibile.
Le notizie riguardanti la costruzione di supercluster sono indicative della competizione tra le principali aziende di AI, che mirano a superarsi a vicenda. OpenAI, in collaborazione con Microsoft, sta progettando un data center con milioni di chip AI, noto come “Stargate”, con l’obiettivo di costruire un supercomputer con centinaia di migliaia di GPU entro il 2026.
La crescente preoccupazione di Sam Altman, CEO di OpenAI, è emersa dopo l’annuncio di Musk, con timori di restare indietro nella corsa allo sviluppo dell’intelligenza artificiale.