Meta ha recentemente svelato dettagli cruciali sulla sua infrastruttura hardware all’avanguardia, progettata specificamente per l’addestramento nell’intelligenza artificiale, in particolare per il progetto Llama 3, come evidenziato da Yann LeCun. La società ha fornito dettagli sui suoi cluster su scala data center, composti da 24.576 GPU, che costituiscono una parte essenziale del supporto attuale e futuro per i modelli di intelligenza artificiale, inclusi Llama 3 e il suo predecessore, Llama 2.
Questi cluster rappresentano un investimento significativo nell’hardware per l’intelligenza artificiale e sottolineano il ruolo cruciale dell’infrastruttura nel plasmare il futuro dell’IA. Sono progettati per supportare la visione a lungo termine di Meta di sviluppare l’AGI in modo aperto e responsabile, con l’obiettivo di rendere l’IA accessibile a tutti.
Nell’ultimo sviluppo, Meta ha implementato due varianti dei suoi cluster da 24.576 GPU, ognuna con soluzioni di infrastruttura di rete distinte. Un cluster utilizza un accesso diretto alla memoria remota (RDMA) su una rete Ethernet convergente (RoCE), mentre l’altro presenta una struttura NVIDIA Quantum2 InfiniBand. Entrambe le soluzioni vantano endpoint da 400 Gbps, garantendo un’interconnessione perfetta per attività di addestramento su larga scala.
In particolare, il SuperCluster di Ricerca sull’IA (RSC) di Meta, introdotto nel 2022 e dotato di 16.000 GPU NVIDIA A100, ha giocato un ruolo fondamentale nel promuovere la ricerca aperta e responsabile sull’intelligenza artificiale, facilitando lo sviluppo di modelli avanzati come Llama e Llama 2.
Grazie a una co-progettazione meticolosa di rete, software e architettura del modello, Meta è riuscita a sfruttare appieno le capacità dei cluster RoCE e InfiniBand, riducendo al minimo i problemi di rete nei carichi di lavoro AI su larga scala. Questo include le sessioni di addestramento in corso per Llama 3 sul cluster RoCE di Meta, dimostrando l’efficacia dell’infrastruttura nel supportare attività di addestramento avanzato nell’intelligenza artificiale.
Guardando al futuro entro la fine del 2024, Meta si propone di espandere ulteriormente la propria infrastruttura, includendo 350.000 NVIDIA H100. Questa espansione fa parte di un’iniziativa di portafoglio completa mirata a raggiungere capacità computazionali equivalenti a quasi 600.000 H100.