Mentre l’industria tecnologica si concentra fervidamente sull’acquisizione di GPU NVIDIA, come le H100, Databricks ha optato per una mossa tattica adottando le GPU AMD per potenziare il proprio processo di addestramento dei Large Language Models (LLM), e questa scelta sta dimostrando di essere estremamente vantaggiosa per l’impresa.
Nell’arco dell’ultimo anno, Databricks ha stretto una collaborazione con AMD, integrando i loro processori EPYC di terza generazione per le istanze. A giugno, l’espansione strategica ha visto l’acquisizione di MosaicML da parte di Databricks, una società che si serviva delle GPU AMD MI250 per l’addestramento di modelli AI. Riconoscendo le capacità di AMD, Databricks ha deciso di scommettere sull’imminente lancio del modello MI300X da parte del gigante dei semiconduttori, per un posizionamento di rilievo nel dominio dell’intelligenza artificiale generativa.
La tendenza all’adozione delle GPU AMD sta crescendo all’interno della comunità AI, attestando la loro efficacia nel settore dell’intelligenza artificiale. Start-up influenti nel settore AI, come Lamini e Moreh, hanno incorporato sistemi AMD MI210 e MI250 per affinare e implementare LLM su misura. Solo una settimana fa, Lamini ha rivelato di utilizzare le GPU Instinct di AMD per i suoi LLM.
Ad esempio, Moreh ha portato a termine l’addestramento di un modello linguistico di ben 221 miliardi di parametri impiegando 1200 GPU AMD MI250, ottenendo anche un supporto finanziario di 22 milioni di dollari in un round di finanziamento Serie B promosso da AMD. Anche progetti open source come OLMo di AI2 si sono affidati alla potenza dei cluster GPU AMD per i loro requisiti formativi.
Databricks ha annunciato di aver avuto accesso anticipato a un sofisticato cluster multinodo MI250 come parte dell’AMD Accelerator Cloud (AAC), una configurazione di 32 nodi con 4 GPU AMD Instinct MI250 ciascuno e una connessione da 800 Gbps, ottimizzata per un addestramento LLM rigoroso e su larga scala tramite hardware AMD. L’impresa ora utilizza un totale di 128 GPU MI250.
Il punto di forza di NVIDIA è noto per essere il suo ecosistema software CUDA. AMD ne ha preso atto e sta guidando l’innovazione software, in particolare con la sua piattaforma ROCm, considerata la controparte di CUDA.
Vamsi Boppana, vicepresidente senior dell’AI in AMD, ha messo in evidenza che ROCm è attualmente la priorità assoluta per l’azienda, con risorse crescenti dedicate allo sviluppo software e con l’impegno dell’AD Lisa Su di incrementare gli investimenti in questo settore.
ROCm ha visto notevoli aggiornamenti, passando dalla versione 5.4 alla 5.7, e il kernel ROCm per FlashAttention è stato potenziato fino a FlashAttention-2, garantendo miglioramenti prestazionali rilevanti secondo Databricks.
Lamini ha riconosciuto la prontezza alla produzione del ROCm di AMD e il suo potenziale per accelerare il progresso dell’AI, paragonabile o superiore a CUDA per la messa a punto degli LLM e oltre.
Databricks ha evidenziato il coinvolgimento di AMD nello sviluppo del compilatore Triton di OpenAI, che aiuta gli ingegneri del machine learning a sviluppare kernel personalizzati efficienti su diverse piattaforme hardware, NVIDIA e AMD inclusi.
Con l’aggiornamento a ROCm 5.7 e FlashAttention-2, Databricks ha raggiunto un incremento delle prestazioni nell’addestramento dell’1,13 volte rispetto ai precedenti risultati con ROCm 5.4 e FlashAttention. Ha inoltre dimostrato una scalabilità impressionante, mantenendo le prestazioni da 166 TFLOP/s/GPU su un singolo nodo a 159 TFLOP/s/GPU su 32 nodi, con una coerenza nella dimensione del batch di addestramento globale.
Databricks ha addestrato con successo modelli MPT da 1B e 3B parametri da zero su 64 GPU MI250, con risultati paragonabili a noti modelli open source come Cerebras-GPT-1.3B e Cerebras-GPT-2.7B.
Per l’addestramento, hanno utilizzato librerie open source come LLM Foundry, Composer, StreamingDataset e PyTorch FSDP, grazie al supporto di PyTorch sia per CUDA che per ROCm, consentendo una transizione fluida tra GPU NVIDIA e AMD senza la necessità di modificare il codice.
Con grande attesa, Databricks si prepara al lancio delle prossime GPU AMD Instinct MI300X, previsto per un futuro non lontano. La piattaforma è predisposta per operare con continuità e per scalare efficientemente con lo stack software basato su PyTorch.
L’integrazione tra AMD e Triton mira a facilitare il trasferimento del codice e dei kernel dei modelli personalizzati, eliminando la necessità di kernel esclusivi per ROCm.
Abhi Venigalla, ricercatore presso Databricks, ha espresso entusiasmo per il futuro, anticipando di confrontare l’imminente MI300X di AMD con l’attuale leader H100 di NVIDIA, con l’aspettativa che AMD offrirà una concorrenza vivace.
Anche Lamini aspetta con ansia l’MI300X dotato di 192 GB di memoria HBM, che si prevede migliorerà ulteriormente le prestazioni dei suoi modelli.
In definitiva, l’orientamento di Databricks verso le GPU AMD segna un’avanzata sostanziale nella formazione dei LLM, evidenziando la crescente presenza di AMD nel competitivo mercato delle GPU.