DeepSeek AI ha annunciato il rilascio di DeepEP, una libreria di comunicazione progettata per ottimizzare l’addestramento e l’inferenza dei modelli basati su Mixture of Experts (MoE). Questo lancio rappresenta il secondo contributo nell’ambito della “Open Source Week” di DeepSeek, durante la quale l’azienda si impegna a rendere disponibili cinque componenti chiave della propria tecnologia.
DeepEP è una libreria di comunicazione ad alte prestazioni specificamente sviluppata per supportare l’architettura MoE e l’Expert Parallelism (EP). La sua funzione principale è migliorare la comunicazione tra le unità di elaborazione grafica (GPU) e i modelli di machine learning che utilizzano l’architettura MoE, garantendo un’elevata larghezza di banda e una bassa latenza nelle operazioni di all-to-all tra GPU. Queste operazioni sono comunemente note come “MoE dispatch” e “combine”. Inoltre, DeepEP supporta operazioni a bassa precisione, inclusa l’aritmetica in FP8, contribuendo a ridurre l’uso della memoria e ad accelerare i calcoli.
La libreria offre un set di kernel ottimizzati per il forwarding asimmetrico della larghezza di banda, facilitando il trasferimento efficiente dei dati tra connessioni NVLink e RDMA. I test condotti su GPU NVIDIA H800, equipaggiate con schede di rete CX7 InfiniBand RDMA, hanno evidenziato le seguenti prestazioni:
- NVLink: su una larghezza di banda massima di 160 GB/s, DeepEP ha raggiunto una performance di 153 GB/s.
- RDMA: su una larghezza di banda massima di 50 GB/s, la libreria ha ottenuto una performance di 43 GB/s.
Questi risultati dimostrano l’efficacia di DeepEP nel massimizzare l’efficienza della comunicazione tra GPU durante l’addestramento e l’inferenza di modelli MoE.
I modelli Mixture of Experts sono noti per la loro capacità di scalare in modo efficiente, attivando solo una sottosezione degli “esperti” per ogni input, il che consente di risparmiare risorse computazionali rispetto ai modelli densi tradizionali. Tuttavia, questa architettura introduce sfide significative in termini di comunicazione, poiché richiede un coordinamento complesso tra le GPU per instradare e aggregare i dati in modo efficace. DeepEP affronta direttamente queste sfide, fornendo una libreria specializzata che ottimizza la comunicazione tra gli esperti, facilitando così l’implementazione e la scalabilità dei modelli MoE.
DeepEP rappresenta il secondo di cinque repository open source che DeepSeek prevede di rilasciare durante la sua Open Source Week. Il giorno precedente, l’azienda ha introdotto FlashMLA, un kernel di decodifica ottimizzato per GPU Hopper, progettato per elaborare sequenze di lunghezza variabile e attualmente in produzione. Questo impegno verso la trasparenza e la condivisione delle tecnologie ha ricevuto elogi dalla comunità tecnologica globale, evidenziando la dedizione di DeepSeek nel promuovere l’innovazione collaborativa nel campo dell’intelligenza artificiale.
Per gli sviluppatori e i ricercatori interessati, DeepSeek fornisce una documentazione tecnica dettagliata e istruzioni per l’installazione e la configurazione di DeepEP sul proprio repository GitHub. Questo rilascio open source offre alla comunità l’opportunità di contribuire, migliorare e adattare la libreria alle proprie esigenze specifiche, accelerando ulteriormente l’avanzamento dei modelli Mixture of Experts e delle applicazioni correlate.