【DeepSeek】又開源了，這次拉爆GPU通訊！

2025/02/25

•

剛剛，DeepSeek開源週第二彈發布，第一個用於MoE模型訓練和推理的開源EP通信庫，發布不到一小時，GitHub Star數已上千。

DeepEP是為混合專家（MoE）和專家並行（EP）量身定制的通訊庫，其提供高吞吐量且低延遲的全對全GPU內核，這些內核也被稱為MoE調度與合併。

高效能：支援用於節點內和節點間通訊的NVLink和RDMA，以及用於非對稱域頻寬轉送的最佳化核心；

低精度運算：FP8支援；

延遲敏感推理：提供使用純RDMA的低延遲內核，以最大限度地減少推理解碼的延遲；

通訊-運算重疊：引進基於鉤子的方法，不會佔用任何串流多處理器（SM）資源；

自適應路由和流量隔離：支援低延遲核心自適應路由，支援虛擬通道流量隔離。

其中，為了與DeepSeek-V3論文中提出的群組限制閘控演算法（group-limited gating algorithm）保持一致，DeepEP提供了一組針對非對稱域頻寬轉送進行最佳化的內核，例如將資料從NVLink域轉送到RDMA域。這些核心能夠實現高吞吐量，使其既適用於訓練任務，也適用於推理預填任務。此外，它們還支援串流多處理器（SM）數量控制。

對於對延遲敏感的推理解碼任務，DeepEP包含了一組採用RDMA技術的低延遲內核，以最大程度地減少延遲。該程式庫還引入了一種基於鉤子的通訊與運算重疊方法，這種方法不會佔用任何串流多處理器（SM）資源。

DeepSeek指出，DeepEP的實作可能與DeepSeek-V3論文中略有不同。

GitHub網址：https://github.com/deepseek-ai/DeepEP

具體性能方面：

在H800（NVLink的最大頻寬約為160 GB/s）上測試常規內核，每台設備都連接到一塊CX7 InfiniBand 400 Gb/s的RDMA網卡（最大頻寬約為50 GB/s），並遵循DeepSeek-V3/R1預訓練設定（每台設備（每台）使用BF16格式進行合併）。

在H800上測試低延遲內核，每台H800都連接到一塊CX7 InfiniBand 400 Gb/s的RDMA網卡（最大頻寬約為50 GB/s），遵循DeepSeek-V3/R1的典型生產環境設定（每批128個Tokens，7168個隱藏層單元，BFDFP），前批次128個進行調度格式，7168個整合層單元。