【DeepSeek】又開源了,這次拉爆GPU通訊!

剛剛,DeepSeek開源週第二彈發布,第一個用於MoE模型訓練和推理的開源EP通信庫,發布不到一小時,GitHub Star數已上千。

網友:突破AI基礎設施極限。


DeepEP是為混合專家(MoE)和專家並行(EP)量身定制的通訊庫,其提供高吞吐量且低延遲的全對全GPU內核,這些內核也被稱為MoE調度與合併。


高效能:支援用於節點內和節點間通訊的NVLink和RDMA,以及用於非對稱域頻寬轉送的最佳化核心;

低精度運算:FP8支援;

延遲敏感推理:提供使用純RDMA的低延遲內核,以最大限度地減少推理解碼的延遲;

通訊-運算重疊:引進基於鉤子的方法,不會佔用任何串流多處理器(SM)資源;

自適應路由和流量隔離:支援低延遲核心自適應路由,支援虛擬通道流量隔離。

其中,為了與DeepSeek-V3論文中提出的群組限制閘控演算法(group-limited gating algorithm)保持一致,DeepEP提供了一組針對非對稱域頻寬轉送進行最佳化的內核,例如將資料從NVLink域轉送到RDMA域。這些核心能夠實現高吞吐量,使其既適用於訓練任務,也適用於推理預填任務。此外,它們還支援串流多處理器(SM)數量控制。

對於對延遲敏感的推理解碼任務,DeepEP包含了一組採用RDMA技術的低延遲內核,以最大程度地減少延遲。該程式庫還引入了一種基於鉤子的通訊與運算重疊方法,這種方法不會佔用任何串流多處理器(SM)資源。

DeepSeek指出,DeepEP的實作可能與DeepSeek-V3論文中略有不同。


GitHub網址:https://github.com/deepseek-ai/DeepEP


具體性能方面:

在H800(NVLink的最大頻寬約為160 GB/s)上測試常規內核,每台設備都連接到一塊CX7 InfiniBand 400 Gb/s的RDMA網卡(最大頻寬約為50 GB/s),並遵循DeepSeek-V3/R1預訓練設定(每台設備(每台)使用BF16格式進行合併)。


在H800上測試低延遲內核,每台H800都連接到一塊CX7 InfiniBand 400 Gb/s的RDMA網卡(最大頻寬約為50 GB/s),遵循DeepSeek-V3/R1的典型生產環境設定(每批128個Tokens,7168個隱藏層單元,BFDFP),前批次128個進行調度格式,7168個整合層單元。


快速啟動要求:

下載並安裝NVSHMEM相依性:

開發:

安裝:

網路配置:

接口和範例:

DeepSeek發佈的推文一小時瀏覽量高達12萬,留言區下方開發者直接進入誇誇模式:

「DeepSeek在MoE模型方面所實現的優化程度頗高,而MoE模型因其規模和複雜性而向來極具挑戰性。DeepEP能夠借助像NVLink和RDMA這類尖端硬件,如此精準地處理相關任務,並且還支持FP8格式,這著實令人驚嘆。”



“對NVLink和RDMA的支持,為大規模的MoE模型帶來了變革性的影響。看來DeepSeek又一次突破了AI基礎設施的極限。”


還有人直接做了表情包:“跟著鯨魚找到魚。”



結論:深度探索開源宇宙 DeepSeek還有三彈重磅發布

從飛GPU推理速度的FlashMLA到開源EP通訊庫,DeepSeek開源週第二大重磅發布再次點燃AI圈的熱情。本週後續,DeepSeek也將開源三個程式庫,或許會與AI演算法優化、模型輕量化、應用場景拓展等相關,涵蓋多個關鍵領域。

期待接下來的三場科技盛宴,向開源者致敬。(智東西)