剛剛，DeepSeek開源週第二彈發布，第一個用於MoE模型訓練和推理的開源EP通信庫，發布不到一小時，GitHub Star數已上千。

DeepEP是為混合專家（MoE）和專家並行（EP）量身定制的通訊庫，其提供高吞吐量且低延遲的全對全GPU內核，這些內核也被稱為MoE調度與合併。

高效能：支援用於節點內和節點間通訊的NVLink和RDMA，以及用於非對稱域頻寬轉送的最佳化核心；

延遲敏感推理：提供使用純RDMA的低延遲內核，以最大限度地減少推理解碼的延遲；

通訊-運算重疊：引進基於鉤子的方法，不會佔用任何串流多處理器（SM）資源；

自適應路由和流量隔離：支援低延遲核心自適應路由，支援虛擬通道流量隔離。

其中，為了與DeepSeek-V3論文中提出的群組限制閘控演算法（group-limited gating algorithm）保持一致，DeepEP提供了一組針對非對稱域頻寬轉送進行最佳化的內核，例如將資料從NVLink域轉送到RDMA域。這些核心能夠實現高吞吐量，使其既適用於訓練任務，也適用於推理預填任務。此外，它們還支援串流多處理器（SM）數量控制。

對於對延遲敏感的推理解碼任務，DeepEP包含了一組採用RDMA技術的低延遲內核，以最大程度地減少延遲。該程式庫還引入了一種基於鉤子的通訊與運算重疊方法，這種方法不會佔用任何串流多處理器（SM）資源。

DeepSeek指出，DeepEP的實作可能與DeepSeek-V3論文中略有不同。

GitHub網址：https://github.com/deepseek-ai/DeepEP

在H800（NVLink的最大頻寬約為160 GB/s）上測試常規內核，每台設備都連接到一塊CX7 InfiniBand 400 Gb/s的RDMA網卡（最大頻寬約為50 GB/s），並遵循DeepSeek-V3/R1預訓練設定（每台設備（每台）使用BF16格式進行合併）。

在H800上測試低延遲內核，每台H800都連接到一塊CX7 InfiniBand 400 Gb/s的RDMA網卡（最大頻寬約為50 GB/s），遵循DeepSeek-V3/R1的典型生產環境設定（每批128個Tokens，7168個隱藏層單元，BFDFP），前批次128個進行調度格式，7168個整合層單元。

DeepSeek發佈的推文一小時瀏覽量高達12萬，留言區下方開發者直接進入誇誇模式：

「DeepSeek在MoE模型方面所實現的優化程度頗高，而MoE模型因其規模和複雜性而向來極具挑戰性。DeepEP能夠借助像NVLink和RDMA這類尖端硬件，如此精準地處理相關任務，並且還支持FP8格式，這著實令人驚嘆。”

“對NVLink和RDMA的支持，為大規模的MoE模型帶來了變革性的影響。看來DeepSeek又一次突破了AI基礎設施的極限。”

還有人直接做了表情包：“跟著鯨魚找到魚。”

結論：深度探索開源宇宙  DeepSeek還有三彈重磅發布

從飛GPU推理速度的FlashMLA到開源EP通訊庫，DeepSeek開源週第二大重磅發布再次點燃AI圈的熱情。本週後續，DeepSeek也將開源三個程式庫，或許會與AI演算法優化、模型輕量化、應用場景拓展等相關，涵蓋多個關鍵領域。

期待接下來的三場科技盛宴，向開源者致敬。（智東西）

DeepSeek OpenSourceWeek 的第二天，發布專家並行通訊庫DeepEP：首個面向MoE模型的開源EP通訊庫，支援實現了混合專家模型訓練推理的全端優化！感覺繼續深度綁定老黃的GPU，又和老黃對著乾😁

✅ 高效優化的All-to-All 通訊：  DeepEP 提供了高性能、低延遲的GPU 集群內和集群間all-to-all 通信內核，這正是MoE 模型中專家路由和組合的關鍵所在。 你可以把它理解為MoE 模型資料高速公路的升級版！

✅ 叢集內(Intranode) 與叢集間(Internode) 全面支援： 無論是單機多卡，或是多機多卡，DeepEP 都能完美駕馭。 它充分利用 NVLink 和 RDMA 等高速互聯技術，最大化通訊頻寬

✅ 訓練與推理預填(Prefilling) 的高效能內核： 對於模型訓練與推理預填階段，DeepEP 提供了高吞吐量的內核，保證資料傳輸速度，加速模型迭代和部署

✅ 推理解碼(Decoding) 的低延遲內核： 針對對延遲敏感的推理解碼場景，DeepEP 也準備了低延遲內核，採用純RDMA 通信，最大限度減少延遲，讓你的模型響應更快！

✅ 原生FP8 精確度支援： 跟上前緣技術，DeepEP 原生支援FP8 低精度運算，進一步提升運算效率，節省顯存

✅ 靈活的GPU 資源控制，實現計算-通信重疊：  DeepEP 支援精細化的SM (Streaming Multiprocessors) 數量控制，並引入了基於Hook 的通信-計算重疊方法，巧妙地在後台進行通信，不佔用寶貴的GPU 計算資源！ 這意味著什麼？ 你的GPU 可以更專注於運算，通訊交給DeepEP 在幕後默默加速！

DeepSeek 官方給出了DeepEP 在H800 伺服器上的實測數據，效果驚艷！

正常核心效能(NVLink + RDMA Forwarding)：

數據清晰地表明，DeepEP 在各種場景下都能提供出色的通訊效能！ 無論是追求高吞吐量還是低延遲，DeepEP 都能滿足你的需求

DeepEP 的使用也非常友好，官方提供了詳細的 快速開始(Quick Start) 指南和豐富的程式碼範例。 你只需要：

安裝完成後，你就可以在你的Python 專案中輕鬆匯入 deep_ep 庫，開始享受DeepEP 帶來的加速體驗！

github：https://github.com/deepseek-ai/DeepEP

網路配置和流量隔離，專業級的考量

DeepEP 充分考慮了實際應用場景中的網路環境，支援 InfiniBand 網絡，並且理論上相容於 RoCE (RDMA over Converged Ethernet)。 同時，DeepEP 也支援 Virtual Lanes (VL) 流量隔離，你可以根據不同類型的工作負載(普通核心、低延遲核心、其他負載) 分配不同的虛擬通道，避免互相干擾，確保通訊質量

自適應路由和擁塞控制，更智慧的網路管理！

DeepEP 也支援 自適應路由(Adaptive Routing) 功能(目前僅低延遲核心支援)，可以更均勻地分配網路流量，避免網路擁塞。 當然，DeepEP 也考慮了 擁塞控制(Congestion Control)，雖然目前預設為停用，但在未來的版本中可能會根據實際情況進行調整和最佳化

DeepEP 程式碼庫基於 MIT License 開源，非常友善！ 除了部分引用NVSHMEM 的程式碼外，你可以自由地使用、修改和分發DeepEP 程式碼

參考：https://github.com/deepseek-ai/DeepEP

隨著AI 模型規模的不斷擴大，從數十億參數到數萬億參數，高效的通訊將成為關鍵瓶頸。 DeepSeek 這次帶來的DeepEP ，主打低延遲內核，其支援FP8 的特性特別適合資源受限或即時性要求高的場景。

特別是在處理MoE 分派和組合的通訊模式上，DeepEP 針對高吞吐量和低延遲的GPU 內核，專門優化了MoE 模型中資料路由和輸出的整合過程。

優化之後的MoE 模型的通訊性能，支援低精度操作（如FP8），並提供了針對非對稱域頻寬轉送的核心。這使得在分散式GPU 環境中，MoE 模型的訓練和推理更加高效和可擴展，尤其是在多節點叢集中，能夠顯著降低通訊開銷並提高整體效能。

MoE “混合專家”，就是讓AI 模型裡匯集了不同的專家，負責不同的任務。更形像一點說，一個超大型AI 模型就像班級大掃除時的值日團隊，每個同學要幹的活不同，有人擦玻璃，有人掃地，有人搬桌子，等等等等。

但現實中總有人動作快，有人動作慢。桌子沒搬好，去幫忙拖地；玻璃先擦了，又會有灰塵落在地上。互相協調的過程不通暢，會導致效率低落。

為了解決這種協作卡頓的問題，就需要有一個高效率且智慧的分工計畫。就像班主任把值日生分成不同小組，讓擦玻璃快的同學專注擦玻璃，掃地的同學專注掃地，大家各司其職不互相拖後腿，並且及時觀察誰的活兒提前乾完了，誰的工作量超了。

這就是「專家小組分工」group-limited gating：不讓擦玻璃的同學被迫掃地，從根源減少人力資源浪費。

而在大模型裡，這就是不讓運算資源浪費。 DeepEP 能根據任務量動態調節GPU 的運算資源（SM 數量控制）。任務多的時候，就讓GPU 裡更多計算單元一起工作；任務少的時候自動減少功耗，既省電又不耽誤效率，特別適合需要快速處理海量資料的場景。

「降本增效」，是這次DeepEP 送出的一份大禮。

除了資源分配，AI 模型裡的「專家」，也就是電腦裡的GPU 晶片，需要頻繁傳遞資料。資料傳遞慢會導致GPU 算完一波任務後「乾瞪眼」。

DeepEP 的跨域頻寬優化，相當於為GPU 配了專屬直升機送貨，把等待時間進一步壓縮，自然能榨出更多算力。

還是回到剛才班級大掃除的例子，普通的GPU 之間傳輸資料慢、互相等，就好像擦玻璃的同學需要水桶，但桶在掃地的同學手裡，只能等對方用完再傳，中間浪費時間。甚至要去隔壁班借，得穿過走廊、爬樓梯，還可能被其他班級的人堵住。

在資料傳輸上，也會出現類似的問題。而DeepEP 的內核，優化了非對稱域頻寬轉送（如NVLink 到RDMA），這使得它特別適合現代高效能運算（HPC）環境中的多節點分散式訓練。

同一伺服器內GPU 用NVLink，傳輸速度150GB/s，幾乎零等待。跨伺服器用RDMA 網絡，速度蹭蹭加快。還有無縫頻寬轉發，避免資料堆積或遺失。

如果說傳統的AI 訓練中，GPU 跑了10 小時，4 小時在等資料、等同步，實際工作時間只有6 小時。那麼DeepEP，能夠把等待時間壓縮到1 小時，GPU 幹活9 小時，相當於多了3 小時算力，真正「榨乾」每一塊GPU。

這對於許多應用場景，尤其是依賴MoE 架構的大型語言模型，都有非常大的價值。DeepEP 可以顯著提升這些模型的訓練和推理效率，適用於自然語言處理任務，如翻譯、摘要產生和問答系統。

在程式碼產生領域也有應用，DeepEP 的高效通訊可以加速這些模型的開發和部署，特別是在處理複雜程式設計任務時。

甚至在推薦系統中，MoE 可以讓不同專家處理不同使用者偏好，DeepEP 的最佳化可以提高系統在分散式環境中的效能，適用於電商平台或媒體串流服務。

「降本增效」的關鍵大招，DeepSeek都傾囊相授了，真· open ai。（APPSO）

好消息如約而至，DeepSeek開源周第二彈來了！

DeepEP， 第一個用於MoE模型訓練和推理的開源EP通訊庫（expert parallelism，專家並行）。

它提供高吞吐量和低延遲的all-to-all GPU內核，也稱為MoE dispatch和combine。

該庫還支援低精度運算，包括FP8。

同時照慣例，開源協定用的是最寬鬆的MIT。

今天的DeepSeek選擇了先在GitHub上線，然後再在官推發上新通知。

DeepSeek官推對DeepEP進行了要素提煉：

NVLink和RDMA的節點內和節點間支持

用於訓練和推理預填充的高吞吐量內核

靈活的GPU資源控制，用於計算通訊重疊

我們先來看看性能方面的兩個重點。

（註：DeepEP中的實作可能與DeepSeek-V3論文有一些細微的差異）

為了與DeepSeek-V3論文中提出的群組限制閘控演算法保持一致，DeepEP提供了一組針對非對稱域頻寬轉送進行了最佳化的內核，例如將資料從NVLink域轉送到RDMA域。

這些核心提供高吞吐量，使其適用於訓練和推理預填任務。

此外，它們還支援SM （Streaming Multiprocessors）號碼控制。

DeepEP團隊在H800 （~160 GB/s NVLink最大頻寬）上測試普通內核，每個內核都連接到CX7 InfiniBand 400 Gb/s RDMA網卡（~50 GB/s 最大頻寬）。

且遵循DeepSeek-V3/R1預訓練設定（每批4096個tokens，隱藏7168個，前4組，前8個專家，FP8調度和BF16組合）。

針對延遲敏感型推理解碼場景，DeepEP包括一組具有純RDMA的低延遲內核，以最大限度地減少延遲。

該函式庫也引進了一種基於hook的通訊運算重疊方法，不佔用任何SM資源。

DeepEP團隊在H800上測試低延遲內核，每個內核都連接到CX7 InfiniBand 400 Gb/s RDMA 網路卡（~50 GB/s 最大頻寬）。

且遵循典型的DeepSeek-V3/R1生產設定（每批128個tokens，7168個隱藏，前8個專家，FP8調度和BF16組合）。

暫不支援消費級顯示卡，建議使用最佳自動優化配置

在GitHub上，DeepSeek團隊明確寫出了DeepEP的使用方式，涵蓋各種適配環境、設定要求等。

首先是DeepEP需要的軟硬體環境版本：

Hopper GPUs（以後可能支援更多架構或裝置）

其次，使用DeepEP需要下載並安裝團隊修改後的NVSHMEM相依性（有關說明，請參閱DeepSeek團隊的NVSHMEM安裝指南）。

然後，將deep_ep 匯入到Python專案中，就開始「盡情享受吧」！

至於網路配置方面，DeepEP已通過InfiniBand網路的全面測試。

但理論上，它也與基於融合乙太網路的RDMA （RoCE）相容。

其中，InfiniBand透過虛擬通道（Virtual Lanes， VL）支援流量隔離。

為了防止不同類型流量之間的干擾，DeepEP圖男隊建議將工作負載隔離到不同的虛擬通道中，如下所示：

對於DeepEP，開發者可以透過設定NVSHMEM_IB_SL 環境變數來控制虛擬通道分配。

值得注意的是，自適應路由是InfiniBand交換器提供的一項進階路由功能，可在多個路徑之間均勻分配流量。

目前，低延遲核心支援Adaptive Routing，而普通核心不支援（可能很快就會添加支援）。

為普通的節點間核心啟用自適應路由，可能會導致死鎖或資料損壞問題。

對於低延遲內核，啟用Adaptive routing可以完全消除路由衝突導致的網路擁塞，但也會帶來額外的延遲。

DeepEP團隊建議使用以下配置以獲得最佳效能：

在網路負載較重的環境中啟用自適應路由

在網路負載較輕的環境中使用靜態路由

BTW，DeepEP已禁用擁塞控制（Congestion control），因為團隊在生產環境中沒有觀察到明顯的擁塞。

最後一點來自DeepEP團隊的叮嚀——

為了獲得極致效能，團隊發現並使用了一個out-of-doc PTX指令ld.global.nc.L1::no_allocate.L2::256B 。

此指令將導致未定義的行為：使用非相干只讀PTX修飾詞.nc 存取易失性GPU記憶體。

但是，正確性已經過測試，以確保。 L1：：no_allocate 在Hopper 架構上，效能會好得多。

如果您發現核心在某些其他平台上無法執行，您可以新增至DISABLE_AGGRESSIVE_PTX_INSTRS=1 setup.py並停用此功能，或提交問題。

為了在叢集上獲得更好的效能，DeepSeek建議運行所有測試並使用最佳的自動最佳化配置。

因為預設配置在DeepSeek的內部叢集上進行了最佳化～

DeepSeek為了這次開源周專門在GitHub上新開了一個函式庫：

https://github.com/deepseek-ai/open-infra-index

根據這兩天的發布，猜測本次開源周發佈內容maybe均與AI Infra有關。

不過一個不那麼好的消息，DeepSeek的開源周更新時間，好像不太穩定。

昨天是上午9:34，今天是10:24，明天…（量子位元）

DeepEP GitHub：https://github.com/deepseek-ai/DeepEP

#EP 你可以在這裡找到鉅亨號中所有使用「EP」為關鍵字所發布的內容