【DeepSeek】榨乾每一塊GPU！ DeepSeek 開源第二天，送上降本增效神器

2025/02/25

•

運算資源分配能力再上一層樓

隨著AI 模型規模的不斷擴大，從數十億參數到數萬億參數，高效的通訊將成為關鍵瓶頸。 DeepSeek 這次帶來的DeepEP ，主打低延遲內核，其支援FP8 的特性特別適合資源受限或即時性要求高的場景。

特別是在處理MoE 分派和組合的通訊模式上，DeepEP 針對高吞吐量和低延遲的GPU 內核，專門優化了MoE 模型中資料路由和輸出的整合過程。

優化之後的MoE 模型的通訊性能，支援低精度操作（如FP8），並提供了針對非對稱域頻寬轉送的核心。這使得在分散式GPU 環境中，MoE 模型的訓練和推理更加高效和可擴展，尤其是在多節點叢集中，能夠顯著降低通訊開銷並提高整體效能。

MoE “混合專家”，就是讓AI 模型裡匯集了不同的專家，負責不同的任務。更形像一點說，一個超大型AI 模型就像班級大掃除時的值日團隊，每個同學要幹的活不同，有人擦玻璃，有人掃地，有人搬桌子，等等等等。

但現實中總有人動作快，有人動作慢。桌子沒搬好，去幫忙拖地；玻璃先擦了，又會有灰塵落在地上。互相協調的過程不通暢，會導致效率低落。

為了解決這種協作卡頓的問題，就需要有一個高效率且智慧的分工計畫。就像班主任把值日生分成不同小組，讓擦玻璃快的同學專注擦玻璃，掃地的同學專注掃地，大家各司其職不互相拖後腿，並且及時觀察誰的活兒提前乾完了，誰的工作量超了。

這就是「專家小組分工」group-limited gating：不讓擦玻璃的同學被迫掃地，從根源減少人力資源浪費。

而在大模型裡，這就是不讓運算資源浪費。 DeepEP 能根據任務量動態調節GPU 的運算資源（SM 數量控制）。任務多的時候，就讓GPU 裡更多計算單元一起工作；任務少的時候自動減少功耗，既省電又不耽誤效率，特別適合需要快速處理海量資料的場景。

「降本增效」，是這次DeepEP 送出的一份大禮。

高速通道+無縫轉乘，數據秒達

除了資源分配，AI 模型裡的「專家」，也就是電腦裡的GPU 晶片，需要頻繁傳遞資料。資料傳遞慢會導致GPU 算完一波任務後「乾瞪眼」。

DeepEP 的跨域頻寬優化，相當於為GPU 配了專屬直升機送貨，把等待時間進一步壓縮，自然能榨出更多算力。

還是回到剛才班級大掃除的例子，普通的GPU 之間傳輸資料慢、互相等，就好像擦玻璃的同學需要水桶，但桶在掃地的同學手裡，只能等對方用完再傳，中間浪費時間。甚至要去隔壁班借，得穿過走廊、爬樓梯，還可能被其他班級的人堵住。

在資料傳輸上，也會出現類似的問題。而DeepEP 的內核，優化了非對稱域頻寬轉送（如NVLink 到RDMA），這使得它特別適合現代高效能運算（HPC）環境中的多節點分散式訓練。

同一伺服器內GPU 用NVLink，傳輸速度150GB/s，幾乎零等待。跨伺服器用RDMA 網絡，速度蹭蹭加快。還有無縫頻寬轉發，避免資料堆積或遺失。

如果說傳統的AI 訓練中，GPU 跑了10 小時，4 小時在等資料、等同步，實際工作時間只有6 小時。那麼DeepEP，能夠把等待時間壓縮到1 小時，GPU 幹活9 小時，相當於多了3 小時算力，真正「榨乾」每一塊GPU。

這對於許多應用場景，尤其是依賴MoE 架構的大型語言模型，都有非常大的價值。DeepEP 可以顯著提升這些模型的訓練和推理效率，適用於自然語言處理任務，如翻譯、摘要產生和問答系統。

在程式碼產生領域也有應用，DeepEP 的高效通訊可以加速這些模型的開發和部署，特別是在處理複雜程式設計任務時。

甚至在推薦系統中，MoE 可以讓不同專家處理不同使用者偏好，DeepEP 的最佳化可以提高系統在分散式環境中的效能，適用於電商平台或媒體串流服務。

「降本增效」的關鍵大招，DeepSeek都傾囊相授了，真· open ai。（APPSO）