【DeepSeek】全面開源V3/R1推理系統!成本利潤率高達545%


【新智元導讀】DeepSeek公開推理系統架構,成本利潤率可達545%!明天還有更大驚喜嗎?

就在剛剛,當大家以為開源周已經結束的時候,真「Open AI」DeepSeek帶來了壓軸大戲——DeepSeek-V3/R1推理系統,全面揭秘!

吞吐量和延遲最佳化:

  • 跨節點高效平行(EP)驅動的批處理擴展
  • 計算與通訊平行處理
  • 智能負載平衡

線上服務性能資料:

  • 每個H800節點每秒處理73,700/14,800輸入/輸出token
  • 成本利潤率高達545%

DeepSeek表示,希望本周分享的技術見解能為開源社區帶來價值,共同推進通用人工智慧的發展目標。


看到這裡,網友都驚了!

所以,基本免費的DeepSeek成本利潤率高達545%,而堪稱世界最貴的OpenAI卻在虧損?


系統設計原則

簡單來說,DeepSeek-V3/R1推理服務的最佳化目標是:提高吞吐量和降低延遲。

為了實現這兩個目標,團隊採用了跨節點專家平行(Expert Parallelism,EP)技術。

首先,EP顯著擴大了批處理規模,提高了GPU矩陣計算效率,從而提升吞吐量。

其次,EP將專家模組分佈在不同GPU上,每個GPU僅處理少量專家模組(減少記憶體訪問需求),從而降低延遲。

然而,EP也增加了系統複雜度,主要體現在兩個方面:

  1. EP引入了跨節點通訊。為了最佳化吞吐量,需要設計合理的計算工作流,使通訊過程與計算過程能夠平行進行。
  2. EP涉及多個節點,因此必然需要資料平行(Data Parallelism,DP),並要求在不同DP實例之間進行負載平衡。

為此,DeepSeek通過以下方式應對這些挑戰:

  • 利用EP技術擴展批處理規模
  • 將通訊延遲與計算過程重疊處理
  • 實現有效的負載平衡

大規模跨節點專家平行(EP)

DeepSeek-V3/R1中包含大量專家模組:每層256個專家中僅啟動8個,所以模型的高稀疏性特點要求採用極大的整體批處理規模。

這樣才能確保每個專家模組獲得足夠的批處理量,從而實現更高的吞吐量和更低的延遲。因此,大規模跨節點EP技術成為必不可少的選擇。

DeepSeek採用了預填充-解碼解耦架構(prefill-decode disaggregation architecture),在預填充和解碼階段分別採用不同程度的平行策略:

  1. 預填充階段「路由專家EP32,MLA/共享專家DP32」:每個部署單元跨越4個節點,組態32個冗餘路由專家,每個GPU負責處理9個路由專家和1個共享專家。
  2. 解碼階段「路由專家EP144,MLA/共享專家DP144」:每個部署單元跨越18個節點,組態32個冗餘路由專家,每個GPU管理2個路由專家和1個共享專家。

計算-通訊重疊處理

大規模跨節點EP技術引入了顯著的通訊開銷。

為了緩解這一問題,採用dual-batch重疊策略,將同一批請求分割為兩個microbatch,以隱藏通訊成本並提高整體吞吐量。

在預填充階段,兩個microbatch交替執行,一個microbatch的通訊開銷被另一個microbatch的計算過程所掩蓋。


在解碼階段,各執行階段的時長存在不平衡現象。

為此,需要將注意力層細分為兩個步驟,並採用五階段流水線(5-stage pipeline)技術,實現計算與通訊的無縫重疊。


實現最優負載平衡

大規模平行(包括資料平行DP和專家平行EP)帶來了一個關鍵挑戰:如果單個GPU在計算或通訊方面過載,它將成為整個系統的性能瓶頸,導致系統速度下降,同時造成其他GPU資源閒置。

為了最大限度地提高資源利用率,DeepSeek的目標是在所有GPU上實現計算和通訊負載的平衡。

1. 預填充階段負載平衡器

  • 關鍵問題:不同資料平行實例之間的請求數量和序列長度差異導致核心注意力計算和分發傳送負載不平衡。
  • 最佳化目標:
    • 平衡各GPU之間的核心注意力計算(核心注意力計算負載平衡);
    • 均衡每個GPU處理的輸入token數量(分發傳送負載平衡),避免特定GPU出現處理延遲。

2. 解碼階段負載平衡器

  • 關鍵問題:資料平行實例之間請求數量和序列長度不均導致核心注意力計算(與KV快取使用相關)和分發傳送負載的差異。
  • 最佳化目標:
    • 平衡各GPU之間的KV快取(KVCache)使用(核心注意力計算負載平衡);
    • 均衡每個GPU的請求處理數量(分發傳送負載平衡)。

3. 專家平行負載平衡器

  • 關鍵問題:在混合專家模型(Mixture of Experts,MoE)中,存在天然的高負載專家,導致不同GPU上的專家計算工作負載不平衡。
  • 最佳化目標:
    • 平衡每個GPU上的專家計算工作量(即最小化所有GPU中的最大分發接收負載)。

DeepSeek線上推理系統圖示


DeepSeek線上服務統計資料

所有DeepSeek-V3/R1推理服務均在H800 GPU上運行,精度與訓練保持一致。

具體而言,矩陣乘法和分發傳輸採用與訓練一致的FP8格式,而核心MLA計算和組合傳輸使用BF16格式,確保最佳的服務性能。

此外,由於白天服務負載高而夜間負載低,團隊採取了一種創新的機制:

在白天高峰時段,所有節點都部署推理服務;
在夜間低負載時段,減少推理節點並將資源分配給研究和訓練。

在過去24小時內(02月27日中午12:00至02月28日中午12:00),V3和R1推理服務的合計峰值節點佔用達到278個,平均佔用226.75個節點(每個節點包含8個H800 GPU)。

假設租賃一個H800 GPU的成本為每小時2美元,每日總成本為87,072美元。


在24小時統計期內,V3和R1:

  • 總輸入token:6080億,其中3420億token(56.3%)命中磁碟上的KV快取。
  • 總輸出token:1680億。平均輸出速度為每秒20-22個token,每個輸出token的平均KV快取長度為4,989個token。
  • 每個H800節點在預填充階段提供平均約7.37萬token/秒的輸入吞吐量(包括快取命中),或在解碼階段提供約1.48萬token/秒的輸出吞吐量。

上述統計封包括來自網頁、APP和API的所有使用者請求。

如果所有token都按照下列DeepSeek-R1的定價計費,每日總收入將達到562,027美元,利潤率為545%。

R1定價:輸入token(快取命中)每百萬0.14美元,輸入token(快取未命中)每百萬0.55美元,輸出token每百萬2.19美元。

然而,實際收入大幅低於此數字,原因如下:

  • DeepSeek-V3的定價顯著低於R1
  • 只有部分服務實現了商業化(網頁和APP訪問仍然免費)
  • 在非高峰時段自動應用夜間折扣


(新智元)