【DeepSeek】首次揭露成本利潤率!還有大量技術細節

當人們認為DeepSeek 開源周已經結束,剛剛DeepSeek 又掏出了One More Thing ,首次披露了其模型推理系統的成本利潤率:545%,這一驚人數字背後是一系列精心設計的技術最佳化。

DeepSeek 在保證服務品質的同時,實現了極高的成本效益:

  • 硬體組態:所有服務使用H800 GPU,維持與訓練一致的FP8/BF16精度
  • 動態資源調度:根據白天/夜間負荷差異動態調整節點數量,最大化資源利用率
  • 成本資料:24 小時內平均使用226.75 個節點(每節點8個H800),成本約$87,072/天
  • 吞吐能力:每台H800的prefill 吞吐約73.7k tokens/s,decode 吞吐約14.8k tokens/s
  • 利潤率:以DeepSeek R1 定價計算,理論日收入$562,027,成本利潤率545%

DeepSeek-V3/R1 推理系統面臨兩大挑戰:如何提高吞吐量和如何降低延遲。

他們採用了大規模跨節點專家平行(Expert Parallelism/EP)技術。

DeepSeek-V3/R1 採用了MoE(混合專家)架構,每層有256 個專家,但每個token 只啟動其中8 個。這種高度稀疏的結構需要透過專家平行來提高效率:

專家平行就像是把不同特長的廚師分散到多個廚房(GPU):

1. 提高吞吐量:就像餐廳一次接待更多顧客(增大batch size)。當廚房裡同時處理許多訂單時,廚師們可以更有效率地工作,不會有空閒時間,爐灶和切菜台都能充分利用。

2. 降低延遲:每個廚房只需要專注幾種特色菜(每個GPU只計算少量專家),廚師不需要來回切換不同菜系,也不用頻繁更換工具和食材,做飯速度自然更快。

DeepSeek 針對不同場景採用了不同的平行策略:

  • 準備階段(Prefill):類似於餐前準備,需要4 個分店協作,每個廚房有9+1 位廚師
  • 出餐階段(Decode):類似快速出餐,需要18 個分店協作,每個廚房有2+1位廚師

為了提高效率DeepSeek 還採用了雙批次重疊處理負載平衡策略

雙批次重疊處理:就像廚師一邊炒著這桌的菜,一邊準備下一桌的食材。當一批訂單在烹飪時,另一批訂單的食材可以同時在配送中,這樣廚房永遠不會空閒。

負載平衡策略:

  • 確保每個廚房處理的訂單數量和複雜度相近
  • 合理分配熱門菜色的廚師數量,避免某些特色菜(熱門專家)導致部分廚房超負荷
  • 動態調整各分店的顧客分配,使得所有廚師的工作量和食材配送量儘可能平衡

正因為這些技術最佳化,DeepSeek 即使在硬體受限的情況下,也能實現出色的推理性能。

卡住它的地方,反而變成了它的創新。

附DeepSeek 官方原文🔗

https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA

過去一周,DeepSeek 上演了「開源五連擊」。

覆蓋計算、通訊、儲存、演算法與模型的協同創新,中國AI 力量正在用開源精神,把曾經需要天價算力的技術,變得人人可用。 (APPSO)