當人們認為DeepSeek 開源周已經結束,剛剛DeepSeek 又掏出了One More Thing ,首次披露了其模型推理系統的成本利潤率:545%,這一驚人數字背後是一系列精心設計的技術最佳化。
DeepSeek 在保證服務品質的同時,實現了極高的成本效益:
- 硬體組態:所有服務使用H800 GPU,維持與訓練一致的FP8/BF16精度
- 動態資源調度:根據白天/夜間負荷差異動態調整節點數量,最大化資源利用率
- 成本資料:24 小時內平均使用226.75 個節點(每節點8個H800),成本約$87,072/天
- 吞吐能力:每台H800的prefill 吞吐約73.7k tokens/s,decode 吞吐約14.8k tokens/s
- 利潤率:以DeepSeek R1 定價計算,理論日收入$562,027,成本利潤率545%
DeepSeek-V3/R1 推理系統面臨兩大挑戰:如何提高吞吐量和如何降低延遲。
他們採用了大規模跨節點專家平行(Expert Parallelism/EP)技術。
DeepSeek-V3/R1 採用了MoE(混合專家)架構,每層有256 個專家,但每個token 只啟動其中8 個。這種高度稀疏的結構需要透過專家平行來提高效率:
專家平行就像是把不同特長的廚師分散到多個廚房(GPU):
1. 提高吞吐量:就像餐廳一次接待更多顧客(增大batch size)。當廚房裡同時處理許多訂單時,廚師們可以更有效率地工作,不會有空閒時間,爐灶和切菜台都能充分利用。
2. 降低延遲:每個廚房只需要專注幾種特色菜(每個GPU只計算少量專家),廚師不需要來回切換不同菜系,也不用頻繁更換工具和食材,做飯速度自然更快。
DeepSeek 針對不同場景採用了不同的平行策略:
- 準備階段(Prefill):類似於餐前準備,需要4 個分店協作,每個廚房有9+1 位廚師
- 出餐階段(Decode):類似快速出餐,需要18 個分店協作,每個廚房有2+1位廚師
為了提高效率DeepSeek 還採用了雙批次重疊處理負載平衡策略
雙批次重疊處理:就像廚師一邊炒著這桌的菜,一邊準備下一桌的食材。當一批訂單在烹飪時,另一批訂單的食材可以同時在配送中,這樣廚房永遠不會空閒。
負載平衡策略:
- 確保每個廚房處理的訂單數量和複雜度相近
- 合理分配熱門菜色的廚師數量,避免某些特色菜(熱門專家)導致部分廚房超負荷
- 動態調整各分店的顧客分配,使得所有廚師的工作量和食材配送量儘可能平衡
正因為這些技術最佳化,DeepSeek 即使在硬體受限的情況下,也能實現出色的推理性能。
卡住它的地方,反而變成了它的創新。
附DeepSeek 官方原文🔗
https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA
過去一周,DeepSeek 上演了「開源五連擊」。
覆蓋計算、通訊、儲存、演算法與模型的協同創新,中國AI 力量正在用開源精神,把曾經需要天價算力的技術,變得人人可用。 (APPSO)
