【DeepSeek】首次揭露成本利潤率！還有大量技術細節

2025/03/01

•

當人們認為DeepSeek 開源周已經結束，剛剛DeepSeek 又掏出了One More Thing ，首次披露了其模型推理系統的成本利潤率：545%，這一驚人數字背後是一系列精心設計的技術最佳化。

DeepSeek 在保證服務品質的同時，實現了極高的成本效益：

DeepSeek-V3/R1 推理系統面臨兩大挑戰：如何提高吞吐量和如何降低延遲。

他們採用了大規模跨節點專家平行（Expert Parallelism/EP）技術。

DeepSeek-V3/R1 採用了MoE（混合專家）架構，每層有256 個專家，但每個token 只啟動其中8 個。這種高度稀疏的結構需要透過專家平行來提高效率：

專家平行就像是把不同特長的廚師分散到多個廚房（GPU）：

1. 提高吞吐量：就像餐廳一次接待更多顧客（增大batch size）。當廚房裡同時處理許多訂單時，廚師們可以更有效率地工作，不會有空閒時間，爐灶和切菜台都能充分利用。

2. 降低延遲：每個廚房只需要專注幾種特色菜（每個GPU只計算少量專家），廚師不需要來回切換不同菜系，也不用頻繁更換工具和食材，做飯速度自然更快。

DeepSeek 針對不同場景採用了不同的平行策略：

為了提高效率DeepSeek 還採用了雙批次重疊處理負載平衡策略

雙批次重疊處理：就像廚師一邊炒著這桌的菜，一邊準備下一桌的食材。當一批訂單在烹飪時，另一批訂單的食材可以同時在配送中，這樣廚房永遠不會空閒。

負載平衡策略：

正因為這些技術最佳化，DeepSeek 即使在硬體受限的情況下，也能實現出色的推理性能。

卡住它的地方，反而變成了它的創新。

附DeepSeek 官方原文🔗

https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA

過去一周，DeepSeek 上演了「開源五連擊」。

覆蓋計算、通訊、儲存、演算法與模型的協同創新，中國AI 力量正在用開源精神，把曾經需要天價算力的技術，變得人人可用。（APPSO）