當人們認為DeepSeek 開源周已經結束,剛剛DeepSeek 又掏出了One More Thing ,首次披露了其模型推理系統的成本利潤率:545%,這一驚人數字背後是一系列精心設計的技術最佳化。
DeepSeek 在保證服務品質的同時,實現了極高的成本效益:
DeepSeek-V3/R1 推理系統面臨兩大挑戰:如何提高吞吐量和如何降低延遲。
他們採用了大規模跨節點專家平行(Expert Parallelism/EP)技術。
DeepSeek-V3/R1 採用了MoE(混合專家)架構,每層有256 個專家,但每個token 只啟動其中8 個。這種高度稀疏的結構需要透過專家平行來提高效率:
專家平行就像是把不同特長的廚師分散到多個廚房(GPU):
1. 提高吞吐量:就像餐廳一次接待更多顧客(增大batch size)。當廚房裡同時處理許多訂單時,廚師們可以更有效率地工作,不會有空閒時間,爐灶和切菜台都能充分利用。
2. 降低延遲:每個廚房只需要專注幾種特色菜(每個GPU只計算少量專家),廚師不需要來回切換不同菜系,也不用頻繁更換工具和食材,做飯速度自然更快。
DeepSeek 針對不同場景採用了不同的平行策略:
為了提高效率DeepSeek 還採用了雙批次重疊處理負載平衡策略
雙批次重疊處理:就像廚師一邊炒著這桌的菜,一邊準備下一桌的食材。當一批訂單在烹飪時,另一批訂單的食材可以同時在配送中,這樣廚房永遠不會空閒。
負載平衡策略:
正因為這些技術最佳化,DeepSeek 即使在硬體受限的情況下,也能實現出色的推理性能。
卡住它的地方,反而變成了它的創新。
附DeepSeek 官方原文🔗
https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA
過去一周,DeepSeek 上演了「開源五連擊」。
覆蓋計算、通訊、儲存、演算法與模型的協同創新,中國AI 力量正在用開源精神,把曾經需要天價算力的技術,變得人人可用。 (APPSO)