【新智元導讀】DeepSeek公開推理系統架構,成本利潤率可達545%!明天還有更大驚喜嗎?
就在剛剛,當大家以為開源周已經結束的時候,真「Open AI」DeepSeek帶來了壓軸大戲——DeepSeek-V3/R1推理系統,全面揭秘!
吞吐量和延遲最佳化:
線上服務性能資料:
DeepSeek表示,希望本周分享的技術見解能為開源社區帶來價值,共同推進通用人工智慧的發展目標。
看到這裡,網友都驚了!
所以,基本免費的DeepSeek成本利潤率高達545%,而堪稱世界最貴的OpenAI卻在虧損?
系統設計原則
簡單來說,DeepSeek-V3/R1推理服務的最佳化目標是:提高吞吐量和降低延遲。
為了實現這兩個目標,團隊採用了跨節點專家平行(Expert Parallelism,EP)技術。
首先,EP顯著擴大了批處理規模,提高了GPU矩陣計算效率,從而提升吞吐量。
其次,EP將專家模組分佈在不同GPU上,每個GPU僅處理少量專家模組(減少記憶體訪問需求),從而降低延遲。
然而,EP也增加了系統複雜度,主要體現在兩個方面:
為此,DeepSeek通過以下方式應對這些挑戰:
DeepSeek-V3/R1中包含大量專家模組:每層256個專家中僅啟動8個,所以模型的高稀疏性特點要求採用極大的整體批處理規模。
這樣才能確保每個專家模組獲得足夠的批處理量,從而實現更高的吞吐量和更低的延遲。因此,大規模跨節點EP技術成為必不可少的選擇。
DeepSeek採用了預填充-解碼解耦架構(prefill-decode disaggregation architecture),在預填充和解碼階段分別採用不同程度的平行策略:
大規模跨節點EP技術引入了顯著的通訊開銷。
為了緩解這一問題,採用dual-batch重疊策略,將同一批請求分割為兩個microbatch,以隱藏通訊成本並提高整體吞吐量。
在預填充階段,兩個microbatch交替執行,一個microbatch的通訊開銷被另一個microbatch的計算過程所掩蓋。
在解碼階段,各執行階段的時長存在不平衡現象。
為此,需要將注意力層細分為兩個步驟,並採用五階段流水線(5-stage pipeline)技術,實現計算與通訊的無縫重疊。
大規模平行(包括資料平行DP和專家平行EP)帶來了一個關鍵挑戰:如果單個GPU在計算或通訊方面過載,它將成為整個系統的性能瓶頸,導致系統速度下降,同時造成其他GPU資源閒置。
為了最大限度地提高資源利用率,DeepSeek的目標是在所有GPU上實現計算和通訊負載的平衡。
1. 預填充階段負載平衡器
2. 解碼階段負載平衡器
3. 專家平行負載平衡器
DeepSeek線上服務統計資料
所有DeepSeek-V3/R1推理服務均在H800 GPU上運行,精度與訓練保持一致。
具體而言,矩陣乘法和分發傳輸採用與訓練一致的FP8格式,而核心MLA計算和組合傳輸使用BF16格式,確保最佳的服務性能。
此外,由於白天服務負載高而夜間負載低,團隊採取了一種創新的機制:
在白天高峰時段,所有節點都部署推理服務;
在夜間低負載時段,減少推理節點並將資源分配給研究和訓練。
在過去24小時內(02月27日中午12:00至02月28日中午12:00),V3和R1推理服務的合計峰值節點佔用達到278個,平均佔用226.75個節點(每個節點包含8個H800 GPU)。
假設租賃一個H800 GPU的成本為每小時2美元,每日總成本為87,072美元。
在24小時統計期內,V3和R1:
上述統計封包括來自網頁、APP和API的所有使用者請求。
如果所有token都按照下列DeepSeek-R1的定價計費,每日總收入將達到562,027美元,利潤率為545%。
R1定價:輸入token(快取命中)每百萬0.14美元,輸入token(快取未命中)每百萬0.55美元,輸出token每百萬2.19美元。
然而,實際收入大幅低於此數字,原因如下:
(新智元)