DeepSeek知乎官方帳號3月1日發表題為《DeepSeek-V3/R1推理系統概覽》的文章,全面揭曉V3/R1推理系統背後的關鍵秘密。
文章首次披露了DeepSeek的理論成本和利潤率等關鍵資訊。據介紹,假定GPU租賃成本為2美元/小時,總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入為562027美元/天,成本利潤率為545%。這一數字刷新了全球AI大模型領域的盈利天花板。
理論上DeepSeek每日淨賺474955美元(折合人民幣約346萬元)。
不過,DeepSeek官方坦言,實際上沒有這麼多收入,因為V3的定價更低,同時收費服務只佔了一部分,另外夜間還會有折扣。
文章寫道:“DeepSeek-V3/R1推理系統的最佳化目標是:更大的吞吐,更低的延遲。”為實現這兩個目標,DeepSeek的方案是使用大規模跨節點專家平行(EP),但該方案也增加了系統複雜性。文章的主要內容就是關於如何使用EP增長批次大小(batchsize)、隱藏傳輸耗時以及進行負載平衡。
另外,由於白天的服務負荷高,晚上的服務負荷低,因此DeepSeek實現了一套機制,在白天負荷高的時候,用所有節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練。
值得一提的是,DeepSeek開源周已正式收官,此前2月21日午間,DeepSeek曾宣佈,將開源5個程式碼庫,以完全透明的方式與全球開發者社區分享研究進展,每日都有新內容解鎖,進一步分享新的進展,並將這一計畫定義為“Open Source Week”(開源周)。
業內人士認為,“DeepSeek開源周”的重要性已經超過了不久前OpenAI的發佈會。DeepSeek用“量大管飽”的開源有力回擊了歐美關於DeepSeek故意說低訓練成本的說法,並且證明了在訓練鏈路上存在極大的最佳化空間。
對於DeepSeek的技術創新和商業潛力,分析師紛紛發表觀點。
中金公司研報認為,DeepSeek推理降本推動了推理需求的增長,短期內大量使用者端部署的需求增長會對推理硬體市場增長構成直接拉動,下游應用生態的想像空間也被進一步打開。
平安證券此前研報認為,DeepSeek通過演算法創新提高了算力利用率,在保證模型性能的同時降低了訓練成本,衝擊了海外科技公司模型訓練的“堆算力”模式。短期而言,此次演算法創新引發了市場對訓練算力需求預期邊際放緩的擔憂;但長期而言,在通用人工智慧(AGI)願景的驅動和AI應用的普及下,算力需求長期增長的趨勢仍將不變,尤其是推理側的算力需求空間或進一步拓寬。
總體來看,DeepSeek-V3/R1推理系統的技術最佳化和成本利潤率分析展示了其在人工智慧領域的強大競爭力。通過大規模跨節點專家平行技術,DeepSeek不僅提升了系統性能,還實現了顯著的成本效益。 (鳳凰網財經)