梁文鋒新論文!DeepSeek降本秘笈公開,突破算力瓶頸有六招

揭秘DeepSeek如何拿2000塊顯示卡幹別人2萬塊的活。

智東西5月15日消息,昨天下午,DeepSeek團隊發布新論文,以DeepSeek-V3為代表,深入解讀DeepSeek在硬體架構和模型設計方面的關鍵創新,為實現具有成本效益的大規模訓練和推理提供想法。

DeepSeek創辦人兼CEO梁文鋒這次也出現在了合著名單之中,出現在倒數第五位(按姓名首字母排序)。論文署名通訊地址為“中國北京”,可以推測論文研究大概率為DeepSeek北京團隊主導。


大語言模型的快速擴張正暴露出硬體架構的三大瓶頸:記憶體容量不足、運算效率低、互連頻寬受限。而DeepSeek-V3卻實現了令人矚目的效率突破——

僅在2048年H800 GPU上進行訓練,FP8訓練的準確率損失小於0.25%,每token的訓練成本250 GFLOPS,而405B密集模型的訓練成本為2.45 TFLOPS ,KV緩存低至每個token 70 KB(僅為Llama-3.1緩存的1/7)…

這些突破性數據背後,究竟隱藏著什麼樣的技術革新?

其中的模型架構和AI基礎設施關鍵創新包括:用於提高記憶體效率的多頭潛在註意力(MLA)、用於優化計算-通訊權衡的混合專家(MoE)架構、用於釋放硬體功能全部潛力的FP8混合精度訓練,以及用於最大限度地減少集群級網路開銷的多平面網路拓撲。

▲DeepSeek-V3基本架構

DeepSeek的論文中驗證了,有效的軟硬體協同設計可以實現大型模型的成本效益訓練,從而為較小的團隊提供公平的競爭環境。

也難怪OpenAI聯合創始人Andrej Karpathy此前讚歎:“DeepSeek-V3的出現實現了高性能與低成本的平衡……未來可能不需要超大規模的GPU集群了。”

DeepSeek在論文中提到,本文的目的不是重申DeepSeek-V3的詳細架構和演算法細節,是跨越硬體架構和模型設計採用雙重視角來探索它們之間錯複雜的相互作用,以實現具有成本效益的大規模訓練和推理。著重於探討:

硬體驅動的模型設計:分析FP8低精度運算和縱向擴展/橫向擴展網路屬性等硬體功能如何影響DeepSeek-V3中的架構選擇;

硬體和模型之間的相互依賴關係:深入了解硬體功能如何塑造模型創新,以及大模型不斷變化的需求如何推動對下一代硬體的需求;

硬體開發的未來方向:從DeepSeek-V3獲得可實現的見解,以指導未來硬體和模型架構的協同設計,為可擴展、經濟高效的AI系統鋪平道路;

論文網址:https://arxiv.org/abs/2505.09343


01.

從源頭優化記憶體效率

MoE模型可降低成本、本地部署

開篇提到的DeepSeek-V3關鍵創新旨在解決擴充的三個核心挑戰:記憶體效率、成本效益和推理速度。

1.記憶體效率:從源頭優化記憶體使用,使用MLA減少KV快取

從源頭優化記憶體使用仍然是關鍵且有效的策略。與使用BF16進行權重的模型相比,FP8將記憶體消耗顯著降低了一半,有效緩解了AI記憶體牆挑戰。

▲KV快取大小比較(BF16精度)

使用MLA減少KV快取。對於大模型推理,使用者請求通常涉及多輪對話。 KV快取透過快取先前處理的token的鍵和值向量來解決這項挑戰,無需為後續token重新計算。

在每個推理步驟匯總,模型僅計算當前token的鍵和值向量,並透過將它們與歷史記錄中快取的鍵值對組合來執行注意力計算。這種增量計算使其在處理長序列或多輪輸入時非常有效率。但是,它引入了記憶體受限的瓶頸,因為計算從GEMM轉移到GEMV,後者的計算與記憶體比率要低得多。

為了解決這個挑戰,研究人員採用MLA,它使用投影矩陣將所有註意力頭的KV表示壓縮成更小的潛在向量,讓矩陣與模型進行共同訓練。在推理過程中,只需要快取潛在向量,與儲存所有註意力頭的KV快取相比減少了記憶體消耗。

2.成本效益:MoE可降低訓練成本,方便本地部署

DeepSeek開發了DeepSeekMoE,MoE模型的優勢有兩個面向:

首先可以減少訓練的運算要求,降低訓練成本。 MoE模型允許參數總數急劇增加,同時保持計算要求適中。例如,DeepSeek-V2具有236B參數,但每個token只啟動了21B參數。 DeepSeek-V3擴展到671B參數,同時能將每個token的活化量維持在僅37B。相較之下,Qwen2.5-72B和LLaMa3.1-405B等稠密模型要求所有參數在訓練期間都處於活動狀態。

其次,是個人使用和本地部署優勢。在個人化Agent蓬勃發展的未來,MoE模型在單一請求場景中提供了獨特的優勢。由於每個請求只啟動了一個參數子集,因此記憶體和計算需求大大減少。例如,DeepSeek-V2(236B參數)在理過程中僅啟動21B參數。這使得配備AI晶片的PC能夠達到每秒近20個token(TPS),甚至達到該速度的兩倍。相較之下,具有相似能力的稠密模型在類似硬體上通常只能達到個位數的TPS。

同時,大語言模型推理優化框架KTransformers允許完整版DeepSeek-V3模型在配備消費性GPU的低成本伺服器上運行,成本約為10,000美元,實現近20 TPS。這種效率使MoE架構適用於硬體資源有限的本地部署和個人用戶。


02.

重疊運算與通訊、高頻寬縱向擴充網絡

提高推理速度

第三個挑戰是推理速度,DeepSeek透過重疊計算和通訊、引入高頻寬縱向擴展網路、多token預測框架等來提高模型的推理速度。

1、重疊計算和通訊:最大化吞吐量

推理速度包括系統範圍的最大吞吐量和單一請求延遲,為了最大限度地提高吞吐量,DeepSeek-V3從一開始就被建構為利用雙微批次重疊,將通訊延遲與計算重疊

DeepSeek將MLA和MoE的計算解耦為兩個不同階段。當一個微批次執行MLA或MoE計算的一部分時,另一個微批次同時執行相應的調度通訊。相反,在第二個微批處理的計算階段,第一個微批處理經歷組合通訊步驟。

這種流水線化方法實現了全對全通訊與正在進行的運算的無縫重疊,確保始終能充分利用GPU資源。

此外,在生產中,他們採用預填-解碼分離(prefill-decode disaggregation)架構,將大量預填和延遲敏感的解碼請求分配給不同的專家並行組。

▲訓練MoE和稠密模型的計算成本比較:假設序列長度為4096,測量每個token的計算成本

2、推理速度限制:高頻寬縱向擴展網路潛力

MoE模型實現高推理速度取決於跨運算設備高效部署專家參數。為了實現盡可能快的推理速度,理想情況下,每個設備都應該為單一專家執行計算或多個設備應在必要時協作計算單一專家。

但專家並行(EP)需要將token路由到適當的設備,這涉及跨網路的多對多通訊。因此,MoE推理速度的上限由互連頻寬決定

考慮這樣一個系統:每個設備保存一個專家的參數,一次處理大約32個token。此token計數在計算記憶體比率和通訊延遲之間取得平衡,此token計數可確保每個裝置在專家並行期間處理相等的批次大小,從而計算通訊時間。

如果使用像GB200 NVL72(72個GPU上的900GB/s單向頻寬)這樣的高頻寬互連,每個EP步驟的通訊時間=(1字節+2字節)×32×9×7K/900GB/s=6.72μs

假設計算時間等於通訊時間,這將顯著減少總推理時間,從而實現超過0.82毫秒TPOT的理論上限,大約每秒1200個token

雖然這個數字是理論上得出,尚未經過實證驗證,但它說明了高頻寬縱向擴展網路在加速大規模模型推理方面的潛力。

3.多token預測(Multi-Token Prediction)

DeepSeek-V3引入了多token預測(MTP)框架,該框架同時增強了模型效能並提高了推理速度。

在推理過程中,傳統的自回歸模型在解碼步驟中產生一個token,這會導致序列瓶頸問題。 MTP透過使模型能夠以較低成本產生額外的候選token並對其進行並行驗證,從而緩解了這一問題,這與先前基於自起草的推測性解碼方法類似。該框架在不影響準確性的前提下加快了推理速度。

此外,透過預測每步驟多個token,MTP增加了推理批量大小,這對於提高EP計算強度和硬體利用率至關重要。

4.推理模型的高推理速度與測驗時擴展的研究

以OpenAI的o1/o3系列為例,大模型中的測試時縮放透過在推理過程中動態調整計算資源,在數學推理、程式設計和一般推理方面實現效能提升。後續DeepSeek-R1、Gemini 2.5 Pro、Qwen3都採用了類似的策略。

對於這些推理模型,高token輸出速度至關重要。在強化學習(RL)工作流程中,快速產生大量樣本的必要性使推理吞吐量成為關鍵的瓶頸。同樣,延長的推理序列會增加使用者的等待時間,從而降低此類模型的實際可用性。

因此,透過協同硬體和軟體創新來優化推理速度對於提高推理模型的效率必不可少。


03.

DeepSeek-V3實務:

軟硬體協同突破效率極限

基於上述核心設計原則,DeepSeek詳細描述了低精度訓練、互連優化、網路拓撲等具體技術的實作細節。

在低精度技術突破方面,DeepSee透過採用FP8混合精度訓練,將模型記憶體佔用直接減少50%,有效緩解「記憶體牆」難題。 DeepSeek也提出LogFMT對數空間量化方案,能在相同位元下達到更高精度。

在互連優化方面,DeepSeek提出了硬體感知並行策略。團隊摒棄傳統張量並行(TP),轉而採用管線並行(PP)和專家並行(EP),配合自主研發的DeepEP庫,實現通訊效率的飛躍。

在網路拓撲方面,DeepSeek推出的兩層多層胖樹(MPFT)網路拓撲,透過8個獨立平面實現故障隔離與負載平衡,成本相比傳統三層拓撲降低40%以上,且在全到全通訊效能上與單層多軌網路旗鼓相當,為叢集擴充提供了堅實保障。

▲八平面兩層胖樹可擴充網絡


04.

六大關鍵

打造下一代AI基礎設施

針對目前硬體痛點,DeepSeek提出下一代AI基礎設施的核心升級路徑。

跳脫DeepSeek-V3的具體實現,DeepSeek從硬體架構演進的角度提出六大未來挑戰與解決方案,涵蓋記憶體、互連、網路、運算等核心領域。

1.魯棒性優先:建構不易崩潰的訓練系統

現有硬體對GPU故障、記憶體靜默錯誤等缺乏有效​​偵測,大規模訓練中斷風險高。

對此,DeepSeek提出硬體必須引入傳統ECC以外的高階錯誤偵測機制。基於校驗和的驗證或硬體加速冗餘檢查等技術,為大規模部署提供更高可靠性。

此外,硬體供應商應向終端用戶提供全面的診斷工具包,使其能夠嚴格驗證系統完整性並主動識別潛在的靜默資料損壞。

2.顛覆互連架構:CPU-GPU直連消除節點瓶頸

CPU在協調運算、管理I/O和維持系統吞吐量方面仍不可或缺,目前架構面臨若干關鍵瓶頸。

CPU與GPU之間的PCIe介面在大規模參數、梯度或KV快取傳輸期間常成為頻寬瓶頸。為緩解此問題,未來系統應採用直接的CPU-GPU互連(如NVLink或Infinity Fabric),或將CPU和GPU整合到擴展域中,從而消除節點內瓶頸。

除PCIe限制外,維持如此高的資料傳輸速率還需要極高的記憶體頻寬。最後,核心啟動和網路處理等延遲敏感任務需要高單核心CPU效能,通常需要基頻超過4GHz。此外,現代AI工作負載需要每個GPU配備足夠的CPU核心,以避免控制端瓶頸。對於基於小晶片的架構,需要額外核心支援快取感知的工作負載分區和隔離。

3.智慧網路升級:動態路由實現低延遲

為滿足延遲敏感型工作負載的需求,未來互連必須同時優先考慮低延遲和智慧網路。

共封裝光學:整合矽光子學可實現更高頻寬擴展性和更強能效,這對大規模分佈式系統至關重要。

無損網路:基於信用的流量控制(CBFC)機制可確保無損資料傳輸,但單純觸發流量控制可能導致嚴重的隊頭阻塞。因此,必須部署先進的端點驅動擁塞控制(CC)演算法,主動調節注入速率並避免異常擁塞場景。

自適應路由:如5.2.2節所述,未來網路應標準化動態路由方案(如分組噴射和擁塞感知路徑選擇),持續監控即時網路狀況並智慧重新分配流量。

高效容錯協定:透過部署自癒協定、冗餘連接埠和快速故障轉移技術,可顯著增強故障穩健性。

動態資源管理:為有效處理混合工作負載,未來硬體應支援動態頻寬分配和流量優先權。

4.通訊順序「硬體化」:消除軟體額外開銷

使用載入/儲存記憶體語義的節點間通訊高效且便於編程,但當前實作受記憶體順序挑戰的阻礙。

DeepSeek主張硬體支援為記憶體語意通訊提供內建順序保證。這種一致性應在編程層(如透過獲取/釋放語意)和接收方硬體層強制執行,實現有序傳遞而無額外開銷。

5.網路運算融合:硬體加速通訊效率

混合專家模型(MoE)的分發與組合階段存在網路最佳化空間。論文建議,在網路硬體中整​​合自動分組複製、硬體級歸約功能,並支援LogFMT壓縮,降低通訊頻寬需求。

6.記憶體架構重構:從“晶片堆疊”到“晶圓整合”

模型規模的指數級增長已超過高頻寬記憶體(HBM)技術的進步,這種差距造成記憶體瓶頸。

DeepSeek推薦DRAM堆疊加速器,利用先進的3D堆疊技術,DRAM die可垂直整合在邏輯die頂部,從而實現極高的記憶體頻寬、超低延遲和實用記憶體容量(儘管受堆疊限制)。

DeepSeek也提到了晶圓級系統(SoW),晶圓級整合可最大限度地提高運算密度和記憶體頻寬,滿足超大規模模型的需求。


05.

結語:模型演化

倒逼下一代算力革新

AI產業正進入軟硬體深度協同時代。透過將硬體特性融入模型設計、反向驅動硬體升級,DeepSeek 開創了軟硬體良性迭代閉環。

從硬體到模型,DeepSeek-V3體現了軟硬體協同設計在推動大規模AI系統的可擴展性、效率和穩健性方面的變革潛力。

從模型回到硬件,DeepSeek則跳出DeepSeek-V3具體模型,來定義未來硬體需為大模型優化的核心方向,從內存、互連、網絡、計算等多層面提出建設性建議,對產業生態具有重要參考意義。(智東西)