DeepSeek-V4以演算法革新打破記憶體牆,倒逼硬體升級。
芯東西4月25日報導,本周五,“國產大模型頂流”DeepSeek-V4開源,其產業影響力火速蔓延:DeepSeek-V4-Pro登頂Hugging Face開源模型榜,A股和港股的AI算力類股全線飄紅,國產AI晶片廠家、雲巨頭、伺服器廠家開啟密集適配、接入……
DeepSeek-V4兩款模型DeepSeek-V4-Pro與DeepSeek-V4-Flash,採用MoE架構,總參數規模達到1.6T(啟動49B)與284B(啟動13B),均支援最長百萬Token上下文。
昨日,DeepSeek還亮出核心技術底牌,正式發佈新模型技術報告,全面拆解新一代架構升級核心、深度最佳化預訓練與後訓練全流程體系,公開了全套核心演算法與迭代秘籍。
扒完這份報告不難發現,DeepSeek-V4以CSA、HCA混合注意力、異構KV Cache、FP4量化感知訓練等系統性創新,從演算法根源打破“記憶體牆”,讓百萬Token長上下文推理真正走向低成本、可規模化的工程落地。
演算法層面的突破背後,DeepSeek-V4更是用極致壓縮架構,反向定義了下一代AI晶片必須走的硬體升級方向:通過差異化存算方案,適配不同資料在頻寬、延遲、儲存容量上的多元需求。
01.
DeepSeek-V4開啟效率革命
百萬級超長上下文拉滿
DeepSeek-V4全系標配百萬Token超長上下文,其上下文長度達到上一代DeepSeek-V3.2模型的近8倍。
根據技術報告,這得益於其核心架構的幾項關鍵升級:
首先,DeepSeek-V4採用了混合注意力架構。DeepSeek結合了CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力),使DeepSeek-V4-Pro在100萬Token的上下文設定下,相比DeepSeek-V3.2僅需27%的單Token推理浮點運算量,KV Cache佔用量降至前代模型的10%。
更輕量的DeepSeek-V4-Flash將效率推至更高水平,其單Token浮點運算量僅為DeepSeek-V3.2的10%,KV Cache佔用容量更是低至後者的7%。
這一架構升級的核心思路是,CSA先將KV Cache沿序列維度進行壓縮,再在壓縮後的條目上執行稀疏注意力,僅關注最相關的壓縮塊。HCA則採用更大壓縮率,將每128個Token的KV資訊融合為一個條目,但保持稠密注意力,兩種機制交替,底層使用CSA保持精細的局部依賴,高層使用HCA大幅壓縮遠端上下文。
其次,DeepSeek引入了mHC(流形約束超連接)以及Muon最佳化器,mHC結構能在保留模型表徵能力的同時提升多層網路間訊號傳播的穩定性;Muon最佳化器可幫助實現更快的收斂速度和更高的訓練穩定性。
最後是升級版DeepSeekMoE,DeepSeek-V4保持每層384個路由專家+1個共享專家,每Token啟動6個的DeepSeekMoE框架,並將初始層的密集FFN取代為Hash路由的MoE層,提升稀疏啟動效率。
此外,DeepSeek-V4還設計了異構KV Cache與磁碟快取機制:壓縮後的CSA/HCA條目存檔,滑動窗口SWA未壓縮KV支援全快取、周期檢查點、零快取三級策略,靈活平衡儲存與計算,實現共享前綴請求零重複預填充。
02.
演算法創新打破記憶體牆
DeepSeek-V4倒逼AI晶片重構存算邏輯
DeepSeek-V4的技術革新背後,是兆參數模型普遍面臨的推理效率困局。
算力是最近幾年大模型產業的焦點話題,從算力供給、GPU緊缺程度,再到超算叢集的規模化擴張,始終是行業熱議焦點。
但伴隨大模型進入商業落地、實際部署的關鍵期,產業界愈發意識到,即便算力問題得到階段性緩解,系統層面的瓶頸並未消失,而是悄然轉移到了另一個核心環節——記憶體。
伴隨大模型參數規模捲上兆、上下文長度達到百萬,AI推理產生的中間過程資料體量急劇膨脹,對記憶體承載上限與讀寫訪問效率形成嚴苛考驗。以輝達H200為例,其配備141GB HBM3E視訊記憶體和4.8TB/s傳輸頻寬,但算力與記憶體頻寬仍存在明顯差距。AI解碼時資料搬運速度跟不上運算節奏,大量計算單元空轉閒置,既浪費硬體性能也加劇高功耗問題。
當前場景下,GPU算力並未充分閒置,但視訊記憶體裝不下、資料傳太慢拖了後腿,會引發功耗飆升、整機部署成本大幅攀升等一系列連鎖問題。
在這樣的背景下,AI晶片的競爭邏輯正在重構:不單純比拚“運算速度”,而是延伸至記憶體容量、資料吞吐、能耗控制的綜合較量。
此前不少廠商依靠堆砌高規格記憶體,以硬體冗餘掩蓋架構短板保障推理運行,代價是功耗與硬體成本持續走高。但這種治標不治本的方案,已無法適配長期產業發展。
因此,當下AI晶片廠商正面臨雙重挑戰:記憶體牆瓶頸持續加劇,且DeepSeek-V4演算法迭代提速,倒逼硬體同步進化。
正如前文所述,DeepSeek-V4通過幾項關鍵架構創新攻克“記憶體牆”難題,真正實現了百萬Token長文字推理的規模化落地。但矛盾的是,當前多數AI晶片仍採用同質化存算設計,難以適配新一代大模型的分層運行邏輯與異構資料特徵。
這也意味著,這樣的AI晶片會抵消模型演算法升級換來的壓縮優勢、成本優勢與性能增益,成為制約大模型推理效能釋放的核心瓶頸。
具體來看,DeepSeek-V4推理存在鮮明的資料異構特徵:KV Cache、門控路由、注意力與共享專家參數屬於高頻低延遲的熱資料;384個全量路由專家、壓縮遠端KV、磁碟級冷存KV為低頻低時效的冷資料,僅少量專家參與啟動計算。
並且模型本身已通過量化壓縮、分級快取、冷熱分層儲存完成精細化設計,天然適配異構記憶體架構,亟需硬體以差異化存算方案匹配不同資料的頻寬、延遲與容量需求。
03.
冷熱資料分層+雙DRAM融合
異構記憶體破局記憶體牆
想要破解這一困局,從系統層面著手的核心思路是:讓不同類型的記憶體各司其職。深耕3D記憶體領域多年的微珩科技,其底層研發邏輯正與此思路一脈相承。
具體來看,針對DeepSeek-V4的異構資料訪問特性,微珩扶光晶片摒棄單一記憶體堆疊設計,融合3D DRAM與2D DRAM,打造了定製化異構記憶體子系統:
該架構的創新性在於,以3D堆疊DRAM替代端側LPU傳統片上SRAM,結合三維堆疊、混合鍵合封裝,縮短資料傳輸路徑,兼顧SRAM低時延與DRAM高密度、低成本優勢。
基於此,其能解決SRAM容量小、面積與成本高的侷限,同等晶片面積儲存大幅擴容,適配大參數模型、長上下文推理;避開HBM供應鏈與高頻寬依賴問題。再加上其存算就近互聯,權重常駐儲存、訪存更穩定,能降低功耗與量產成本。
其中,3D DRAM依託TSV矽通孔垂直堆疊架構,大幅縮短資料傳輸路徑,兼具低訪問延遲、低位元功耗與超高頻寬,適配高頻熱點資料讀寫;
2D DRAM採用成熟平面布線方案,散熱表現優異、容量可靈活拓展,且成本可控、供給穩定,適配低頻冷資料儲存。
兩類記憶體形成高速低耗、大容量低成本互補組合。此外,微珩科技自研的資料對應策略,還能適配DeepSeek-V4的分層調度邏輯。
對頻寬敏感的核心熱資料,微珩將KV Cache、MoE門控網路、共享專家、注意力參數,以及已啟動路由專家快取記憶體,統一掛載至3D DRAM。
門控網路需即時完成384個路由專家權重運算,支撐單Token動態調度;壓縮後的KV Cache解碼階段仍需逐輪高頻調取;共享專家與注意力參數為推理核心高頻元件,疊加啟動專家快取的時間局部性訪問特徵,依託3D DRAM高頻寬、低延遲優勢,保障核心鏈路高速讀寫與高效計算。
而頻寬需求較低的冷資料,則統一存放於2D DRAM,包含FP4量化全量路由專家、HCA壓縮遠端KV條目及磁碟下沉冷快取。
模型單Token僅啟動6位專家,其餘全量參數長期低頻駐存,2D DRAM大容量、低成本的特性,可承載384個全量專家參數與低頻遠端資料儲存,基礎頻寬足以匹配訪問需求。
這樣通過冷熱資料分層異構部署的策略,能在控制硬體成本的前提下進一步釋放推理性能,以壓低兆參數大模型的落地部署成本與落地門檻。
04.
微珩科技用異構記憶體
改寫大模型落地規則
DeepSeek-V4的問世,不僅是架構層面的創新,更是大模型在端側落地部署的關鍵里程碑。
桌面一體機、邊緣伺服器等端側裝置在部署大模型時,往往會受限於高速記憶體成本高昂且容量有限。
根源在於傳統架構採用單一記憶體方案,對所有模型參數進行同質化儲存,這樣一來,全部署於低速記憶體會限制推理性能;全部署於高速記憶體會面臨容量不足的問題,都會導致大模型難以在端側落地。
而DeepSeek-V4來自演算法層面的核心升級,疊加微珩扶光晶片的2D+3D異構架構,恰好形成一套完整可行的破局方案。
在演算法端,DeepSeek通過CSA、HCA從演算法層壓縮計算與視訊記憶體,搭配異構KV Cache做分級儲存、FP4量化壓縮參數,三者協同使得僅高頻訪問的關鍵參數駐留高速記憶體,其餘海量資源全部遷移至低速記憶體,為端側部署掃清算力瓶頸。
在硬體端,微珩扶光晶片的2D+3D異構記憶體架構具有天然優勢,對應DeepSeek-V4的分層策略,2D DRAM承接海量路由專家和冷資料,降低硬體成本;3D DRAM保障KV Cache、門控網路等核心資料高速流轉,實現推理效率提升。無需堆砌昂貴的HBM,端側裝置即可運行兆參數級大模型。
長期來看,這套演算法與硬體一體化的解決方案或能打破超算中心對高階AI能力的壟斷,推動AI算力從高成本雲端,大規模下沉至消費電子、智能硬體、邊緣終端等全域裝置,真正落地端側普惠、算力平權的產業趨勢。
微珩科技在3D記憶體方案的技術革新、商業化方面已經有不少成果。其晶片團隊於2021年量產了首款3D記憶體方案計算晶片,是國內首批開展相關技術方案設計與量產的企業之一,近年來已先後量產兩代晶片,累計實現營收超10億元。
身處本輪技術範式迭代的關鍵周期,微珩科技已成為端側AI產業化落地的核心推動者。
05.
結語:DeepSeek演算法革新
正倒逼記憶體產業升級
當大模型競爭從演算法參數比拚邁入軟硬協同落地的全新周期,單一的架構最佳化或是硬體堆料,都已無法支撐行業長期發展。可以預見,未來AI產業的核心競爭力,將可能不再侷限於雲端超算的極限算力,而是落腳於存算異構、分層調度、成本可控的全域部署能力。端側算力下沉、算力平權普及或將成為不可逆的產業趨勢。
當下,DeepSeek-V4的演算法革新,正倒逼記憶體架構走向精細化、差異化的分層設計。以微珩扶光晶片為代表的異構記憶體方案,印證了冷熱資料分流、高低速記憶體協同是突破端側瓶頸的有效路徑。這也意味著,從雲端集中式算力,到雲邊端分佈式協同,AI產業正迎來一次底層架構的變革。 (芯東西)
