突破!DeepSeek新模型適配中國國產AI晶片!

中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日,深度求索(DeepSeek)公司正式開源發佈DeepSeek-V3.2-Exp大語言模型,其創新的稀疏注意力架構(DSA)顯著提升長文字處理效率。與此同時,華為昇騰計算產業生態宣佈實現對該模型的“0day支援”,基於vLLM/SGLang等主流推理框架完成全套適配部署,並向開發者開源所有推理程式碼和算子實現。

DeepSeek-V3.2-Exp作為實驗性版本,首次引入細粒度稀疏注意力機制(DSA),在保持與V3.1-Terminus相當性能的前提下,顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦,有效降低了長文字處理的計算複雜度和記憶體佔用。

華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer(LI)與Sparse Flash Attention(SFA),進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化,全面提升計算效率。在CANNAI平台上,昇騰完成了對應的最佳化適配,整體部署策略沿用DeepSeek的大EP平行方案,並針對稀疏DSA結構疊加實現長序列親和的CP平行策略,兼顧時延和吞吐。

實測資料顯示,在128K長序列環境下,最佳化後的模型在昇騰硬體上能夠保持TTFT(首令牌響應時間)低於2秒、TPOT(每個令牌輸出時間)低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。

為進一步簡化開發流程,昇騰CANN首次推出大融合算子程式設計體系PyPTO,該框架創新性地採用PTO程式設計範式,以Tensor為基本資料表達方式,建構計算圖,實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發,僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。

除了華為昇騰,寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配,展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出,DeepSeek已成為中國國產開源模型的重要標竿,其快速迭代正推動著中國國產晶片標準的確立。

華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作,基於稀疏Attention結構疊加實現長序列親和的上下文平行策略,最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業和開發者提供模型體驗和API服務。

DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配,標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟,以及中國國產算力生態的不斷完善,中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)