DeepSeek V4全面擁抱！華為升騰950-全解析（附產業鏈&標的）

2026/05/06

•

不誘於譽，不恐於誹，率道而行，端然正己。

4月24日，DeepSeek V4系列模型預覽版正式上線，全面擁抱華為算力晶片昇騰950。

DeepSeek團隊歷經數月完成從CUDA到華為CANN Next的核心程式碼全端遷移，昇騰團隊第一時間完成了底層算子和Attention層的適配工作。DeepSeek V4成為全球率先運行在華為昇騰950PR晶片上的頂級大模型，標誌著中國AI算力自主化的關鍵突破。

昇騰950PR作為2026年華為量產的推理專用晶片，支援FP4精度（1.56 PFLOPS算力），自研HBM，多模態生成速度提升60%，加速卡整體算力性能超輝達H20 2.87倍。

另外，據FT金融時報5月1日報導，中國科技巨頭已大量訂購華為最新的昇騰處理器950PR，華為預計今年收入至少增長60%。據說，今年的大部分訂單來自於3月開始量產的950PR。公司還計畫在Q4推出950DT的升級版。

今天我們來梳理昇騰950晶片。下文從：① 昇騰950晶片-基礎知識掃盲；② 昇騰950核心技術壁壘；③ 產業鏈；④ 相關標的；等四個維度來解析。

一、昇騰950晶片-基礎知識掃盲

華為昇騰（Ascend）950系列是華為在AI算力領域的最新旗艦產品，核心是達文西架構的NPU（神經網路處理單元）計算晶片，對標輝達GPU。

昇騰950系列並非單一晶片，而是包含兩款針對不同場景的專用晶片：昇騰950PR（推理Prefill）和昇騰950DT（Decode訓練）。

它們共同組成了華為最新的Atlas 950超節點。

1、誕生背景

2025年9月18日，華為輪值董事長徐直軍在全聯接大會2025上首次披露昇騰950系列，明確：

昇騰950PR：2026年3月發佈，主打推理預填充（Prefill）和推薦場景，是國內首款支援FP4低精度推理的商用AI晶片，適合大模型推理、多模態生成等場景。

昇騰950DT：計畫2026年Q4推出，側重推理解碼（Decode）和訓練場景，記憶體規格更高，架構更向通用GPU演進。

下圖：徐直軍發表主題演講（25年9月18日）

2、誕生原因

（1）AI算力需求結構的根本性轉變

訓練轉向推理的行業拐點：2025年初，DeepSeek R1等開源大模型發佈後，企業發現直接部署開源模型的性價比遠高於自研訓練。訓練需數周高成本算力投入，而推理更注重即時響應與成本控制。市場主流需求從“燒錢訓練”轉向“高效推理”，導致原本面向訓練的昇騰910系列（910B/910C）不再適配新場景。

推理階段的精細化分工：大模型推理分為Prefill（預填充，需高算力處理長輸入）和 Decode（解碼，需高記憶體頻寬逐字輸出）兩階段。華為放棄“單晶片通吃”路線，轉而針對兩階段分別設計專用晶片（950PR專注Prefill，950DT專注Decode），以提升能效比。

（2）封鎖下的技術突圍路徑

封鎖倒逼架構創新：因無法獲取台積電先進製程，華為單晶片性能難以追趕輝達。但中芯國際類7nm工藝（910B/910C）的成熟，以及5nm小規模量產突破，使華為能穩定迭代晶片設計，無需再受製程波動影響。

從“單卡競爭”轉向“系統級競爭”：徐直軍明確表示，華為選擇通過超節點架構（將數千張卡互聯為邏輯單機）彌補單晶片短板，而非盲目追求製程。昇騰950系列是這一戰略的落地載體。

（3）訓練晶片路線的戰略放棄

910D的“消失”：按原計畫，910C（兩顆910B疊加）之後應是四顆疊加的910D，但因推理需求爆發，華為直接跳過910D，將下一代命名為950系列，標誌其徹底轉向推理專用晶片路線。

市場驗證驅動決策：企業反饋顯示，訓練市場被NVIDIA等頭部廠商壟斷，而推理場景碎片化，存在更大商業化空間。華為順勢調整路線，聚焦推理效率與成本最佳化。

總的來說，昇騰950主要是為了生態卡位，先讓大家用昇騰跑推理，等生態起來了，訓練也就自然離不開你了。

3、昇騰晶片-進化路線

總體思路：“一年一代、算力翻倍”速度推進。

（1）2018年10月，華為首次發佈達文西架構(Da Vinci Architecture)及昇騰AI晶片戰略，同時對昇騰310進行實體展示，310面向邊緣/端側推理場景。

（2）2019年8月，發佈昇騰910，昇騰910主要面向IDC模型訓練、雲端訓練，提供強大的FP16算力，其算力宣稱達到當時業內第一。

（3）2023年發佈910B，時隔4年才發佈，原因是2019年美國製裁HW，無法繼續使用台積電7nm先進製程，被迫轉向中芯國際N+1工藝。

（4）2025年Q1量產910C ：是目前中國自研 AI 晶片中最接近國際主流的產品，採用 7nm 工藝，96 GB的HBM2e，FP16 峰值約 800 TFLOPS。

昇騰910C並非全新的架構設計，而是通過將兩顆昇騰910B晶片合封在一起、利用Chiplet技術實現的算力倍增。受出口管制限制，製程和 HBM 規格均落後於 NVIDIA B200，但 2026 年已實現大規模供貨。

背景知識：910-950的原因：2025年初，DeepSeek R1大模型橫空出世，AI算力市場發生了翻天覆地的變化，基於訓練的大算力晶片不再吃香，而基於推理的晶片成了市場的真正需求。讓910D（4塊910B疊加）沒有必要“面世”了。

以910B、910C、910D名義出現（910D很可能不再出現）而本質是920、930、940的三款晶片，其下一代型號得以恢復為950。

（5）2026年Q1：昇騰950 PR。首次採用華為自研HBM（高頻寬記憶體），引入FP8低精度格式，FP8算力達1 PFLOPS（即1000 TFLOPS），互聯頻寬提升至2TB/s。

↓ 2026年Q4：昇騰950DT。同樣基於950核心架構，但通過差異化記憶體配置（144GB、頻寬4TB/s）適配不同場景，包括對話生成和訓練任務。

↓ 2027年Q4：昇騰960。算力翻倍至2 PFLOPS（FP8），記憶體容量翻倍至288GB，頻寬提升至9.6TB/s，對標輝達H200。

↓ 2028年Q4：昇騰970。算力再次翻倍至4 PFLOPS（FP8）/8 PFLOPS（FP4），首次採用N+3工藝最佳化，能效比較910C提升30%以上。

4、DeepSeek V4針對昇騰950的有那些深度最佳化？

為了全面適配國產晶片，DeepSeek V4針對昇騰 950晶片進行了多項深度最佳化，主要體現在以下方面：

（1）核心架構級最佳化

昇騰950從硬體底層專門針對V4的模型特徵（特別是MoE架構）做了調整：

① 原生精度加速：全面支援FP8、MXFP8、MXFP4等資料格式。這使得記憶體佔用降低50%以上，同時計算能力翻倍。

② 稀疏訪存最佳化：針對DeepSeek V4這類MoE模型特有的“專家路由”離散訪存特徵，昇騰950大幅提升了硬體級的稀疏資料讀取能力，有效解決了頻寬瓶頸。

③ 創新的儲存架構：實現了向量單元與矩陣單元的Memory共享設計，消除了大量片上資料搬運的開銷，直接降低了端到端的推理時延。

（2）推理性能與長文字支援

① 超低時延：在昇騰950超節點上，DeepSeek V4-Pro可實現約20ms的TPOT（Time Per Output Token，即輸出每個令牌所需時間），V4-Flash版本可達約10ms。

② 高吞吐量：在8K輸入場景下，V4-Pro單卡Decode吞吐達4700 TPS，V4-Flash達1600 TPS。

③ 長文字最佳化：針對V4新增的KV Cache滑窗和壓縮演算法，昇騰通過融合Kernel和多流平行技術，大幅減少了Attention計算和訪存開銷，高效支撐了1M超長上下文的處理。

（3）軟體生態與開發工具

① PyPTO程式設計範式：推出了新的程式設計範式，可將自訂算子的開發周期縮短至天級，並自動生成高性能Kernel。

② TorchTitan-NPU深度適配：實現了“訓練入圖”和自動算子融合，為整網帶來了高達31.8% 的開箱即用性能收益。

③ MegaMoE方案：DeepSeek自研的細粒度專家平行方案，在昇騰NPU上可實現約1.50-1.73倍的加速效果。

二、昇騰950核心技術壁壘

（一）技術彙總

（二）技術具體解析

1、架構設計：打破計算與訪存瓶頸

昇騰950的微架構進行了根本性的重構，核心目的在於解決大模型時代的“記憶體牆”與“碎片化計算”痛點：

（1）SIMD/SIMT雙程式設計模型：這是950算力架構的一大亮點。創新的同構設計讓它既能像流水線一樣通過SIMD處理“大塊”向量資料，又能通過SIMT靈活處理大模型推理中常見的“碎片化”資料，大幅拉升了向量算力佔比和實際利用率。

（2）細粒度訪存：記憶體訪問顆粒度從前代的512字節精簡到128字節，這種精細化管控極大地最佳化了離散、不連續的記憶體訪問效率。

（3）靈衢（UnifiedBus）2.0統一匯流排互聯：首先，靈衢協議統一了CPU、NPU、GPU、記憶體、儲存等異構部件的連接方式，使它們能像訪問本地記憶體一樣直接互訪，無需複雜的協議轉換。晶片間互聯頻寬較前代（910C）提升2.5倍，達到2 TB/s等級。

在系統層級，依託靈衢2.0全光互聯規範，Atlas 950 SuperPoD叢集單節點可整合64個NPU，並可縱向擴展至8,192個NPU，實現全鏈路80%至85%的超高能效比。

2、視訊記憶體（VRAM）：跨越封鎖，自研HBM方案

在全球HBM產能被海外海力士、三星、美光等巨頭高度壟斷的背景下，昇騰950最大的戰略突破在於“實現了自研高頻寬記憶體（HBM）的落地與合封”：

（1）面向推理的低成本HiBL 1.0 (High Bandwidth Low-latency)：目前搭載於首批上市的 950PR標卡上。單卡視訊記憶體容量達到112GB，持續視訊記憶體頻寬約1.4 TB/s，完美契合推理前饋階段龐大的高並行資料吞吐需求。

（2）面向訓練的高性能HiZQ 2.0：規劃與下半年的Ascend 950DT進行合封，其設計目標直指4 TB/s的極致頻寬，專攻兆參數大模型訓練的記憶體需求。

3、封裝軟硬一體，自主生態CANN

（1）超越製程的先進封裝：

在基礎代工製程受限（如採用中芯國際N+2工藝）的情況下，950極度依賴複雜的雙芯粒（Dual-chiplet）架構與HBM 2.5D/3D高密度合封技術。這其中的晶圓級封裝良率控制以及熱管理（整卡功耗約600W）構成了極高的物理製造壁壘。

（2）生態遷移成本的抹平 (CANN Next)：

首先，CUDA不僅是一個程式設計框架，而是輝達建構了20年的完整生態系統：這是整個DeepSeek V4延期發佈的核心原因，也是技術含量最高的工程突破。

華為拒絕做輝達CUDA的“仿製品”，而是堅持重構自研的異構計算架構CANN。全稱為Compute Architecture for Neural Networks（神經網路計算架構），全面開源開放。

CANN作為昇騰晶片與AI框架之間的橋樑，向上支援MindSpore、PyTorch、TensorFlow等主流框架，向下最佳化昇騰硬體性能，通過GE圖引擎、算子開發語言、高性能算子庫等元件提升計算效率。還將程式碼遷移周期從幾個月壓縮到了幾小時，打破了“有芯無魂”的生態困局。

下圖:CANN分層架構圖

三、產業鏈

華為昇騰950產業鏈上游為晶片製造&材料；中游為高速互聯與系統整合層；下游為軟體生態&大廠應用。

（一）上游：晶片製造與材料層

1、晶片設計

昇騰950採用全新自研架構，原生支援FP4精度計算，單卡算力超過輝達H20。該架構針對通用加速計算和推理場景深度最佳化，支援從邊緣到資料中心的全場景部署。華為已公佈未來三代晶片路標：2026年950系列、2027年960系列、2028年970系列，以"幾乎一年一代、算力翻倍"的節奏持續迭代。

2、晶圓製造&半導體裝置

昇騰晶片的晶圓代工涉及複雜的工藝和高端裝置，包含DUV光刻、刻蝕、薄膜沉積、離子注入、CMP減薄、清洗、檢測與量測等裝置與工藝，最終完成昇騰晶片的晶圓製造。由於昇騰晶片採用7nm及以下先進製程，對裝置精度和工藝控制要求極高，需依賴高端裝置和成熟工藝技術。

在無EUV光刻機條件下，需通過多重曝光工藝（如SAQP）將DUV波長壓縮至等效5nm級，但面臨套刻精度下降、良率損失問題。昇騰950系列採用國內晶圓廠中芯國際N+2工藝（類7nm）實現量產。

3、先進封裝技術

昇騰950採用Chiplet/2.5D先進封裝方案，涉及以下關鍵技術環節：

（1）2.5D/3D封測&環氧塑封料：矽中介層（Silicon Interposer）技術實現多顆計算 die 的高速互聯；而環氧塑封料與液體封裝膠，用於晶片級保護和散熱管理。

（2）FC-BGA封裝基板：高層數、細線寬/線距的有機基板，技術壁壘極高，國產化率持續提升。

（3）HBM（高頻寬儲存）封裝：自研HBM通過國記憶體儲廠商代工，需突破128GB大容量HBM與AI晶片的低延遲互連，記憶體控製器需支援FP4格式的硬體級壓縮。配套昇騰950的高頻寬需求。

4、核心材料與零部件

ABF載板微細化：需支援5μm/5μm線寬線距的RDL重布線層，且介電常數需≤3.2以降低訊號延遲。

高速連接器可靠性：224G背板連接器需在10萬次插拔後仍保持阻抗偏差≤10%，同時滿足液冷環境下的耐腐蝕要求。

（二）中游：高速互聯與系統整合--價值量最大

華為Atlas 950 SuperPod採用了全光互聯架構，其硬體層面的增量需求集中在高頻高速資料傳輸與高功耗散熱。該領域是短期內業績彈性最大、確定性最強的細分賽道，也是產業鏈中技術迭代最快、價值增量最大的環節。

1、高速連接器：

昇騰950晶片的高速連接器是專為昇騰950晶片及其超節點架構設計的高速互聯元件，用於實現晶片間、板卡間及機櫃間的高速資料傳輸，是保障昇騰950超節點高頻寬、低時延互聯的關鍵部件。目前主要有以下兩類：

① 高速背板連接器：主要由華豐科技供應，是昇騰950超節點機櫃內晶片間高速互聯的核心部件，支援224Gbps傳輸速率，適配“靈衢”全光互聯協議，滿足超節點高頻寬、低時延需求，是保障機櫃內資料傳輸效率的關鍵。

② 高速線對/背板連接器：主要由意華股份供應，主要滿足超節點內部短距互聯需求，支援800Gbps銅纜互聯，與華豐科技的高速背板連接器形成互補，共同保障超節點內部及機櫃間的訊號傳輸穩定性。

2、光模組與全光互聯：

光模組是昇騰950晶片實現高速光互聯的物理載體，負責在晶片、板卡、機櫃之間傳輸光訊號，實現資料的快速交換。

昇騰主要採用400G/800G高速光模組，單卡需配置18-26個光模組，以滿足單卡2TB/s的互聯頻寬需求。

另外，基於華為自研的“靈衢”（UnifiedBus）互聯協議，昇騰950採用全光無損互聯技術，以光纖為傳輸介質，替代傳統銅纜互聯。突破銅纜互聯的頻寬、距離和功耗限制，支援超大規模叢集的無收斂互聯，實現記憶體統一編址和算力池化，滿足兆級大模型訓練和推理的通訊需求。其中：

① 短距互聯：單板內或機櫃內採用電互聯（PCB/高速銅線），板間或櫃內通過光模組直連，無中間交換機。

② 長距互聯：跨機櫃或超節點規模（如8192卡叢集）時，通過MEMS OCS（光交換）光交換機實現全光Mesh互聯，櫃間頻寬達16.3PB/s，時延低至百納秒級。

3、液冷散熱：

昇騰950及超節點功耗極高，傳統風冷已無法滿足散熱需求，液冷成為剛需配置。分為幾類：

① 冷板液冷：提供冷板、管路、CDU（冷卻分配單元）全品類產品，佔據超節點液冷市場主要份額。

② 全液冷方案：為Atlas 950高密度部署提供全套散熱保障。

③ 風液混合系統：聯合開發的混合散熱方案，適應不同功耗場景。

（三）下游：軟體生態&大廠應用

下遊客戶的大規模採購與底層軟體的適配，是昇騰950完成商業閉環的最終檢驗。開發者生態決定市場份額，昇騰的CANN架構要持續迭代，相容主流AI框架。

1、軟體框架與適配

CANN架構：昇騰的異構計算架構，是生態核心壁壘。CANN支援SIMD（單指令多資料）和SIMT（單指令多線程）雙程式設計模型，相容CUDA程式設計習慣，降低開發者遷移成本。

另外，開發者可通過CANN的適配層，支援TensorFlow、PyTorch等主流深度學習框架的模型遷移和運行，完成CANN遷移。

例如，國內三大營運商（中國移動、中國聯通、中國電信）大規模集采已明確全線採用該生態方案，其成熟度直接決定昇騰晶片的易用性和開發者遷移成本。

2、行業應用與模型適配

（1）兆參數大模型適配：受益於DeepSeek V4展現出的強大性能及極具性價比的推理成本，國產頭部大模型已完成對昇騰950的適配，採用FP4精度計算，標誌著國產大模型與國產晶片的深度融合。

例如，阿里、騰訊、字節跳動等頭部網際網路企業正大規模追加昇騰950訂單。這樣勢必會加速國產AI算力晶片的發展，減少對國外晶片的依賴。

（2）垂直行業落地：政府、金融風控、醫療影像、自動駕駛、工業AI質檢等場景加速滲透，為各行業的智能化升級提供堅實的算力支撐。

四、細分標的

以下為不完全列舉，據公開資訊整理，不構成任何投資建議：

1、晶片製造與材料層

（1）晶片設計

① 華為海思：NPU架構設計，由完全自主設計，是昇騰950PR、950DT晶片的自研架構設計方。

（2）晶圓代工

① 中芯國際：作為昇騰950系列唯一的晶圓代工廠，採用N+2工藝（類7nm）量產，產能優先供給AI晶片，直接決定昇騰出貨量。

（3）封裝測試

① 興森科技，是PC-BGA封裝基板核心供應商，技術壁壘非常高。

② 長電科技，Chiplet封裝主力，2.5D/3D先進封測核心合作方，已批次供貨。

③ 通富微電，多層堆疊封測主力，精準適配950PR封裝需求。

④ 賽騰股份，HBM檢測裝置供應商，國內唯一直接為三星、SK海力士HBM產線檢測裝置，為自研HBM產線擴產直接受益。

⑤ 深南電路：國內高端PCB（印製電路板）與封裝基板領域的雙料龍頭，昇騰PCB核心供應商。

⑥ 強一股份：國內半導體測試探針卡領域的龍頭企業，哈勃投資（華為旗下）的持股比例為4.80%。

（4）核心材料

① 飛凱材料：環氧塑封料及LMC液體封裝膠通過盛合晶微（華為封裝供應鏈）用於昇騰910/950封裝。

② 華海誠科：公司是國內首批次產HBM封裝用顆粒狀環氧塑封料（GMC）的企業，GMC產能達2000噸，已通過SK海力士等國際儲存大廠認證，HBM材料業務佔比超40%，在3D封裝、Chiplet等先進封裝技術中發揮關鍵作用。

2、高速互聯與系統整合層

（1）高速互聯

① 華豐科技：昇騰高速背板連接器龍頭，是"靈衢"互聯方案的核心硬體供應商。產品覆蓋56G→112G→224G全速率梯度，已完成Atlas 950/350全系列產品認證。華為為其第一大客戶。

② 意華股份：高速I/O連接器與光模組元件核心供應商，在昇騰供應鏈中份額佔比達50%，800G高速連接器已批次供貨華為。

（2）全光交換

① 賽微電子：華為昇騰950超節點OCS（光路交換）光交換的核心上游，獨家代工MEMS微鏡晶片（用於OptiXtrans DC808 OCS交換機）和矽光晶片。

② 光迅科技：全光交換機8×8核心供應商，配套950超節點；同時提供2×4超節點光模組。

③ 華工科技：全球光模組行業前十廠商，國內少數能實現3.2T光通訊模組規模化量產的企業，與950PR及超節點中台合作。

（3）交換晶片

① 盛科通訊：國產乙太網路交換晶片份額第一，產品覆蓋從接入層到核心層的全系列交換晶片，支援100M-800G連接埠速率和100Gbps-25.6Tbps交換容量，其12.8Tbps/25.6Tbps高端旗艦晶片已進入客戶推廣和應用階段，性能接近國際競品水平。

② 萬通發展：通過收購數渡科技，成為國內極少數掌握PCIe 5.0交換晶片全流程自主設計能力並實現量產的企業。其產品性能對標國際主流競品，填補了國內空白，已進入寒武紀、阿里雲等供應鏈。

③ 裕太微：為哈勃投資（華為旗下）為第一大外部股東，國內乙太網路物理層晶片（PHY）領域的龍頭企業。

（4）伺服器

① 華鯤振宇：昇騰伺服器出貨量市佔率第一，唯一同時獲得"鯤鵬+昇騰"雙領先級認證、連續兩年獲評戰略級夥伴的企業，"天宮"系列AI伺服器已量產並進入多個省級智算中心。

② 拓維資訊：華為"鑽石級"合作夥伴，自研"兆瀚"系列AI伺服器，全權負責Atlas系列部分代工生產，年產能力達20萬台。

③ 神州數位：昇騰全球總經銷商，子公司神州鯤泰生產昇騰伺服器，中標中國移動2026-2027年AI超節點裝置集采（60億元等級）。

④ 工業富聯：AI算力基礎設施龍頭，在AI伺服器、高速交換機、液冷技術及工業網際網路領域均處於行業領先地位，2025年其AI伺服器全球市佔率超40%。

（5）系統整合

① 深圳華強：中國本土電子元器件分銷龍頭企業，昇騰APN金牌部件夥伴，核心優勢在於繫結昇騰、海思等國產晶片，AI算力分銷市佔率達25-30%。

② 軟通動力：華為頂級軟體夥伴，軟通動力通過收購同方電腦，補齊了國產算力硬體短板，成為鯤鵬、昇騰等國產晶片生態的核心合作夥伴。

③ 長江計算：主研發通算、智算、高性能計算、儲存等全系列國產化伺服器，支援國產晶片（如鯤鵬、昇騰）和作業系統。

（6）散熱

① 川潤股份：提供冷板、管路、CDU全品類液冷產品，佔據昇騰超節點液冷市場較大份額，為Atlas 950高密度部署提供散熱保障。

② 高瀾股份：國內少數同時掌握冷板式與浸沒式雙技術路線的廠商，浸沒式液冷市佔率超60%，位列行業第二，是輝達、Google等全球頭部算力企業的液冷核心供應商。

③ 依米康：國內資料中心溫控領域的領軍企業，專注於精密空調、液冷系統等溫控裝置的研發、生產和解決方案提供。

④ 申菱環境：國內資料中心液冷溫控領域的核心企業，尤其在CDU（冷卻分配單元）產品方面市佔率領先。公司深度繫結華為、字節跳動、騰訊等頭部客戶，是華為昇騰生態核心液冷供應商。

⑤ 高德紅外：國內唯一量產製冷/非製冷雙路線紅外晶片的企業，打破國外技術壟斷，擁有自主可控的紅外晶片研發與生產能力，技術覆蓋非製冷（氧化釩）、碲鎘汞（MCT）及Ⅱ類超晶格（T2SL）等主流技術路線。

3、軟體生態與行業應用

① 潤和軟體：鴻蒙+昇騰雙生態核心夥伴，完成CANN遷移，智算一體機已落地。

② 東華軟體：綜合型IT服務龍頭，在醫療、金融、智慧城市軟體服務，在CANN領域形成覆蓋硬體部署、軟體適配、場景落地的全端服務能力。

③ 科大訊飛：昇騰生態最大的應用合作方，依託星火大模型樹立行業標竿。 (Aiden的硬科技行研)