不誘於譽,不恐於誹,率道而行,端然正己。
4月24日,DeepSeek V4系列模型預覽版正式上線,全面擁抱華為算力晶片昇騰950。
DeepSeek團隊歷經數月完成從CUDA到華為CANN Next的核心程式碼全端遷移,昇騰團隊第一時間完成了底層算子和Attention層的適配工作。DeepSeek V4成為全球率先運行在華為昇騰950PR晶片上的頂級大模型,標誌著中國AI算力自主化的關鍵突破。
昇騰950PR作為2026年華為量產的推理專用晶片,支援FP4精度(1.56 PFLOPS算力),自研HBM,多模態生成速度提升60%,加速卡整體算力性能超輝達H20 2.87倍。
另外,據FT金融時報5月1日報導,中國科技巨頭已大量訂購華為最新的昇騰處理器950PR,華為預計今年收入至少增長60%。據說,今年的大部分訂單來自於3月開始量產的950PR。公司還計畫在Q4推出950DT的升級版。
今天我們來梳理昇騰950晶片。下文從:① 昇騰950晶片-基礎知識掃盲;② 昇騰950核心技術壁壘;③ 產業鏈;④ 相關標的;等四個維度來解析。
一、昇騰950晶片-基礎知識掃盲
華為昇騰(Ascend)950系列是華為在AI算力領域的最新旗艦產品,核心是達文西架構的NPU(神經網路處理單元)計算晶片,對標輝達GPU。
昇騰950系列並非單一晶片,而是包含兩款針對不同場景的專用晶片:昇騰950PR(推理Prefill)和昇騰950DT(Decode訓練)。
它們共同組成了華為最新的Atlas 950超節點。
1、誕生背景
2025年9月18日,華為輪值董事長徐直軍在全聯接大會2025上首次披露昇騰950系列,明確:
昇騰950PR:2026年3月發佈,主打推理預填充(Prefill)和推薦場景,是國內首款支援FP4低精度推理的商用AI晶片,適合大模型推理、多模態生成等場景。
昇騰950DT:計畫2026年Q4推出,側重推理解碼(Decode)和訓練場景,記憶體規格更高,架構更向通用GPU演進。
下圖:徐直軍發表主題演講(25年9月18日)
2、誕生原因
(1)AI算力需求結構的根本性轉變
訓練轉向推理的行業拐點:2025年初,DeepSeek R1等開源大模型發佈後,企業發現直接部署開源模型的性價比遠高於自研訓練。訓練需數周高成本算力投入,而推理更注重即時響應與成本控制。市場主流需求從“燒錢訓練”轉向“高效推理”,導致原本面向訓練的昇騰910系列(910B/910C)不再適配新場景。
推理階段的精細化分工:大模型推理分為Prefill(預填充,需高算力處理長輸入) 和 Decode(解碼,需高記憶體頻寬逐字輸出) 兩階段。華為放棄“單晶片通吃”路線,轉而針對兩階段分別設計專用晶片(950PR專注Prefill,950DT專注Decode),以提升能效比。
(2)封鎖下的技術突圍路徑
封鎖倒逼架構創新:因無法獲取台積電先進製程,華為單晶片性能難以追趕輝達。但中芯國際類7nm工藝(910B/910C)的成熟,以及5nm小規模量產突破,使華為能穩定迭代晶片設計,無需再受製程波動影響。
從“單卡競爭”轉向“系統級競爭”:徐直軍明確表示,華為選擇通過超節點架構(將數千張卡互聯為邏輯單機)彌補單晶片短板,而非盲目追求製程。昇騰950系列是這一戰略的落地載體。
(3)訓練晶片路線的戰略放棄
910D的“消失”:按原計畫,910C(兩顆910B疊加)之後應是四顆疊加的910D,但因推理需求爆發,華為直接跳過910D,將下一代命名為950系列,標誌其徹底轉向推理專用晶片路線。
市場驗證驅動決策:企業反饋顯示,訓練市場被NVIDIA等頭部廠商壟斷,而推理場景碎片化,存在更大商業化空間。華為順勢調整路線,聚焦推理效率與成本最佳化。
總的來說,昇騰950主要是為了生態卡位,先讓大家用昇騰跑推理,等生態起來了,訓練也就自然離不開你了。
3、昇騰晶片-進化路線
總體思路:“一年一代、算力翻倍”速度推進。
(1)2018年10月,華為首次發佈達文西架構(Da Vinci Architecture)及昇騰AI晶片戰略,同時對昇騰310進行實體展示,310面向邊緣/端側推理場景。
(2)2019年8月,發佈昇騰910,昇騰910主要面向IDC模型訓練、雲端訓練,提供強大的FP16算力,其算力宣稱達到當時業內第一。
(3)2023年發佈910B,時隔4年才發佈,原因是2019年美國製裁HW,無法繼續使用台積電7nm先進製程,被迫轉向中芯國際N+1工藝。
(4)2025年Q1量產910C :是目前中國自研 AI 晶片中最接近國際主流的產品,採用 7nm 工藝,96 GB的HBM2e,FP16 峰值約 800 TFLOPS。
昇騰910C並非全新的架構設計,而是通過將兩顆昇騰910B晶片合封在一起、利用Chiplet技術實現的算力倍增。受出口管制限制,製程和 HBM 規格均落後於 NVIDIA B200,但 2026 年已實現大規模供貨。
背景知識:910-950的原因:2025年初,DeepSeek R1大模型橫空出世,AI算力市場發生了翻天覆地的變化,基於訓練的大算力晶片不再吃香,而基於推理的晶片成了市場的真正需求。讓910D(4塊910B疊加)沒有必要“面世”了。
以910B、910C、910D名義出現(910D很可能不再出現)而本質是920、930、940的三款晶片,其下一代型號得以恢復為950。
(5)2026年Q1:昇騰950 PR。首次採用華為自研HBM(高頻寬記憶體),引入FP8低精度格式,FP8算力達1 PFLOPS(即1000 TFLOPS),互聯頻寬提升至2TB/s。
↓ 2026年Q4:昇騰950DT。同樣基於950核心架構,但通過差異化記憶體配置(144GB、頻寬4TB/s)適配不同場景,包括對話生成和訓練任務。
↓ 2027年Q4:昇騰960。算力翻倍至2 PFLOPS(FP8),記憶體容量翻倍至288GB,頻寬提升至9.6TB/s,對標輝達H200。
↓ 2028年Q4:昇騰970。算力再次翻倍至4 PFLOPS(FP8)/8 PFLOPS(FP4),首次採用N+3工藝最佳化,能效比較910C提升30%以上。
4、DeepSeek V4針對昇騰950的有那些深度最佳化?
為了全面適配國產晶片,DeepSeek V4針對昇騰 950晶片進行了多項深度最佳化,主要體現在以下方面:
(1)核心架構級最佳化
昇騰950從硬體底層專門針對V4的模型特徵(特別是MoE架構)做了調整:
① 原生精度加速:全面支援FP8、MXFP8、MXFP4等資料格式。這使得記憶體佔用降低50%以上,同時計算能力翻倍。
② 稀疏訪存最佳化:針對DeepSeek V4這類MoE模型特有的“專家路由”離散訪存特徵,昇騰950大幅提升了硬體級的稀疏資料讀取能力,有效解決了頻寬瓶頸。
③ 創新的儲存架構:實現了向量單元與矩陣單元的Memory共享設計,消除了大量片上資料搬運的開銷,直接降低了端到端的推理時延。
(2) 推理性能與長文字支援
① 超低時延:在昇騰950超節點上,DeepSeek V4-Pro可實現約20ms的TPOT(Time Per Output Token,即輸出每個令牌所需時間),V4-Flash版本可達約10ms。
② 高吞吐量:在8K輸入場景下,V4-Pro單卡Decode吞吐達4700 TPS,V4-Flash達1600 TPS。
③ 長文字最佳化:針對V4新增的KV Cache滑窗和壓縮演算法,昇騰通過融合Kernel和多流平行技術,大幅減少了Attention計算和訪存開銷,高效支撐了1M超長上下文的處理。
(3) 軟體生態與開發工具
① PyPTO程式設計範式:推出了新的程式設計範式,可將自訂算子的開發周期縮短至天級,並自動生成高性能Kernel。
② TorchTitan-NPU深度適配:實現了“訓練入圖”和自動算子融合,為整網帶來了高達31.8% 的開箱即用性能收益。
③ MegaMoE方案:DeepSeek自研的細粒度專家平行方案,在昇騰NPU上可實現約1.50-1.73倍的加速效果。
二、昇騰950核心技術壁壘
(一)技術彙總
(二)技術具體解析
1、架構設計:打破計算與訪存瓶頸
昇騰950的微架構進行了根本性的重構,核心目的在於解決大模型時代的“記憶體牆”與“碎片化計算”痛點:
(1)SIMD/SIMT雙程式設計模型:這是950算力架構的一大亮點。創新的同構設計讓它既能像流水線一樣通過SIMD處理“大塊”向量資料,又能通過SIMT靈活處理大模型推理中常見的“碎片化”資料,大幅拉升了向量算力佔比和實際利用率。
(2)細粒度訪存:記憶體訪問顆粒度從前代的512字節精簡到128字節,這種精細化管控極大地最佳化了離散、不連續的記憶體訪問效率。
(3)靈衢(UnifiedBus)2.0統一匯流排互聯:首先, 靈衢協議統一了CPU、NPU、GPU、記憶體、儲存等異構部件的連接方式,使它們能像訪問本地記憶體一樣直接互訪,無需複雜的協議轉換。晶片間互聯頻寬較前代(910C)提升2.5倍,達到2 TB/s等級。
在系統層級,依託靈衢2.0全光互聯規範,Atlas 950 SuperPoD叢集單節點可整合64個NPU,並可縱向擴展至8,192個NPU,實現全鏈路80%至85%的超高能效比。
2、視訊記憶體(VRAM):跨越封鎖,自研HBM方案
在全球HBM產能被海外海力士、三星、美光等巨頭高度壟斷的背景下,昇騰950最大的戰略突破在於“實現了自研高頻寬記憶體(HBM)的落地與合封”:
(1)面向推理的低成本HiBL 1.0 (High Bandwidth Low-latency):目前搭載於首批上市的 950PR標卡上。單卡視訊記憶體容量達到112GB,持續視訊記憶體頻寬約1.4 TB/s,完美契合推理前饋階段龐大的高並行資料吞吐需求。
(2)面向訓練的高性能HiZQ 2.0:規劃與下半年的Ascend 950DT進行合封,其設計目標直指4 TB/s的極致頻寬,專攻兆參數大模型訓練的記憶體需求。
3、封裝軟硬一體,自主生態CANN
(1)超越製程的先進封裝:
在基礎代工製程受限(如採用中芯國際N+2工藝)的情況下,950極度依賴複雜的雙芯粒(Dual-chiplet)架構與HBM 2.5D/3D高密度合封技術。這其中的晶圓級封裝良率控制以及熱管理(整卡功耗約600W)構成了極高的物理製造壁壘。
(2)生態遷移成本的抹平 (CANN Next):
首先,CUDA不僅是一個程式設計框架,而是輝達建構了20年的完整生態系統:這是整個DeepSeek V4延期發佈的核心原因,也是技術含量最高的工程突破。
華為拒絕做輝達CUDA的“仿製品”,而是堅持重構自研的異構計算架構CANN。全稱為Compute Architecture for Neural Networks(神經網路計算架構),全面開源開放。
CANN作為昇騰晶片與AI框架之間的橋樑,向上支援MindSpore、PyTorch、TensorFlow等主流框架,向下最佳化昇騰硬體性能,通過GE圖引擎、算子開發語言、高性能算子庫等元件提升計算效率。還將程式碼遷移周期從幾個月壓縮到了幾小時,打破了“有芯無魂”的生態困局。
下圖:CANN分層架構圖
三、產業鏈
華為昇騰950產業鏈上游為晶片製造&材料;中游為高速互聯與系統整合層;下游為軟體生態&大廠應用。
(一)上游:晶片製造與材料層
1、晶片設計
昇騰950採用全新自研架構,原生支援FP4精度計算,單卡算力超過輝達H20。該架構針對通用加速計算和推理場景深度最佳化,支援從邊緣到資料中心的全場景部署。華為已公佈未來三代晶片路標:2026年950系列、2027年960系列、2028年970系列,以"幾乎一年一代、算力翻倍"的節奏持續迭代。
2、晶圓製造&半導體裝置
昇騰晶片的晶圓代工涉及複雜的工藝和高端裝置,包含DUV光刻、刻蝕、薄膜沉積、離子注入、CMP減薄、清洗、檢測與量測等裝置與工藝,最終完成昇騰晶片的晶圓製造。由於昇騰晶片採用7nm及以下先進製程,對裝置精度和工藝控制要求極高,需依賴高端裝置和成熟工藝技術。
在無EUV光刻機條件下,需通過多重曝光工藝(如SAQP)將DUV波長壓縮至等效5nm級,但面臨套刻精度下降、良率損失問題。昇騰950系列採用國內晶圓廠中芯國際N+2工藝(類7nm)實現量產。
3、先進封裝技術
昇騰950採用Chiplet/2.5D先進封裝方案,涉及以下關鍵技術環節:
(1)2.5D/3D封測&環氧塑封料:矽中介層(Silicon Interposer)技術實現多顆計算 die 的高速互聯;而環氧塑封料與液體封裝膠,用於晶片級保護和散熱管理。
(2)FC-BGA封裝基板:高層數、細線寬/線距的有機基板,技術壁壘極高,國產化率持續提升。
(3)HBM(高頻寬儲存)封裝:自研HBM通過國記憶體儲廠商代工,需突破128GB大容量HBM與AI晶片的低延遲互連,記憶體控製器需支援FP4格式的硬體級壓縮。 配套昇騰950的高頻寬需求。
4、核心材料與零部件
ABF載板微細化:需支援5μm/5μm線寬線距的RDL重布線層,且介電常數需≤3.2以降低訊號延遲。
高速連接器可靠性:224G背板連接器需在10萬次插拔後仍保持阻抗偏差≤10%,同時滿足液冷環境下的耐腐蝕要求。
(二)中游:高速互聯與系統整合--價值量最大
華為Atlas 950 SuperPod採用了全光互聯架構,其硬體層面的增量需求集中在高頻高速資料傳輸與高功耗散熱。該領域是短期內業績彈性最大、確定性最強的細分賽道,也是產業鏈中技術迭代最快、價值增量最大的環節。
1、高速連接器:
昇騰950晶片的高速連接器是專為昇騰950晶片及其超節點架構設計的高速互聯元件,用於實現晶片間、板卡間及機櫃間的高速資料傳輸,是保障昇騰950超節點高頻寬、低時延互聯的關鍵部件。目前主要有以下兩類:
① 高速背板連接器:主要由華豐科技供應,是昇騰950超節點機櫃內晶片間高速互聯的核心部件,支援224Gbps傳輸速率,適配“靈衢”全光互聯協議,滿足超節點高頻寬、低時延需求,是保障機櫃內資料傳輸效率的關鍵。
② 高速線對/背板連接器:主要由意華股份供應,主要滿足超節點內部短距互聯需求,支援800Gbps銅纜互聯,與華豐科技的高速背板連接器形成互補,共同保障超節點內部及機櫃間的訊號傳輸穩定性。
2、光模組與全光互聯:
光模組是昇騰950晶片實現高速光互聯的物理載體,負責在晶片、板卡、機櫃之間傳輸光訊號,實現資料的快速交換。
昇騰主要採用400G/800G高速光模組,單卡需配置18-26個光模組,以滿足單卡2TB/s的互聯頻寬需求。
另外,基於華為自研的“靈衢”(UnifiedBus)互聯協議,昇騰950採用全光無損互聯技術,以光纖為傳輸介質,替代傳統銅纜互聯。突破銅纜互聯的頻寬、距離和功耗限制,支援超大規模叢集的無收斂互聯,實現記憶體統一編址和算力池化,滿足兆級大模型訓練和推理的通訊需求。其中:
① 短距互聯:單板內或機櫃內採用電互聯(PCB/高速銅線),板間或櫃內通過光模組直連,無中間交換機。
② 長距互聯:跨機櫃或超節點規模(如8192卡叢集)時,通過MEMS OCS(光交換)光交換機實現全光Mesh互聯,櫃間頻寬達16.3PB/s,時延低至百納秒級。
3、液冷散熱:
昇騰950及超節點功耗極高,傳統風冷已無法滿足散熱需求,液冷成為剛需配置。分為幾類:
① 冷板液冷:提供冷板、管路、CDU(冷卻分配單元)全品類產品,佔據超節點液冷市場主要份額。
② 全液冷方案:為Atlas 950高密度部署提供全套散熱保障。
③ 風液混合系統:聯合開發的混合散熱方案,適應不同功耗場景。
(三)下游:軟體生態&大廠應用
下遊客戶的大規模採購與底層軟體的適配,是昇騰950完成商業閉環的最終檢驗。開發者生態決定市場份額,昇騰的CANN架構要持續迭代,相容主流AI框架。
1、軟體框架與適配
CANN架構:昇騰的異構計算架構,是生態核心壁壘。CANN支援SIMD(單指令多資料)和SIMT(單指令多線程)雙程式設計模型,相容CUDA程式設計習慣,降低開發者遷移成本。
另外,開發者可通過CANN的適配層,支援TensorFlow、PyTorch等主流深度學習框架的模型遷移和運行,完成CANN遷移。
例如,國內三大營運商(中國移動、中國聯通、中國電信)大規模集采已明確全線採用該生態方案,其成熟度直接決定昇騰晶片的易用性和開發者遷移成本。
2、行業應用與模型適配
(1)兆參數大模型適配:受益於DeepSeek V4展現出的強大性能及極具性價比的推理成本,國產頭部大模型已完成對昇騰950的適配,採用FP4精度計算,標誌著國產大模型與國產晶片的深度融合。
例如,阿里、騰訊、字節跳動等頭部網際網路企業正大規模追加昇騰950訂單。這樣勢必會加速國產AI算力晶片的發展,減少對國外晶片的依賴。
(2)垂直行業落地:政府、金融風控、醫療影像、自動駕駛、工業AI質檢等場景加速滲透,為各行業的智能化升級提供堅實的算力支撐。
四、細分標的
以下為不完全列舉,據公開資訊整理,不構成任何投資建議:
1、晶片製造與材料層
(1)晶片設計
① 華為海思:NPU架構設計,由完全自主設計,是昇騰950PR、950DT晶片的自研架構設計方。
(2)晶圓代工
① 中芯國際:作為昇騰950系列唯一的晶圓代工廠,採用N+2工藝(類7nm)量產,產能優先供給AI晶片,直接決定昇騰出貨量。
(3)封裝測試
① 興森科技,是PC-BGA封裝基板核心供應商,技術壁壘非常高。
② 長電科技,Chiplet封裝主力,2.5D/3D先進封測核心合作方,已批次供貨。
③ 通富微電,多層堆疊封測主力,精準適配950PR封裝需求。
④ 賽騰股份,HBM檢測裝置供應商,國內唯一直接為三星、SK海力士HBM產線檢測裝置,為自研HBM產線擴產直接受益。
⑤ 深南電路:國內高端PCB(印製電路板)與封裝基板領域的雙料龍頭,昇騰PCB核心供應商。
⑥ 強一股份:國內半導體測試探針卡領域的龍頭企業,哈勃投資(華為旗下)的持股比例為4.80%。
(4)核心材料
① 飛凱材料:環氧塑封料及LMC液體封裝膠通過盛合晶微(華為封裝供應鏈)用於昇騰910/950封裝。
② 華海誠科:公司是國內首批次產HBM封裝用顆粒狀環氧塑封料(GMC)的企業,GMC產能達2000噸,已通過SK海力士等國際儲存大廠認證,HBM材料業務佔比超40%,在3D封裝、Chiplet等先進封裝技術中發揮關鍵作用。
2、高速互聯與系統整合層
(1)高速互聯
① 華豐科技:昇騰高速背板連接器龍頭,是"靈衢"互聯方案的核心硬體供應商。產品覆蓋56G→112G→224G全速率梯度,已完成Atlas 950/350全系列產品認證。華為為其第一大客戶。
② 意華股份:高速I/O連接器與光模組元件核心供應商,在昇騰供應鏈中份額佔比達50%,800G高速連接器已批次供貨華為。
(2)全光交換
① 賽微電子:華為昇騰950超節點OCS(光路交換)光交換的核心上游,獨家代工MEMS微鏡晶片(用於OptiXtrans DC808 OCS交換機)和矽光晶片。
② 光迅科技:全光交換機8×8核心供應商,配套950超節點;同時提供2×4超節點光模組。
③ 華工科技:全球光模組行業前十廠商,國內少數能實現3.2T光通訊模組規模化量產的企業,與950PR及超節點中台合作。
(3)交換晶片
① 盛科通訊:國產乙太網路交換晶片份額第一,產品覆蓋從接入層到核心層的全系列交換晶片,支援100M-800G連接埠速率和100Gbps-25.6Tbps交換容量,其12.8Tbps/25.6Tbps高端旗艦晶片已進入客戶推廣和應用階段,性能接近國際競品水平。
② 萬通發展:通過收購數渡科技,成為國內極少數掌握PCIe 5.0交換晶片全流程自主設計能力並實現量產的企業。其產品性能對標國際主流競品,填補了國內空白,已進入寒武紀、阿里雲等供應鏈。
③ 裕太微:為哈勃投資(華為旗下)為第一大外部股東,國內乙太網路物理層晶片(PHY)領域的龍頭企業。
(4)伺服器
① 華鯤振宇:昇騰伺服器出貨量市佔率第一,唯一同時獲得"鯤鵬+昇騰"雙領先級認證、連續兩年獲評戰略級夥伴的企業,"天宮"系列AI伺服器已量產並進入多個省級智算中心。
② 拓維資訊:華為"鑽石級"合作夥伴,自研"兆瀚"系列AI伺服器,全權負責Atlas系列部分代工生產,年產能力達20萬台。
③ 神州數位:昇騰全球總經銷商,子公司神州鯤泰生產昇騰伺服器,中標中國移動2026-2027年AI超節點裝置集采(60億元等級)。
④ 工業富聯:AI算力基礎設施龍頭,在AI伺服器、高速交換機、液冷技術及工業網際網路領域均處於行業領先地位,2025年其AI伺服器全球市佔率超40%。
(5) 系統整合
① 深圳華強:中國本土電子元器件分銷龍頭企業,昇騰APN金牌部件夥伴,核心優勢在於繫結昇騰、海思等國產晶片,AI算力分銷市佔率達25-30%。
② 軟通動力:華為頂級軟體夥伴,軟通動力通過收購同方電腦,補齊了國產算力硬體短板,成為鯤鵬、昇騰等國產晶片生態的核心合作夥伴。
③ 長江計算:主研發通算、智算、高性能計算、儲存等全系列國產化伺服器,支援國產晶片(如鯤鵬、昇騰)和作業系統。
(6)散熱
① 川潤股份:提供冷板、管路、CDU全品類液冷產品,佔據昇騰超節點液冷市場較大份額,為Atlas 950高密度部署提供散熱保障。
② 高瀾股份:國內少數同時掌握冷板式與浸沒式雙技術路線的廠商,浸沒式液冷市佔率超60%,位列行業第二,是輝達、Google等全球頭部算力企業的液冷核心供應商。
③ 依米康:國內資料中心溫控領域的領軍企業,專注於精密空調、液冷系統等溫控裝置的研發、生產和解決方案提供。
④ 申菱環境:國內資料中心液冷溫控領域的核心企業,尤其在CDU(冷卻分配單元)產品方面市佔率領先。公司深度繫結華為、字節跳動、騰訊等頭部客戶,是華為昇騰生態核心液冷供應商。
⑤ 高德紅外:國內唯一量產製冷/非製冷雙路線紅外晶片的企業,打破國外技術壟斷,擁有自主可控的紅外晶片研發與生產能力,技術覆蓋非製冷(氧化釩)、碲鎘汞(MCT)及Ⅱ類超晶格(T2SL)等主流技術路線。
3、軟體生態與行業應用
① 潤和軟體:鴻蒙+昇騰雙生態核心夥伴,完成CANN遷移,智算一體機已落地。
② 東華軟體:綜合型IT服務龍頭,在醫療、金融、智慧城市軟體服務,在CANN領域形成覆蓋硬體部署、軟體適配、場景落地的全端服務能力。
③ 科大訊飛:昇騰生態最大的應用合作方,依託星火大模型樹立行業標竿。 (Aiden的硬科技行研)
