56億昇騰訂單撕碎輝達CUDA壟斷

2026/05/04

•

2026年4月，華為在深圳正式啟動昇騰950PR大規模量產。這款單卡FP4算力1.56PFlops的推理晶片，性能是輝達針對中國特供的H20的2.8倍。

剛過去的4月底，字節跳動確認拋出56億美元採購單，鎖定約35萬顆，直接創下中國國內AI晶片採購的歷史紀錄。現在國內AI基建已經徹底從“湊合用的備份”，轉成主動選國產替代的階段。

DeepSeek V4的發佈是關鍵轉折點。這款1兆參數的MoE大模型，原本定在2026年初發，特意推遲了3個月重構，專門適配昇騰950PR和寒武紀的硬體。阿里雲、騰訊雲在V4發佈當天就完成了全端部署。全行業都看得懂：硬體性能突破和軟體生態解耦正在同步發生，輝達靠CUDA鎖了十幾年的開發者生態，真的要鬆了。

FP4性能反超H20 昇騰產能直接拉滿

昇騰950PR直接把國產AI晶片的性能天花板抬了一大截。 FP4精度下1.56PFlops的推理吞吐量，比輝達H20高1.8倍。它也是目前唯一支援FP4壓縮格式的國產晶片，跑大規模MoE模型的時候，記憶體頻寬消耗更低，能扛更多並行請求。

產能兌現的突破比參數更實在。華為2026年全年計畫出貨75萬顆，單價約1.6萬美元，現在現貨價格已經因為搶貨漲了20%，完全是賣方市場。 75萬顆的年產能，意味著昇騰950PR已經從實驗室樣品變成了工業級基礎設施，足夠扛住全國數百萬並行AI查詢的需求。字節一家的35萬顆訂單就佔了全年規劃產能的近一半，頭部網際網路廠的算力採購邏輯早就變了。

CUDA直接相容遷移成本砍到零

昇騰950PR最有戰略價值的不是硬體性能，是它的CUDA相容軟體棧。現有基於輝達CUDA開發的AI workload，不用重寫程式碼就能直接遷過去，徹底解決了之前國產晶片落地推廣最大的“移植成本”問題。之前開發者牴觸非輝達硬體，主要就是改核心程式碼太費人力時間，現在950PR靠二進制相容層做到了幾乎零摩擦遷移。坊間資料說，2025年國內已經有超過3000個常用大模型完成了昇騰適配，相容層跑起來的效率能到原生CUDA環境的95%以上。

DeepSeek V4推遲發佈，剛好印證了這條路線走得通。開發團隊花了三個月針對昇騰和寒武紀硬體重構模型架構，最終最佳化版本的推理效率，比基於輝達硬體的原始方案還高一點。這種“模型主動適配硬體”的操作，直接打破了之前“硬體必須遷就主流模型”的慣性。阿里雲百煉、騰訊雲TokenHub在V4發佈當天就上線了基於昇騰950PR的推理服務，整個行業的遊戲規則已經變了。

56億大單鎖半產能國產替代閉環跑通

字節這56億美元的訂單，是中國半導體史上最大的單筆AI晶片採購單。不僅鎖了華為2026年近半的950PR產能，訊號效應比訂單本身還大。阿里、騰訊等雲服務商緊跟著就下了大規模預購，全年75萬顆的產能剛公佈就被搶光了。這種“需求端先給訂單-產能端滿負荷跑-供應鏈快速成熟”的正向循環，直接解了之前國產AI晶片“沒訂單就沒迭代，沒迭代就沒訂單”的死局。

價格的變化最能說明市場地位的反轉。 1.6萬美元的單價加上20%的現貨溢價，說明昇騰950PR已經是市場搶著要的硬通貨。之前國產晶片要靠打折才能搶市場，現在國內企業願意為自主可控的算力付溢價。這種商業可持續性直接給後續研發喂足了現金流，華為已經公開路線圖，2027年、2028年將分別推出昇騰960、970系列，代際迭代的正循環已經跑通了。

DeepSeek V4原生適配軟硬體協同效率拉滿

DeepSeek V4選昇騰950PR當原生最佳化平台，標誌著國內AI產業進入了“軟硬體協同設計”的新階段。這款1兆參數的MoE模型，每次推理只啟動370億參數，對記憶體頻寬和稀疏計算效率要求極高。 950PR的FP4支援能力和高頻寬記憶體設計，剛好踩中了MoE模型的稀疏啟動特性，推理成本比傳統稠密模型低了近40%。

這種協同效應已經在改雲廠商的採購邏輯。阿里雲、騰訊雲當天就完成部署，不是簡單的軟體適配，是直接基於950PR的硬體特性重寫了推理服務架構。 DeepSeek已經公開說，2026年下半年昇騰950超級節點規模出貨後，V4-Pro的API定價會大幅下調，國產硬體的成本優勢已經開始直接傳導到終端使用者。對比之下，輝達H200因為中美監管拉扯，至今沒能進中國市場，剛好給國產晶片留足了空間。

H200卡殼進不來國產算力窗口期已到

現在的市場格局，剛好踩中了監管的時間差。輝達H200理論性能確實比昇騰950PR強，也拿到了出口許可，但中美雙方在銷售細則上扯了快半年，至今沒完成對華出貨。這12到18個月的空窗期，剛好給華為留足了滲透國內雲基礎設施的時間。 950PR靠性能超H20、產能爬坡快、生態無縫遷的三重優勢，已經搶下了國內AI算力新增市場的大半份額。

2025年北京就停了輝達H20的進口，剛好接上昇騰950PR的量產節奏。現在H20徹底買不到，H200又沒影子，國內AI產業已經進入了“後輝達”的過渡階段。 DeepSeek、字節、阿里、騰訊這些產業鏈核心玩家的選擇，正在把過渡期變成不可逆的結構性轉移。等2026年下半年75萬顆950PR全部部署到位，就算H200之後能進來，市場格局也早就重新洗牌了。

2025年國內昇騰開發者數量已經突破120萬，比2024年翻了一倍。阿里雲2025年Q4的AI算力訂單裡，昇騰佔比已經超過40%。等今年75萬顆昇騰950PR全部落地，國內AI產業第一次有了完全自主可控、性能對標國際主流、生態無縫銜接的算力基座。這不是簡單的供應鏈替代，是真真正正把算力主權握在了自己手裡。 (硅基LIFE)

科技

56億昇騰訂單 撕碎輝達CUDA壟斷

FP4性能反超H20 昇騰產能直接拉滿

CUDA直接相容 遷移成本砍到零

56億大單鎖半產能 國產替代閉環跑通

DeepSeek V4原生適配 軟硬體協同效率拉滿

H200卡殼進不來 國產算力窗口期已到

56億昇騰訂單撕碎輝達CUDA壟斷

CUDA直接相容遷移成本砍到零

56億大單鎖半產能國產替代閉環跑通

DeepSeek V4原生適配軟硬體協同效率拉滿

H200卡殼進不來國產算力窗口期已到