8月。
原計畫四季度才亮相的昇騰950DT,提前到了8月上線華為雲平台。
這不是一次簡單的"提前交卷"。這塊晶片身上綁著華為整個AI算力戰略最敏感的一根神經——HBM(高頻寬儲存)。
全球100%的HBM產能被三家死死攥著:SK海力士約佔一半,三星、美光瓜分剩下的一半。2026年產能全部預訂一空,SK海力士計畫五年內晶圓產能翻倍。國金證券判斷:記憶體短缺將持續至2030年。
華為昇騰,中國AI晶片半壁江山。但因為出口管制,這三家的HBM,一塊都買不到。
晶片造出來了,記憶體買不到。算力再強,沒有HBM就是"空轉"——AI晶片喂不飽資料,再大的模型也跑不動。
現在,華為亮出了自己的答案。
第一局:950DT和950PR——華為把HBM分了兩條路
2025年9月,華為正式公佈自研HBM技術,分兩個版本:
HiBL 1.0——128GB容量,1.6TB/s頻寬。走量降本。
HiZQ 2.0——144GB容量,4TB/s頻寬。走性能。
兩個版本分別搭載在兩款不同的昇騰950系列晶片上,形成差異化佈局:
昇騰950PR:搭載HiBL 1.0,主打降本。128GB大容量夠裝,1.6TB/s頻寬夠用。主要服務推理預填充(Prefill)階段和推薦系統——這些場景對記憶體容量的需求遠大於對極限頻寬的渴求。簡單說,它要的是"裝得多"。
昇騰950DT:搭載HiZQ 2.0,主打性能。144GB容量只比PR多了16GB,但頻寬直接飆到4TB/s——是PR的兩倍半。專為推理解碼(Decode)和高強度訓練設計。這些場景對資料傳輸速度極其敏感,模型每生成一個Token都需要高速讀取海量參數。簡單說,它要的是"跑得快"。
為什麼要分兩條路?
因為AI推理的兩個階段,對記憶體的需求完全不一樣。
Prefill(預填充):模型一次性處理使用者輸入的所有Token,需要把大段文字快速塞進記憶體。這個階段頻寬不是瓶頸,容量才是——你得裝得下。HiBL 1.0的128GB就是幹這個的。
Decode(解碼):模型逐個生成Token回覆使用者,每一步都要從記憶體裡讀取全部模型參數。這個階段容量不是瓶頸,頻寬才是——你得讀得快。HiZQ 2.0的4TB/s就是幹這個的。
打個不恰當的比方:950PR是大貨櫃車,一次裝128噸,慢慢跑也無所謂,關鍵得裝得下。950DT是高鐵,不用裝那麼多,但144噸的貨得4TB/s的速度狂奔。
華為沒有試圖造一塊"萬能"HBM去對標SK海力士,而是把場景拆開,對應用兩套方案。這是一種很務實的產品思維——不追最強,追最合適。
而最炸裂的消息是:950DT原計畫四季度發佈,現在提前到了8月。性能較前代翻倍以上,核心合作夥伴DeepSeek將優先部署,有望在8月推出搭載其算力的V4.2版本大模型。
DeepSeek V4 + 昇騰950DT + HiZQ 2.0——如果8月真的落地,這就是中國AI算力全端自研的第一次閉環跑通。
💰三巨頭的HBM是通用方案——一塊晶片打天下。華為的HBM是定製方案——950PR裝得多,950DT跑得快。不追最強,追最合適。務實,是買不到東西時最靠譜的策略。
第二局:4TB/s意味著什麼——華為走到那一步了
4TB/s頻寬,聽起來很嚇人。但它到底在什麼水平?
我們來做個對比。
普通DDR5記憶體的匯流排寬度64-bit,頻寬大概100GB/s出頭。HBM靠的是3D堆疊——把多層DRAM像"千層餅"一樣疊在一起,用矽通孔(TSV)連接,匯流排寬度做到1024-bit,頻寬直接飆到TB/s等級。
華為的自研HBM,用的同樣是3D堆疊+TSV的技術路線。但關鍵問題是:華為能做到什麼程度?
目前行業天花板大致是這樣的:
SK海力士HBM3E:單堆疊約1.2TB/s,8層堆疊24GB。最新HBM4E樣品已達12層48GB
三星HBM3E:類似水平,單堆疊約1.2TB/s
美光HBM3E:略低,約1TB/s
華為HiZQ 2.0標稱4TB/s。如果這個數字是真實的總頻寬,那意味著華為的HBM方案可能採用了多堆疊封裝——把多個HBM堆疊並排焊在晶片旁邊,頻寬疊加。
這並不罕見。行業主流AI晶片普遍採用多堆疊方案實現高頻寬——6個HBM3堆疊並排,總頻寬約3.35TB/s。華為如果用了類似的多堆疊方案,4TB/s是完全合理的數字。
但更重要的問題不是"4TB/s夠不夠打",而是——
華為從"買不到HBM"到"自研HBM 4TB/s",走了多遠?
2023年,出口管制收緊,華為被斷供先進HBM。
2025年9月,華為公佈HiBL 1.0和HiZQ 2.0。
2026年8月,950DT搭載HiZQ 2.0上線。
不到三年。從零到4TB/s。
這不是追上了三巨頭——SK海力士已經在交付12層HBM4E了。但華為的目標從來不是追上三巨頭,而是讓昇騰晶片不再"空轉"。
國產HBM目前還在什麼階段?21世紀經濟報導判斷:"國產HBM目前還在測試、試產階段。但這輪超級周期的利潤,有望變成明天攻克HBM先進封裝的子彈。"
華為的HiZQ 2.0可能就是這個判斷的最好註腳——不完美,但能用。而且方向對了。
💰從"買不到"到"自己造",華為用了不到三年。4TB/s不是行業天花板,SK海力士的HBM4E已經在12層堆疊48GB了。但華為不需要天花板——它需要的是一條"能跑起來的國產路"。8月的950DT會告訴我們,這條路到底通不通。
第三局:昇騰950DT如果跑通了,會發生什麼
最後聊一個更大的問題:950DT + HiZQ 2.0 + DeepSeek V4.2,這個組合如果8月落地,意味著什麼?
第一,中國AI算力全端自研第一次閉環。
晶片是華為昇騰950DT。HBM是華為自研HiZQ 2.0。模型是DeepSeek V4.2。部署平台是華為雲。
從晶片到儲存到模型到平台,整條鏈路沒有任何一環依賴海外供應商。這在三年前是不可想像的。
第二,DeepSeek的優先部署是一個訊號。
DeepSeek V4已經跑在昇騰上了——東華軟體6月8日確認完成適配。V4.2如果率先搭載950DT的算力,說明華為和DeepSeek的合作已經從"能用"升級到了"優先用"。
這意味著什麼?意味著華為昇騰不再只是"國產替代方案",而是DeepSeek主動選擇的算力平台。從被動替代到主動選擇,這是質變。
第三,華為雲的算力生意可能迎來拐點。
950DT提前上線華為雲,不是一個硬體發佈事件,而是一個雲服務產品發佈事件。華為雲賣的不是晶片,而是算力。如果950DT的4TB/s頻寬確實能讓大模型訓練和推理效率翻倍,那華為雲在AI算力市場的競爭力會上一個台階。
6月5日華為雲INSPIRE大會上發佈的Agentic Infra新範式,其中的"高效Token工廠",就是在最佳化Token在叢集中的生產和調度效率——讓有限的儲存頻寬被最大化利用。950DT的4TB/s頻寬 + Token工廠的調度最佳化,可能是華為雲AI算力的性能倍增器。
但也別太樂觀。三個現實問題:
1. 良率:國產HBM還在測試、試產階段。4TB/s是標稱值,大規模量產能不能穩定在這個水平,未知。
2. 產能:即使技術達標,產能爬坡需要時間。SK海力士用了五年才把HBM產能翻倍,華為不可能一蹴而就。
3. 生態:硬體有了,軟體適配、客戶遷移、維運體系……這些都是慢功夫。
💰950DT如果8月落地,它不是一塊晶片的發佈,而是一個訊號——中國AI算力從"有沒有"進入"好不好"的新階段。有和好之間,差著整個產業鏈。但至少,"有"的問題解決了。
收尾:8月見真章
華為昇騰950DT,2026年8月上線。
搭載自研HiZQ 2.0,4TB/s頻寬,144GB容量。
核心合作夥伴DeepSeek優先部署,有望推出V4.2版本。
從"買不到HBM"到"自研HBM 4TB/s",不到三年。
不完美,但方向對了。而且速度比預期快——原計畫四季度,提前到了8月。
⚔️ 站隊時間:950DT + HiZQ 2.0,8月能兌現嗎?
A. 能兌現:4TB/s + DeepSeek V4.2,中國AI算力全端自研第一次閉環跑通。華為雲算力業務迎來拐點
B. 部分兌現:晶片和HBM如期上線,但性能和穩定性還需要幾個版本迭代。方向對了,但"好用"還需要時間
C. 兌現不了:4TB/s是理想值,量產良率和產能爬坡是硬約束。8月發佈的可能是一個"能用但不夠好"的版本
我站B。理由——華為自研HBM從零到4TB/s用了不到三年,速度已經超出預期。但HBM不是靠決心就能追的,良率和產能是物理層面的問題。8月發佈的950DT大機率是"能用"的版本,距離"好用"還需要迭代。不過好消息是:華為不需要最好的HBM,只需要夠用的國產HBM。4TB/s + DeepSeek最佳化,已經夠讓昇騰在中國AI市場站穩了。你站那邊?8月見。 (財不emo)
