4TB/s，華為把HBM造出來了——昇騰950DT的"糧倉"不再靠別人

2026/06/11

•

AI速讀

華為提前於8月推出昇騰950DT AI晶片，搭載自研HiZQ 2.0 HBM記憶體，頻寬達4TB/s，旨在突破美國出口管制導致的記憶體短缺。華為採取務實策略，將產品分為主打容量的950PR與主打性能的950DT，以精準適配AI推理的不同階段。若與DeepSeek V4.2模型成功整合，將實現中國AI算力從晶片、記憶體到模型與平台的全端自研閉環。儘管仍面臨量產良率與產能爬坡的挑戰，但此舉標誌著國產算力從「有沒有」邁向「好不好」的質變階段。

8月。

原計畫四季度才亮相的昇騰950DT，提前到了8月上線華為雲平台。

這不是一次簡單的"提前交卷"。這塊晶片身上綁著華為整個AI算力戰略最敏感的一根神經——HBM（高頻寬儲存）。

全球100%的HBM產能被三家死死攥著：SK海力士約佔一半，三星、美光瓜分剩下的一半。2026年產能全部預訂一空，SK海力士計畫五年內晶圓產能翻倍。國金證券判斷：記憶體短缺將持續至2030年。

華為昇騰，中國AI晶片半壁江山。但因為出口管制，這三家的HBM，一塊都買不到。

晶片造出來了，記憶體買不到。算力再強，沒有HBM就是"空轉"——AI晶片喂不飽資料，再大的模型也跑不動。

現在，華為亮出了自己的答案。

第一局：950DT和950PR——華為把HBM分了兩條路

2025年9月，華為正式公佈自研HBM技術，分兩個版本：

HiBL 1.0——128GB容量，1.6TB/s頻寬。走量降本。

HiZQ 2.0——144GB容量，4TB/s頻寬。走性能。

兩個版本分別搭載在兩款不同的昇騰950系列晶片上，形成差異化佈局：

昇騰950PR：搭載HiBL 1.0，主打降本。128GB大容量夠裝，1.6TB/s頻寬夠用。主要服務推理預填充（Prefill）階段和推薦系統——這些場景對記憶體容量的需求遠大於對極限頻寬的渴求。簡單說，它要的是"裝得多"。

昇騰950DT：搭載HiZQ 2.0，主打性能。144GB容量只比PR多了16GB，但頻寬直接飆到4TB/s——是PR的兩倍半。專為推理解碼（Decode）和高強度訓練設計。這些場景對資料傳輸速度極其敏感，模型每生成一個Token都需要高速讀取海量參數。簡單說，它要的是"跑得快"。

為什麼要分兩條路？

因為AI推理的兩個階段，對記憶體的需求完全不一樣。

Prefill（預填充）：模型一次性處理使用者輸入的所有Token，需要把大段文字快速塞進記憶體。這個階段頻寬不是瓶頸，容量才是——你得裝得下。HiBL 1.0的128GB就是幹這個的。

Decode（解碼）：模型逐個生成Token回覆使用者，每一步都要從記憶體裡讀取全部模型參數。這個階段容量不是瓶頸，頻寬才是——你得讀得快。HiZQ 2.0的4TB/s就是幹這個的。

打個不恰當的比方：950PR是大貨櫃車，一次裝128噸，慢慢跑也無所謂，關鍵得裝得下。950DT是高鐵，不用裝那麼多，但144噸的貨得4TB/s的速度狂奔。

華為沒有試圖造一塊"萬能"HBM去對標SK海力士，而是把場景拆開，對應用兩套方案。這是一種很務實的產品思維——不追最強，追最合適。

而最炸裂的消息是：950DT原計畫四季度發佈，現在提前到了8月。性能較前代翻倍以上，核心合作夥伴DeepSeek將優先部署，有望在8月推出搭載其算力的V4.2版本大模型。

DeepSeek V4 + 昇騰950DT + HiZQ 2.0——如果8月真的落地，這就是中國AI算力全端自研的第一次閉環跑通。

💰三巨頭的HBM是通用方案——一塊晶片打天下。華為的HBM是定製方案——950PR裝得多，950DT跑得快。不追最強，追最合適。務實，是買不到東西時最靠譜的策略。

第二局：4TB/s意味著什麼——華為走到那一步了

4TB/s頻寬，聽起來很嚇人。但它到底在什麼水平？

我們來做個對比。

普通DDR5記憶體的匯流排寬度64-bit，頻寬大概100GB/s出頭。HBM靠的是3D堆疊——把多層DRAM像"千層餅"一樣疊在一起，用矽通孔（TSV）連接，匯流排寬度做到1024-bit，頻寬直接飆到TB/s等級。

華為的自研HBM，用的同樣是3D堆疊+TSV的技術路線。但關鍵問題是：華為能做到什麼程度？

目前行業天花板大致是這樣的：

SK海力士HBM3E：單堆疊約1.2TB/s，8層堆疊24GB。最新HBM4E樣品已達12層48GB

三星HBM3E：類似水平，單堆疊約1.2TB/s

美光HBM3E：略低，約1TB/s

華為HiZQ 2.0標稱4TB/s。如果這個數字是真實的總頻寬，那意味著華為的HBM方案可能採用了多堆疊封裝——把多個HBM堆疊並排焊在晶片旁邊，頻寬疊加。

這並不罕見。行業主流AI晶片普遍採用多堆疊方案實現高頻寬——6個HBM3堆疊並排，總頻寬約3.35TB/s。華為如果用了類似的多堆疊方案，4TB/s是完全合理的數字。

但更重要的問題不是"4TB/s夠不夠打"，而是——

華為從"買不到HBM"到"自研HBM 4TB/s"，走了多遠？

2023年，出口管制收緊，華為被斷供先進HBM。

2025年9月，華為公佈HiBL 1.0和HiZQ 2.0。

2026年8月，950DT搭載HiZQ 2.0上線。

不到三年。從零到4TB/s。

這不是追上了三巨頭——SK海力士已經在交付12層HBM4E了。但華為的目標從來不是追上三巨頭，而是讓昇騰晶片不再"空轉"。

國產HBM目前還在什麼階段？21世紀經濟報導判斷："國產HBM目前還在測試、試產階段。但這輪超級周期的利潤，有望變成明天攻克HBM先進封裝的子彈。"

華為的HiZQ 2.0可能就是這個判斷的最好註腳——不完美，但能用。而且方向對了。

💰從"買不到"到"自己造"，華為用了不到三年。4TB/s不是行業天花板，SK海力士的HBM4E已經在12層堆疊48GB了。但華為不需要天花板——它需要的是一條"能跑起來的國產路"。8月的950DT會告訴我們，這條路到底通不通。

第三局：昇騰950DT如果跑通了，會發生什麼

最後聊一個更大的問題：950DT + HiZQ 2.0 + DeepSeek V4.2，這個組合如果8月落地，意味著什麼？

第一，中國AI算力全端自研第一次閉環。

晶片是華為昇騰950DT。HBM是華為自研HiZQ 2.0。模型是DeepSeek V4.2。部署平台是華為雲。

從晶片到儲存到模型到平台，整條鏈路沒有任何一環依賴海外供應商。這在三年前是不可想像的。

第二，DeepSeek的優先部署是一個訊號。

DeepSeek V4已經跑在昇騰上了——東華軟體6月8日確認完成適配。V4.2如果率先搭載950DT的算力，說明華為和DeepSeek的合作已經從"能用"升級到了"優先用"。

這意味著什麼？意味著華為昇騰不再只是"國產替代方案"，而是DeepSeek主動選擇的算力平台。從被動替代到主動選擇，這是質變。

第三，華為雲的算力生意可能迎來拐點。

950DT提前上線華為雲，不是一個硬體發佈事件，而是一個雲服務產品發佈事件。華為雲賣的不是晶片，而是算力。如果950DT的4TB/s頻寬確實能讓大模型訓練和推理效率翻倍，那華為雲在AI算力市場的競爭力會上一個台階。

6月5日華為雲INSPIRE大會上發佈的Agentic Infra新範式，其中的"高效Token工廠"，就是在最佳化Token在叢集中的生產和調度效率——讓有限的儲存頻寬被最大化利用。950DT的4TB/s頻寬 + Token工廠的調度最佳化，可能是華為雲AI算力的性能倍增器。

但也別太樂觀。三個現實問題：

1. 良率：國產HBM還在測試、試產階段。4TB/s是標稱值，大規模量產能不能穩定在這個水平，未知。

2. 產能：即使技術達標，產能爬坡需要時間。SK海力士用了五年才把HBM產能翻倍，華為不可能一蹴而就。

3. 生態：硬體有了，軟體適配、客戶遷移、維運體系……這些都是慢功夫。

💰950DT如果8月落地，它不是一塊晶片的發佈，而是一個訊號——中國AI算力從"有沒有"進入"好不好"的新階段。有和好之間，差著整個產業鏈。但至少，"有"的問題解決了。

收尾：8月見真章

華為昇騰950DT，2026年8月上線。

搭載自研HiZQ 2.0，4TB/s頻寬，144GB容量。

核心合作夥伴DeepSeek優先部署，有望推出V4.2版本。

從"買不到HBM"到"自研HBM 4TB/s"，不到三年。

不完美，但方向對了。而且速度比預期快——原計畫四季度，提前到了8月。

⚔️ 站隊時間：950DT + HiZQ 2.0，8月能兌現嗎？

A. 能兌現：4TB/s + DeepSeek V4.2，中國AI算力全端自研第一次閉環跑通。華為雲算力業務迎來拐點

B. 部分兌現：晶片和HBM如期上線，但性能和穩定性還需要幾個版本迭代。方向對了，但"好用"還需要時間

C. 兌現不了：4TB/s是理想值，量產良率和產能爬坡是硬約束。8月發佈的可能是一個"能用但不夠好"的版本

我站B。理由——華為自研HBM從零到4TB/s用了不到三年，速度已經超出預期。但HBM不是靠決心就能追的，良率和產能是物理層面的問題。8月發佈的950DT大機率是"能用"的版本，距離"好用"還需要迭代。不過好消息是：華為不需要最好的HBM，只需要夠用的國產HBM。4TB/s + DeepSeek最佳化，已經夠讓昇騰在中國AI市場站穩了。你站那邊？8月見。 (財不emo)

科技