H20禁售,中國芯接得住嗎?
我跟一個在大模型大廠做部署的朋友聊,他一臉苦笑:“H20庫存還能頂半年,但後面怎麼搞,沒人敢拍胸脯。”
這不是戲劇衝突,是一場真實的斷供倒數計時。
2024年H20國內銷售額高達170億美元,佔輝達全球營收的13%。
不是因為它最強,而是它能合法買、能批次部署、能支撐國內主流大模型推理落地。
從字節跳動的豆包,到DeepSeek的模型部署,再到科大訊飛的教育AI——幾乎你能叫得出名字的國產大模型背後,都有H20的身影。
但現在,這顆核心突然被砍掉。
摩根士丹利預測H20最遲將在2025年Q3停止銷售,國內頭廠商雖已囤下約10萬台伺服器(對應1300億貨值),但庫存僅夠支撐到2026年初。
倒數計時,已經開始。
H20實力幾何?推理很能打,但訓練差點火候
H20是輝達為中國市場「客制化」的閹割版Hopper架構晶片,算力是H100的1/7,但保留了關鍵功能:
- FP16推理算力較弱,但推理時能靠高視訊記憶體(96GB)與多卡堆疊逆襲
- Prefill階段較慢(首Token生成延遲約2.8秒)
👇性能參數全覽:
- 架構:Hopper,保留HBM3E視訊記憶體與NVlink互聯
- 視訊記憶體頻寬:96GB
- 推理算力(FP16):H100的1/7
- 推理速度:Llama2-13B模型下,優於A100的1.8倍、H100的1.1倍
👉 為什麼它推理反而比H100快?
因為它在Decode階段(視訊記憶體頻寬為瓶頸)表現極佳,每秒能產生57個Token,遠超過人類閱讀速度(20Token/s)。
也就是說,H20在「解碼」環節表現亮眼,但一遇到複雜任務(長文字摘要、千億參數訓練),立刻掉鍊子。
但它的短板也顯而易見:
- Prefill階段性能掉速,生成首Token平均耗時達2.8秒
- 在輸入長、輸出短的場景(如摘要生成),全程速度甚至低於A100
所以,H20不適合訓練,適合中小模型推理場景,這也是它在中國賣爆的核心邏輯。
不過,它有兩個中國市場獨有的優勢:
- 合規合法
- 能大量採購部署(2024年已部署10萬台,價值超1300億人民幣)
這決定了它的市場地位——推理場景下的國產「主引擎」。
國產三駕馬車齊驅:升騰910C、思元370、BR100 華為升騰910C
- 採用Chiplet封裝
- 單卡算力達H100的80%
- 搭建CloudMatrix384超節點叢集,已在蕪湖大規模商用
- 多卡互聯頻寬接近GB200,推理效能接近H100
華為還能打出一個殺招:能效
在中國PUE<1.5的新規下,H20高功耗將被邊緣化,而升騰更節能,單位功耗性能為H20的2倍,註定是「政策加持種子選手」。
❄️ 寒武紀思元370
- DeepSeek大模型已適配部署
- 在中等推理任務中表現接近H20
- 但訓練能力和叢集擴展性仍略弱
值得注意的是,思元370是目前中小企業轉向國產替代的首選方案,被廣泛部署在文旅、電商、客服等細分AI場景中。
🔥 壁仞BR100
- 能源效率比H20高2倍
- 多卡部署能力較強,適配主流AI框架
- 唯一劣勢:軟體生態仍欠打磨,主流演算法調優仍需時間
這三款晶片,已實現70%的推理能力接棒,但在千億參數訓練、長文字、生成式大模型上——還得靠那批H20庫存或海外算力。
真實短板:生態軟肋、製程落後、產能難題
1. 軟體生態軟肋:
- CUDA壁壘尚未完全破解
- 國內仍需投入千人級團隊長期做適配,仍靠“補丁+努力”
2. 硬體代差現實:
- H20採用4nm製程
- 國產主流晶片仍基於7nm/14nm甚至28nm
- 摩根士丹利預計國產晶片整體能源效率落後5-7倍
3. 產能與供需矛盾:
- 升騰910C與寒武紀370現階段供不應求
- 華勤技術、浪潮等廠商表示2025上半年僅能滿足30-50%訂單量
市場斷供窗口:庫存撐到2026,國產能否接棒?
2025年國產晶片在推理市場佔有率預計將從15%提升至25%-35%,替代路徑如下:
- 大廠“混合策略”:海外GPU租賃+升騰/寒武紀國內部署
- 中小工廠“全國產替代”:直接上牆910B、思元370低功耗模型
- 演算法最佳化組合拳:靠量子裁剪、低秩分解、LoRA等技術降維使用低算力晶片
可以說,2026年前是關鍵接力期。誰能在生態、工藝、產能三位一體突破,誰能「接住H20的槍」。
更重要的是政策給了壓力也給了機會:
- 新PUE能源效率紅線(<1.5):高功耗H20將被邊緣化
- CPT(國產可控推理晶片)項目
正密集推動,鼓勵主流框架國產適配
國產芯真正「接棒」需要完成的是軟硬體生態的雙修與垂直整合。
洞主有話說
這不是終點,是一場更長的算力長征。
我們必須承認,H20禁售是短期陣痛,國產晶片即便接住了推理,也還沒徹底接住訓練。
但這場挑戰,也是一場洗牌:從“追著買卡”,變成“自己造卡”。
洞主送你一句金句壓陣:
算力不是終點,自主生態才是底牌。
這場戰鬥,不是GPU的獨角戲,而是晶片、系統、演算法、架構、人才全端突破的總動員。
未來3年,中國AI晶片若能跨過這三關:
- 自主IP設計+先進製程;
- 成熟軟體生態+國際相容性,生態重構+大模型原生適配;
- 超大規模低功耗叢集部署,多卡互聯+低能耗設計。
那麼,就算沒有H20,中國也必須打造出屬於自己的AI引擎。
這不是幻想,這是正在被現實倒逼出來的路徑。 (藏金洞)