當地時間4月15日,美輝達發佈通知稱,美國政府9日告知,該公司H20晶片出口到中國需要許可證。
不斷強化並收緊AI晶片的出口管制口徑,是過去幾年美國商務部的慣常做法,但此次事件標竿性意義是美國首次對中國大陸特供版AI晶片下重手。
進而更多資訊傳出。英特爾已通知中國客戶,自2025年4月起,凡是晶片具備以下性能之一者,均需獲得美國政府許可方可出口:總DRAM頻寬達每秒1400GB或以上,輸入輸出(I/O)頻寬達每秒1100 GB或以上,或兩者之和達每秒1700 GB或以上,因此遠1100 GB或以上,或兩者之和達每秒1700 GB或以上,因此遠達系列,因此因英特爾性能明確。
同樣受限的還有AMD的MI308。由於英特爾Gaudi系列市場競爭力以及在華份額極為有限,中國大陸AI晶片市場受影響的主要來自輝達的H20和AMD的MI308,尤其是H20的斷供。
此時此刻,應中國貿促會邀請,輝達公司執行長黃仁勳抵達北京。我們無法妄自揣測他此次北京之行是否帶著大洋彼岸的“口信”,但肯定帶著心中的枷鎖,以及一些期盼和希望。
從去年夏天開始,美國對華鷹派國會議員就不斷向美國商務部施壓,要求將H20也列入管制清單,以license許可證的方式將其納入對中國大陸「卡脖子」範圍。
去年年底到今年年初,DeepSeek橫空出世震驚了全球,用了H800、A800和H20等的混合本地部署就可以做到低成本的優質AI推理,讓美方進一步意識到對華高端晶片加強遏制的必要性。
即便如此,H20突然被要求申請許可證才能拿貨,還是讓中美半導體行家們有些感到意外。
上周輝達股價飆升近18%,部分原因是有報導稱,在執行長黃仁勳出席海湖莊園晚宴後,川普政府計畫取消此類限制。
據說海湖莊園晚宴門票的入門門檻是一百萬美元,如果想在宴會上獲得川普單獨約見談話,估計此價格還要翻幾倍。
前不久心智觀察所連線美國知名科技調查記者,《黃仁勳:輝達之芯》的作者史蒂芬‧威特。威特在對話中談到黃仁勳完全對政治不感興趣,從不為任何政治人物站台或募捐,從不發表任何政治觀點,而且從未有過做客海湖莊園的經歷,還缺席了川普的就職典禮。
但四月中旬這次,可以說黃仁勳為了公司的未來和發展破例了,他買了門票去和川普面談。
以事後之見來看,當時輝達股價的飆升向市場釋放出了一個錯誤的訊號。而且在幾天前,輝達官方網站上突然發佈,將首次投入重資在美國本土生產AI晶片和超算叢集,與台積電聯手在亞利桑那州投入超過一百萬平方英呎的製造場地,用於製造和測試Blackwell晶片,並且還計畫在德克薩斯州生產和測試AI超算群。
這條新聞放出之後,某種程度上向外界強化了這樣一種認知,即黃仁勳和川普做了一個交易,通過向美國本土兩個州的工廠注資的方式換取H20繼續在華銷售。
但事實看來並非如此。
多位可靠的之情人士透露,最遲至4月10日,已經知曉內情的輝達並未提前警告至少部分主要客戶,讓中國大陸的主要的雲端運算公司仍在預計H20晶片將在年底前交付且並未意識到即將出台的限制措施,而且就連輝達的中國銷售團隊也被隔離在資訊牆之外,在公告前通知似乎也未得到通知。
根據以往輝達投資者交易記錄,美國前議長佩洛西的老公前兩年曾頻繁買入和在“合適時間點”拋售大量輝達股票,當時在野的川普在社交媒體上抨擊其為“內幕交易者”(insider trading”)。我們可以合理懷疑,處在第二次任期內的川普也許從佩洛西老公那裡得到了什麼靈感。
這一次,川普透過「交易的藝術」所獲得的可不僅僅從黃仁勳身上盤剝來的那百萬級的門票收入,還所圖甚廣。
輝達眾多閹割版AI加速器中,H20隻是其中一種,為何讓美國商務部如此忌憚,從去年夏天開始就頻頻密謀對華禁售?
用一句話總結概括,從推理的角度看,H20的性能絕對超過了另一版的閹割AI晶片H800,甚至在理論峰值情況下可以超過未閹割版的H100。
AI大模型的訓練過程更依賴於算力,因為反向傳播中的梯度計算和參數更新是計算密集型任務,雖然說訓練過程也需要一定的通訊頻寬來同步梯度,但推理過程更依賴於通訊頻寬,特別是在模型平行的情況下需要在GPU之間頻繁傳遞資料。
從公佈的參數來看,H20主要被閹割的是算力,H20的FP16、INT8等主要算力參數僅為A100的不足1/2,更是僅為H100的約1/7;但是H20有著驚人的頻寬(HBM容量96GB),而且H20通過NVlink架構,通過多卡使用、多卡堆疊模式,推理性能甚至可以超越非閹割版的H100,僅略遜於H200,其視訊記憶體頻寬在Decode階段H20每生成1個Token所需時間,通過測試低於A100、H100,這也使得H20在整個推理過程具有較高的推理速度。
我們不得不承認,華為910B雖然在訓練的單卡能力上可以超越H20,但在視訊記憶體頻寬方面遠遜於H20,訓/推的綜合性價比仍不如H20,這就是為什麼H20成為中國一眾雲端運算供應商的香鶴,一度成為搶手貨。
這裡還有一個問題需要回答。輝達為了遵守美國的出口管制條例,保證企業合規,閹割了算力,為何不把頻寬一起閹割掉,以徹底打消美國政客們的顧慮,何必搞出一個H20、L20、L2一系列的閹割版?這裡黃仁勳顯然還是動了小心思的。
他的想法是,即便是對華特供版的旗艦產品,上市之後也一定要超越中國本土AI晶片競品,只有這樣才能保證市場份額,既合規,也讓中國客戶產生依賴,消除潛在的競爭對手。史蒂芬·威特在和心智觀察所對話中也談到:“出口管制結果,會讓輝達的產品被強行擠出中國市場,客觀上刺激中國本土發展AI晶片的決心,為潛在的競爭對手騰出了空間。”
如今,H20和AMD的MI308一同需要出口許可證才能進入中國市場,黃仁勳的如意算盤暫時落空了。
H20需要許可證一事塵埃落地之後,輝達股價周三收盤下跌近7%,市值蒸發超過1,480億美元。 AMD股價下跌5.8%,並警告最新限制措施將對其造成8億美元的損失。
在截至1月26日的上一財年,中國市場為輝達創造了170億美元的收入,佔其總銷售額的13%。輝達內部計算過,由於許可要求,將在截至4月27日的第一季計提高達55億美元的費用,換言之,因庫存、採購承諾產生的損失為55億美元。
輝達全球區域銷售佔比
中國大陸的銷售額佔比已經由前年的超過20%降低到了去年的13%,但這170億美元仍不是個小數目。留下的市場空白,將由中國本土廠商在2025年加速追趕填補。
近期,華為升騰910C AI加速器的量產消息,無疑如同在平靜水面投下巨石,激起層層漣漪。 910C傚法了輝達最新一代的GB200的Chiplet模式,用了910B的多die拼接封裝的方式,強化了算力表現。海外分析師Lennart Heim對910C進行了抽絲剝繭一般的專業拆解,評估下來910C算力性能大概能達到H100的80%。
知名半導體分析機構semianalysis也做了詳細的拆解,參數顯示升騰910C的Scale Out頻寬已經可以匹敵輝達最先進的GB200。
升騰910C的Scale Out頻寬已經可以匹敵輝達最先進的GB200(@semianalysis)
不過,算力群集的規模效應往往比單卡效能的「極致參數」更為重要。在軟體生態上,升騰軟體團隊人員目前已達到大幾千人,大客戶910B能力已調優至接近A100水平,預計910C生態能力將進一步完善;架構方面910C同樣將推出傳統8卡伺服器和Rack兩種架構,成為追趕輝達架構最快的廠商。
尤其值得一提的是,華為雲發佈了CloudMatrix 384超節點技術。通過超節點架構的群集最佳化如無收斂組網、高速匯流排互聯,實現了多卡協同下的整體性能提升,基於CloudMatrix 384部署的DeepSeek-R1模型,單卡推理性能可達1920 tokens/s,基本接近H100水平。
美國官方相關的公開資訊顯示,「licensing requirement would be indefinite」(許可要求將是無限期的)。不少很多業界人士對indefinite一詞的理解有偏差。其實「許可要求將是無限期的」言下之意是說,中國客戶隨時可以申請licensing許可證,並未設定一個期限。
換言之,這個邏輯就跟川普等待中方電話一樣,希望中方主動來申請這個license,繼續來做一些交易。
川普政府時期對華AI晶片出口管制的反覆搖擺,深刻折射出美國在科技霸權護持與商業利益博弈間的戰略困境。
這種進退失據的政策波動,恰凸顯了中國堅持科技自立戰略定力的前瞻性——通過建構自主可控的晶片產業體系、深化新型舉國體制創新優勢、推進自主算力基礎設施建設,中國正以系統性的制度創新突破"卡脖子"可持續局,將外部技術封鎖壓力轉化為內生創新動能,在人工智慧革命的戰略賽道上夯。 (心智觀察所)