唯物的中國晶片產業深度觀察
這款令美國嚴防死守、輝達CEO黃仁勳念茲在茲的中國晶片,到底有多強?
任何國家使用華為晶片,美國都要管。
美國商務部禁令自5月13日發佈,以長臂管轄的“不講理”方式,間接宣告了華為昇騰晶片的實力。從原文來看,美方懷疑華為似乎使用了美國的技術,換句話說,是美國不肯承認中國自有技術可以生產出高性能晶片。
第一個“受害者”馬來西亞不得不避其鋒芒。5月19日,馬來西亞數字通訊部宣佈啟動“策略AI基礎設施計畫”,核心裝備為3000台華為昇騰高階GPU,搭載深度求索的開源模型。然而,24小時內,馬方撤回新聞,未提供進一步說明。
馬來西亞數位通訊部副部長張念群5月19日宣佈,將成為第一個在其人工智慧基礎設施項目中採用華為升騰晶片的國家
短短數日之間,華為昇騰已攪動全球科技產業一池春水:不同的國家、區域和晶片企業紛紛關注昇騰的“虛實”。
和其他國家一樣,馬來西亞現有的AI應用也多基於輝達框架,轉向昇騰需要花很大的力氣和成本。一位本地AI創業者公開表示,“我們歡迎主權算力,但工程師培訓、模型遷移成本,都遠遠超過政策的宣示。”
馬來西亞AI計畫,本來是“中國AI體系首次海外落地”。
美國引爆“關稅戰”以來,馬來西亞是東南亞國家中不肯“選邊站”的中堅力量,今年正式成為金磚夥伴國,同時還擔任東盟輪值主席國和中國—東盟關係協調國。
根據馬來西亞最初規劃,“策略AI基礎設施計畫”是“資料存於大馬、大馬人管理、大馬人使用”的全端生態,希望規避歐美雲服務商的資料控制權。
配套購買華為硬體和深度求索軟體,是其他國家捍衛AI主權的一種有力方式——經過本地化實踐,擺脫對美國企業輝達、OpenAI的依賴。
華為昇騰的吸引力在於提供了一套系統級解決方案:基於昇騰910系列晶片的Atlas伺服器,結合CANN異構計算架構,可支援輝達的CUDA程式碼70%適配率,訓練成本降低75%。
其實,華為的新型AI加速器早在4月10日華為雲生態大會就露面了。恰巧那時美國總統川普掀起的關稅風波沸沸揚揚,搶走了大會的風頭。
生態大會上推出的華為雲CloudMatrix 384超節點,達到單叢集300 PFlops(每秒一千兆即10^15次浮點運算;浮點運算是小數的四則運算)的算力突破,據悉能效比超越輝達同類產品40%。
華為雲CloudMatrix 384超節點的算力核心是昇騰910晶片,單晶片算力達256 TFLOPS(每秒一兆即10^12次的浮點運算),性能超越輝達A100。昇騰310晶片負責邊緣計算場景。配套的AlterMatic DT250伺服器性能較業界同類產品提升20%,能耗降低30%。
同時,深度求索的開源模型DeepSeek-R1,已在CloudMatrix 384超節點上實現了與輝達 H100相當無幾的性能,驗證了中國算力的商業化潛力。
然而,即使馬來西亞強調技術的“主權”性,仍讓美國大感緊張。美國商務部先後修改昇騰禁令,想要封鎖華為晶片設計、生產、使用的整個鏈條。
當然,對於絕大多數國家而言,AI主權的深層矛盾在於AI生態的“路徑依賴”。
像CloudMatrix 384超節點的設計,甚至考慮了機架外部的系統級限制,證明華為的解決方案將保持多種擴展路徑。
華為雲不僅在業內引發震動,也在“圈外”引爆了輿論——一款對標輝達GB200NVL72系統的產品,在多項關鍵指標上超越了輝達方案。
華為雲,具體厲害在什麼地方?
簡而言之,是“用一切換算力”:用空間換算力,用能源換算力……
CloudMatrix 384超節點, 據悉由384顆昇騰910C晶片、通過全連接拓撲結構互聯而成。昇騰晶片數量達到五倍之多,足以彌補單個GPU性能僅為輝達Blackwell三分之一的情況。
完整的CloudMatrix系統,可以提供300 PFLOPs的密集BF16(佔用16位的電腦數字格式)計算性能,幾乎是輝達GB200 NVL72的兩倍。
總之,憑藉3.6倍以上的總記憶體容量和2.1倍的記憶體頻寬,中國華為的AI加速器已經具備超越輝達的AI系統能力。
“用一切換算力”自然也有其代價,其短板在於功耗達到GB200 NVL72的3.9倍,每FLOP能效低2.3倍,每TB/s記憶體頻寬能效低1.8倍,每TB HBM記憶體容量能效低1.1倍。
這個功耗缺陷放在其他國家可能確實是“缺陷”,但中國的電力比較充足,使這個缺陷也沒那麼可怕。
中國能源體系雖然長期依賴煤炭驅動,但近年來太陽能、水電、風電裝機量均居全球首位,更在核電部署領域佔據領先地位。相比之下,美國核電產能還停留在20世紀70年代水平,能源電網的升級擴容能力已顯萎縮,而中國自2011年以來新增的電網容量,已相當於整個美國電網規模。
由於電力相對充裕,大型AI加速器也就不需擔心能耗的約束,華為放棄功率密度、轉向規模擴展(包括在設計中引入光互聯技術)也就成為合理選擇。
當科技霸凌成為常態,自主創新就是最好的回應。
華為AI訓練叢集能挑戰輝達,意味著中國人工智慧產業有了堅實的基礎。
也無怪黃仁勳這幾天氣鼓鼓的,公開批評美國政府的晶片出口管制“使中國科技公司更強大”。
值得注意的是,輝達在人工智慧晶片市場的主導地位,並非僅僅得益於出色的硬體和網路架構,也得益於其深度整合的軟體生態系統CUDA。
輝達的以CUDA、高性能庫以及與PyTorch(最廣泛使用的機器學習框架,默認情況下還能與CUDA配合使用)無縫相容的生態系統,給開發者提供了良好體驗,創造出一個活躍社區,從而進一步鞏固了輝達的領先地位。
對於軟體替代,華為的辦法是,擴充自主研發的軟體棧,推出大量工具套件,實現CUDA同等的功能;深化與PyTorch的整合;開發ONNX(開放式神經網路交換的開放標準),方便客戶用非華為晶片訓練的模型也能在華為晶片上進行推理。
最典型的替代就是CANN(神經網路計算架構),這是華為給昇騰神經網路處理器打造的專有程式設計環境。CANN在軟體棧中所處的層級與CUDA 相同。
自2019年華為被列入美國實體清單起,CANN就一直在開發中。2024年,華為的年度報告重點介紹了當年9月推出的CANN 8.0版本,稱其在推進人工智慧計算能力方面“邁出重要一步”。
不過,CANN開發者社區的活躍度不高,公開的偵錯也很有限。有使用者反映,讓模型適配華為的平台也很麻煩,要先經過華為的深度最佳化,才能在華為的平台上運行……進展比較緩慢。
為了“獲客”,華為還模仿輝達在21世紀初推廣CUDA的辦法,直接把工程師派到客戶現場,幫客戶進行程式碼遷移。據悉華為向百度、科大訊飛和騰訊都部署了工程團隊。
從目前來看,華為AI晶片的生態並不能說很成熟。同時,昇騰晶片依然離不開全球化的產業鏈。它的設計完全由中國完成,但生產還是有賴於其他企業:比如三星的高頻寬儲存器(HBM),美國、荷蘭、日本等企業的裝置。
只要持續推動,事情總會有所轉變。輝達花了近20年,才建構起今日的霸主地位。建構任何一個具有競爭力的生態系統,都需要多年的努力。 (南風窗)