中國算力大逆轉，華為彎道碾壓輝達、xAI

2025/09/19

•

9月18日，外交部例行記者會。法新社記者提問，據英國《金融時報》報導，中國網際網路監管機構已指示阿里巴巴、字節跳動等公司停止購買輝達RTX Pro 6000D晶片。輝達首席執行官黃仁勳稱，對此表示失望。中方能否證實報導所說情況？對此有何評論？

外交部發言人林劍表示，具體問題建議向中方的主管部門瞭解。我們一貫反對在經貿科技問題上對特定國家採取歧視性做法。中方願同各方保持對話合作，維護全球產供鏈穩定。

同日，為期三天的華為全聯接大會2025在上海拉開序幕。在元界（ID：Metabod）看來，這場大會是華為官宣在超節點算力、記憶體容量、互聯頻寬等性能上全面碾壓輝達，以及在超節點叢集規模及算力能力全面碾壓馬斯克旗下AI公司xAI算力叢集的歷史性時刻。

一方面是外交部對有關中國企業被指示停止購買輝達晶片的報導作出了原則性回應；另一方面是華為發佈了在關鍵性能上顯著領先輝達、xAI的算力基礎設施產品。

將這兩則資訊及此前中國官方宣佈對輝達進一步調查的新聞結合起來解讀，歷史終將記住，2025年9月18日，九一八事變94周年紀念日，一個看似尋常的日子，全球AI算力競爭與中美科技博弈正在掀開新的篇章。

一年一代、算力翻倍

昇騰晶片三年路線圖首次披露

9月16日，華為發佈未來10年十大智能技術趨勢。其中第七個趨勢提到，2035年全社會的算力總量將增長10萬倍，計算領域將催生新型計算的全面興起。

在18日的演講中，華為輪值董事長徐直軍直言：“算力過去是，未來也將繼續是，人工智慧的關鍵，更是中國人工智慧的關鍵。”

在全球AI競賽進入深水區的當下，算力已不僅是技術問題，更是國家戰略資源。

美國憑藉輝達GPU在AI訓練領域的絕對優勢，長期主導全球算力格局。而中國在面臨先進製程晶片製造受限的背景下，如何建構可持續、自主可控的算力體系，成為產業發展的關鍵命題。

基於此，華為用持續不斷的努力、構架與產品，對國產AI基礎設施路徑做出了系統性回應。

華為李鵬：AI時代，如何以新範式實現有效商業增長

華為雲張平安：中國 AI 創新道路到底怎麼走？這個觀點必須摒棄掉

在本次大會上，徐直軍首次公佈了昇騰AI晶片的未來發展規劃：預計2026年第一季度推出昇騰950PR晶片，四季度推出昇騰950DT，2027年四季度推出昇騰960晶片，2028年四季度推出昇騰970晶片。

華為昇騰鮮少披露昇騰晶片進度，這是徐直軍時隔六年再談晶片進展。這一清晰的時間表，是華為在AI晶片研發上的長期投入與戰略定力的體現與結果。

昇騰系列晶片自2019年推出以來，已發展為支撐中國AI產業的重要力量。特別是在美國對華實施AI晶片出口管制後，昇騰910B成為國內替代輝達A100/H100的主力選擇，廣泛應用於智算中心、大模型訓練等場景。

此次公佈的950PR、950DT等新品，延續了昇騰架構的迭代路徑，其中950PR將採用華為自研的高頻寬記憶體（HBM）技術，標誌著華為在儲存、封裝等關鍵環節的技術突破。

定位不同是，950PR專攻“Prefill”性能，後者是AI推理過程中的關鍵階段；950DT則注重提升推理Decode（解碼）性能、訓練性能，並提升記憶體容量和頻寬。

徐直軍表示，昇騰960在算力、記憶體訪問頻寬、記憶體容量、互聯連接埠數等各種規格上相比昇騰950翻倍，其將首先支援的產品形態是標卡和超節點伺服器，將在2027年四季度推出。而相比昇騰960，昇騰970的FP8算力、互聯頻寬等要全面翻倍，記憶體訪問頻寬至少增加1.5倍，計畫在2028年四季度推出。

昇騰晶片正在以幾乎一年一代、算力翻倍的速度持續推進。

全面碾壓輝達、xAI

超節點+叢集，重構AI基礎設施範式

面對單晶片性能受限的現實，華為選擇從系統架構層面進行創新。

徐直軍表示，從大型AI算力基礎設施建設的技術方向看，超節點已經成為主導性產品形態，並正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的電腦，物理上由多台機器組成，但邏輯上以一台機器學習、思考、推理。

今年3月，華為正式推出Atlas 900超節點，滿配支援384卡，最大算力可達300 PFLOPS。

此次推出Atlas 950 SuperPoD和Atlas 960 SuperPoD兩款超節點產品，分別支援8192張和15488張的昇騰AI加速卡，在卡規模、總算力、記憶體容量、互聯頻寬等關鍵指標上全面領先，甚至在未來多年都將是全球最強算力的超節點。

他表示，相比輝達將在明年下半年上市的NVL144，Atlas 950超節點卡的規模是其56.8倍，總算力是其6.7倍，記憶體容量是其15倍，達到1152TB；互聯頻寬是其62倍，達到16.3PB/s。即使是與輝達計畫2027年上市的 NVL576相比，Atlas 950超節點在各方面依然是領先的。

Atlas 950超節點滿配包括由128個計算櫃、32個互聯櫃，共計160個機櫃組成，佔地面積1000平方米左右，櫃間採用全光互聯。其中，FP8算力可達到8E FLOPS，FP4算力達到16E FLOPS。

徐直軍說，互聯頻寬達到16PB/s，這個數字意味著，Atlas 950一個產品的總互聯頻寬，已經超過今天全球網際網路峰值頻寬的10倍有餘。

而基於超節點，華為同時發佈Atlas 950 SuperCluster和 Atlas 960 SuperCluster兩個超級節點叢集，其算力規模分別超過50萬卡和達到百萬卡等級，是當之無愧的全世界最強算力叢集。

徐直軍表示，Atlas 950 SuperCluster叢集，相比當前世界上最大的叢集xAI Colossus，規模是其2.5倍，算力是其1.3倍，是當之無愧的全世界最強算力叢集。

他說，無論是當下主流的千億稠密、稀疏大模型訓練任務，還是未來的兆、十兆大模型訓練，超節點叢集都可以成為性能強悍的算力底座，高效穩定地支援人工智慧持續創新。

華為，基於實際可獲得的晶片製造工藝，計算、儲存和網路技術協同創新，開創計算架構，打造“超節點+叢集”系統算力解決方案，彌補單晶片性能差距，實現整體算力的躍升，重新定義了AI基礎設施的範式。

“靈衢”互聯協議：

打破AI算力傳輸瓶頸

大規模算力叢集的核心挑戰，在於互聯。

當前電互聯、光互聯技術都不能滿足多機櫃間長距離互聯的需求，傳統網路架構難以支撐超節點間低延遲、高頻寬的資料交換需求。為此，華為基於三十年通訊技術積累，推出面向超節點的互聯協議——“靈衢”（UnifiedBus）。

“靈衢”協議正是為解決這一瓶頸而生。它實現了計算、儲存、網路資源的深度融合，顯著提升系統效率。

華為通過系統性創新，在互聯協議的物理層、資料鏈路層、網路層、傳輸層等都引入了高可靠機制，重新定義和設計了光器件、光模組和互聯晶片，使光互聯的可靠性提升百倍、且互聯距離超過200米。

同時，在大頻寬與時延上，依靠多連接埠聚合與高密封裝技術，以及平等架構和統一協議，華為實現了TB級的超大頻寬，2.1微秒的超低時延。

這些技術上的突破令華為能夠將萬卡級晶片整合為一個整體，讓超節點像“一台電腦”一樣工作、學習、思考、推理。

華為宣佈開放“靈衢2.0”技術規範，呼籲產業夥伴共同研發相關產品與部件，共建開放生態。

此舉意在打破國外在高速互聯技術上的壟斷，建構中國自主的AI基礎設施標準。

從晶片競爭到系統博弈

生態之爭將成中美AI對決的關鍵

當前全球AI算力競爭，已從單一晶片性能比拚，轉向系統級綜合能力較量。美國仍憑藉輝達GPU+CUDA生態佔據領先地位，但其優勢正面臨挑戰。

一方面，摩爾定律放緩使得晶片性能提升邊際遞減；另一方面，大模型對算力需求呈指數級增長，迫使業界探索新的架構路徑。

中國則在外部壓力下加速自主創新。華為的“超節點+叢集”模式，與GoogleTPU Pods、亞馬遜Trainium叢集等形成差異化競爭。

這種以系統整合和架構創新彌補製造短板的路徑，正在成為後摩爾時代的重要方向。

徐直軍多次強調“算力的可持續”。這不僅指硬體供應，更包括軟體生態、開發者支援與應用場景適配。昇騰要真正替代輝達CUDA生態，這是一個長期的動態的博弈的過程，仍需在AI框架、工具鏈、模型庫等方面持續投入。相對輝達的厚實、積澱與引領，華為需要走的路還很長。

華為全聯接大會2025，本是一場華為超節點及叢集算力能力全面超越輝達和xAI的歷史性時刻，但沒有看到有媒體從此角度佈局謀篇，這或是這場大會高調傳播中的超級低調之處。

與此同時，華為提出“不是每個企業都要建設大規模AI算力”，倡導按需選擇模型規模。從十億參數模型滿足端側推理，到千億參數支撐複雜NLP任務，企業應根據業務場景選擇合適方案。這一理念有助於避免資源浪費，推動AI應用理性發展。

徐直軍的演講，既是對華為戰略的宣示，也是對中國AI發展路徑的思考。在全球科技博弈加劇的背景下，華為正通過晶片、架構、互聯、生態的全端創新，建構一條自主可控的AI算力之路。

這條道路充滿挑戰，但方向清晰：以系統性創新突破外部封鎖，以開放生態凝聚產業合力，為中國人工智慧的未來提供堅實支撐。 (元界)