華為打造“最強超節點”,這項全球領先技術很關鍵

2025年以來,超節點(SuperPod)作為新的AI算力基礎設施,不斷成為行業焦點。觀察者網也曾深度報導過華為的昇騰384超節點,它通過高速互聯匯流排將384顆昇騰晶片連接起來,在超節點算力規模、網路互聯頻寬、記憶體總頻寬等多個指標上,趕超了國外廠商的旗艦超節點。

但當時一些討論認為,華為是靠堆砌了384顆晶片,才超越了輝達72顆晶片,而後很多廠商也跟進了超節點的概念。一時間,算力行業掀起了建設超節點的熱潮。那回到最初的問題,超節點就是單純的堆晶片嗎?華為是通過暴力堆砌晶片趕超輝達的嗎?超節點和傳統的計算叢集區別在那?

關於這些行業熱點話題,華為計算產品線行銷運作部部長張愛軍近日在一場媒體沙龍上對觀察者網等媒體做了詳解。他首先認為,今天的算力需求遠未被滿足,無論是大模型進入到生產系統中,還是在toC消費端,token消耗的數量都在指數級增長,未來中國每日token消耗量可能突破千兆。

在一些觀點看來,算力缺口大可以通過大量建設伺服器叢集堆卡來解決。這麼說聽起來有一定道理,但真實情況遠沒有這麼簡單。根據Meta公佈的論文,萬卡叢集訓練時算力利用率僅約38%,粗暴堆卡可能會造成62%的算力浪費,並且模型訓練會3個小時中斷一次。

這是因為,叢集網路通訊已成為當前大模型訓練和推理的最大挑戰。以DeepSeek這種混合專家模型(MoE)為例,每個“專家”如果不能有效溝通,NPU就會由於沒有足夠資料計算而閒置,進而形成1+1<2的結果。換句話說,如果384顆昇騰晶片簡單疊加,計算效果就會和普通伺服器叢集一樣效率低下。

超節點就在這種情況下應運而生,它不是修補式改進,而是對傳統計算架構進行重構。張愛軍對觀察者網表示,超節點從傳統以CPU為中心的架構,變成了全平等互聯,無論是CPU、NPU還是記憶體單元,都不用再經過CPU,而是可以平等互聯,提高通訊效率,同時連接計算單元的“高速公路”也發生了變化,由全新的協議和匯流排能力來支撐裝置間互聯。

現在市面上的超節點越來越多,但並沒有統一標準,而張愛軍認為,真正的超節點須具備三個關鍵特點:一是頻寬夠大,核心要讓計算不用等待通訊;二是有足夠低的時延,傳統叢集很難做到時延降低;三是形成有效的、邏輯上的單一系統,關鍵在於記憶體能不能統一編址。利用這些技術,超節點可以讓DeepSeek的256個“專家”分佈到每個計算單元上,提升吞吐效率。

“為什麼要有統一記憶體編址的技術才能真正稱得上超節點?”他進一步對觀察者網解釋稱,傳統叢集的資訊傳遞,跟現實生活中寄快遞的方式比較像,需要做相應的轉換才能找到下單地址。而超節點希望像在圖書館裡檢索書籍一樣,提前進行書籍編址,能快速找到,而且可以變成資源池。如果沒有統一記憶體編址,就不能做到記憶體的池化。如果沒有記憶體池化,計算單元之間的資料快速交換很難做到。如果不能快速交換資料,計算效率是很難提升的。這是為什麼說做不到統一記憶體編址,超節點是很難真正高效地運行起來的原因之一。”

一句話總結,超節點相比傳統叢集最大的優勢,是計算效率的顯著提升。以晶片製程為例,在摩爾定律放緩的情況下,7奈米到3奈米,可能每代性能提升不超過20%。而超節點可以將模型算力利用率從30%提升到45%,相當於提升了50%,通過資源的高效調度,在一定程度上可以彌補晶片工藝代差。

但打造一個真正的超節點遠沒有那麼容易。關注技術細節的人可能會發現,華為的昇騰384超節點是由12個計算櫃和4個匯流排櫃構成,體積龐大,而輝達NVL72系統只有一個機櫃,為什麼輝達不連接更多機櫃,進而連接更多晶片?

核心在於超節點架構不同,輝達採用的全銅線架構,傳遞的是電訊號,而華為將光通訊技術應用於超節點,採用超高速光模組連接。“如果用電的方式,高速訊號基本只能在一個機櫃裡兩到五米傳送,這也是為什麼很多業界的超節點只能在一個機櫃裡面提供。為什麼華為可以跳出單個機櫃限制,規模商用384個晶片互聯,未來可以支援8192個晶片互聯,核心是我們用了光的技術。”張愛軍對觀察者網表示。

但“光”並不好駕馭。光模組成本高,也比較嬌慣,如果有灰塵,有各種各樣的溫度變化,容易發生閃斷、系統不穩定,要做的像電一樣可靠,像光一樣長度,難度很大。

“我們是怎麼做到的?一句話,系統化創新,華為可以做自己的晶片,有自己光的器件能力,有自己的底層協議,在過去光通訊上建構了工程能力,我們做到了借助全光互聯提供超節點。為什麼其它廠商做不到?就是因為他們或許掌握了某些單點技術,但很難像華為一樣有系統化能力,這也得益於過去華為一直在通訊領域深厚的積累。過去20年,我們在光上面是全球第一的技術積累。”張愛軍對觀察者網說道。

華為不僅在做智算超節點,也在發展通算超節點。去年的華為全聯接大會上,華為輪值董事長徐直軍發佈了基於鯤鵬950處理器的TaiShan 950超節點,這是全球首個通用計算超節點,將在2026年一季度上市。他當時表示,TaiShan 950加上分佈式GaussDB資料庫,將徹底取代各種應用場景的大型機和小型機,以及Oracle的Exadata資料庫伺服器。

“大家過去買伺服器,主要關注CPU的主頻和核數。但今天大量的場景通過調整主頻和核數是難以解決的,核心原因是因為摩爾定律已經走到頭了,物理的效能很難,堆再多的核、提升再高的主頻,很難把計算效能提升上去。有一條新路,通過通訊的能力把多核能夠連接起來,形成有效的業務系統,同樣給通用計算提供相應的能力。核心和智算是一樣的,提供超大頻寬、超低時延、進行統一記憶體編址。”張愛軍說道。

在華為的思考中,無論是智算還是通算超節點,乃至像Atlas 950 SuperCluster這樣數十萬卡的巨型超節點叢集,核心是要讓大量伺服器像一台電腦一樣工作,由此華為建構了新型互聯協議靈衢UB(UnifiedBus),並將靈衢2.0規範開放。

“靈衢是建構超節點的核心能力,華為把它完全開放出來,讓業界所有的人都可以獲取到這個技術。基礎協議有600頁,是所有廠商中提供的最詳細、最完整的能力。通過對靈衢2.0協議的開放,產業界夥伴能夠借助這個技術打造自己的超節點。我們希望與產業界共創,能夠形成一個繁榮的產業生態,希望這些新的能力、新的技術不僅僅華為在使用,而是整個產業鏈一起來建構。”張愛軍表示。

超節點足夠火熱,但支撐其運行的不只有晶片、光模組等硬體,還有大量軟體生態,比如異構計算架構CANN、作業系統openEuler、資料庫openGauss、AI框架MindSpore等等。

生態需要產業共建,華為一直堅持軟體開源開放。張愛軍表示,“目前鯤鵬註冊開發者有380萬,昇騰有將近400萬開發者。2025年8月,我們把CANN完全開源開放,openEuler也是業界第一個面向超節點的開源作業系統。特別是CANN,我們從最底層的營運時,到開發語言、範本庫\算子庫等,完整地開源給產業界,現在已經有很多開發者基於昇騰CANN的能力,自己開發算子,來面向它的業務場景進行創新。AI 時代的迭代速度遠超以往,單打獨鬥很難跟上節奏,協同共創、開放共生才能共贏未來。” (觀網財經)