華為以超節點和叢集算力解決方案,讓中國沒有算力之憂。
徐直軍終於把他這六年最想說的話說了出來。
2025年華為全聯接大會,會場的燈光一點點暗下去,大螢幕上浮現出“昇騰”字樣的那一瞬間,沒有想像中的轟然與熱烈,有人屏住了呼吸,有人眼眶泛紅,大家都知道,昇騰有一天會公開回歸,但真正回歸的那一刻,感慨的情緒壓過了興奮。
華為公佈了未來數年完整的AI晶片路線圖——這一刻,距離2018年發佈昇騰310晶片,2019年發佈昇騰910晶片,已經過去了兩千多個日與夜。
這時間說長不長,說短也不短,卻足夠讓一家企業經歷生死沉浮。2019年的那個春天,美國的制裁讓供應鏈幾乎在一夜之間緊繃到極限。華為一度樂觀地認為,這種影響不會持續太久,2019年的華為全聯接大會上,華為按照既定節奏推進昇騰910的商用發佈,依舊一副雲淡風輕的模樣。
但壓力已經遍佈每一處角落。徐直軍回憶道,“按照當時昇騰910晶片的備貨量,不敢賣給網際網路領域客戶,只賣國計民生領域的客戶。”制裁像驟然降臨的暴風雨,打斷了華為原本昂揚的節奏。從榮光到孤立,從掌聲到質疑,華為的晶片之路幾乎被外界判了“死刑”。
度過有史以來最大的難關,需要付出什麼代價,除了華為自己,無人知曉。外界看到的華為,可能是Mate 60“爭氣機”,可能是鴻蒙作業系統,也可能是MetaERP、高斯資料庫以及一系列確保自身生產經營的中介軟體。
但更多華為人在蟄伏,海思、雲端運算、資料中心、光通訊等華為大大小小的團隊,都迫不及待要加入一線,AI算力,這是華為未來真正的戰場。
今年3月份,華為正式推出了Atlas 900超節點,可以理解為華為AI戰略的預告,滿配支援384卡。384顆Ascend 910C晶片,能夠像一台電腦一樣工作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點,CloudMatrix384超節點,是華為雲基於Atlas 900超節點建構的雲服務實例,也被廣泛應用於大模型的訓推。
海外知名分析機構SemiAnalysis,當時以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”為題分析並得出結論,華為的晶片技術落後一代,但其自主研發的雲端超級算力解決方案CloudMatrix 384卻可領先於輝達和AMD當前市售產品一代,直接對標輝達GB200 NVL72系統,在多項關鍵指標上展現出超越輝達機架級解決方案的技術優勢。
“以前英特爾允許我們使用CPU晶片互聯協議,後來也被禁止了,我們從光器件、光模組、互聯協議、互聯晶片,全部靠重新定義、設計才能實現,有海外企業一直想把超節點搞一套出去,研究我們為什麼能搞出超節點”徐直軍說。相比於晶片本身,海外更關注超節點,因為目前海外能做出更好的晶片,但做不出如華為一般的超節點。
2025年華為全聯接大會,時隔多年之後,華為輪值董事長徐直軍再次與多家媒體對話——晶片不是華為AI算力的全部,“超節點+叢集”算力解決方案是華為在AI領域的核心戰略,靈衢互聯協議是開創新計算架構的新範式。
“算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。”徐直軍表示,至2028年,華為開發和規劃了三個系列,分別是Ascend 950系列,Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。
華為將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。
相比Ascend 910B/910C,從Ascend 950開始的主要變化包括:
晶片本身之外,生態是開發者關注的焦點問題,徐直軍表示,“國內AI企業用昇騰訓練大模型,主要是看他們用不用,就像談戀愛,不談的話,你怎麼知道對方的優缺點,合適不合適,你要談一下,要用一下。在用的過程中有問題解決問題,A能用,為什麼B不能用,就是你用不用的問題。”
“當然,我們的生態和整個工具鏈肯定比輝達有差距,原來工程師在輝達應用很熟練,就不願意轉過來,它是工程師的習慣問題,而不是高層的問題。”他補充。
業界不少晶片廠商選擇相容輝達CUDA生態,對現有AI開發體系友好,但華為有自己的考量。“我們不相容CUDA生態,一定要搞CANN生態和MindSpore,也是出於長遠考慮,如果我們投如此多的錢相容CUDA生態,而且還是CUDA過去的版本,那天CUDA生態相容不了了怎麼辦?堅定不移研發MindSpore,當時很多專家都反對。現在我們的AI,從達文西到昇騰晶片到一切,所有的軟體、硬體都不依賴於西方生態和供應鏈,長遠考慮必須要把生態建構起來。”徐直軍坦言。
如果故事只到這裡,華為充其量實現了“活下來”的任務,很好,但對華為來說遠不夠好。畢竟在昇騰設計之初,就不是為了做一個備份,昇騰910發佈就衝著最強算力的目標,在供應鏈和製程等晶片製造能力落後的情況下,華為昇騰晶片短期內還將處於追趕的狀態。
然而,很多人沒有意識到,成就輝達的大模型,其實下一個成就的就是華為,大模型前期,輝達受益於單個GPU卡的性能和CUDA生態,未來隨著AI的演進,華為受益的是“超節點+叢集”,後者已經在頂級大模型圈層得到認可,而普羅大眾的認知不強。
2022年,輝達曾發佈DGX H100 NVL256“Ranger”平台,但最終未投入量產——該方案因成本過高、功耗巨大且可靠性問題(源於超量光收發器需求及雙層網路架構)而被放棄。在2024年3月,輝達轉而推出基於Blackwell GPU打造的GB200 NVL72超節點產品,規模大幅縮小。
回過頭看,輝達的超節點路標已經消失不見,輝達既證明了超節點是未來算力的趨勢,也證明了超節點做起來的難度,華為接過AI算力的下一棒。
本次大會上,華為發佈了最新超節點產品Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點,分別支援8192及15488張昇騰卡,在卡規模、總算力、記憶體容量、互聯頻寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節點。
基於超節點,華為同時發佈了全球最強超節點叢集,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規模分別超過50萬卡和達到百萬卡,是當之無愧的全世界最強算力叢集。
“除了單顆晶片比它(輝達)的算力小一點,功耗大一點,其他都是優勢。”徐直軍如此評價,“因為AI就是平行計算,所以我們的解決方案就是超節點,超節點做成一台機器,你用5顆,我可以用10顆,那我們用384/8192/15488顆晶片,這還不是最大的。”
他進一步解釋道,(華為)不同於大模型公司,也不同於應用公司,作為ICT基礎設施和智能終端提供商,華為充分發揮自身優勢,紮紮實實把基礎設施做好,通過基礎設施掙錢,做超節點、做叢集,公司內部已達成共識,通過昇騰硬體變現,取得商業成功。
超節點是一條不得已的道路,也是能夠將華為所有能力融為一體,最大程度發揮華為優勢的道路,更具有決定意義的是,超節點能夠將華為在單晶片的劣勢扭轉為勝勢,超過輝達,實現算力最強。
“什麼叫超節點?儘管物理上是多機櫃、多個卡(8192個卡或者是15488個卡)聯接成一個超節點,但是它們能夠像一台電腦一樣工作、學習、思考、推理。叢集是把多個超節點以網路聯結在一起,就像雲服務一樣,相當於用多個伺服器一樣,即把多台伺服器連接在一起,再以軟體層將它調度。”徐直軍說。
他進一步表示,華為的核心戰略就是“超節點+叢集”,只有依靠超節點和叢集,才能規避中國的晶片製造工藝受限,才能夠為中國的AI算力提供源源不斷的算力支援和供給。
“創新有時是被逼出來的,不是天生想做。我們應對制裁,用非摩爾補摩爾、用數學補物理,不是什麼偉大的事情。歷史上海思靠晶片領先別人一代,現在晶片落後一代、兩代,未來還不知道落後幾代,只有另尋出路。另一條路就在這裡,由於晶片工藝受限,逼著我們創新突破。”徐直軍說。
在徐直軍大會演講的最後,並不是以晶片來收尾,“我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新範式;以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值。”
在業內人士看來,靈衢的革命意義可能不亞於AI基礎設施的再造,華為超節點+叢集的成功,很大程度就依賴於靈衢。如果說光刻機是把單晶片的性能持續放大,那麼,靈衢則是將數以萬計的晶片聯接起來。
2021年,華為規劃了三個公司等級的戰略項目,其中之一是鴻蒙作業系統,另一個就是靈衢,其戰略意義,可見一斑。
輝達或者其他晶片公司的長處在於晶片,超節點卻不是靠簡單堆晶片就能實現大算力,就像大模型訓練算力,在一定範圍內,算力隨著晶片數量的增加線性增長,到了一定瓶頸,晶片增加,邊際效應大幅降低。
為大模型而定做的算力叢集中,需要大量的資料高速傳輸,在人類歷史上沒有過這種,正向打滿然後負向再打滿的傳輸需求,低時延、高吞吐的要求都到了嚴苛等級,而且未來的算力不僅僅是當前大模型需要AI算力之間的高速互聯,同時,AI算力和通用算力之間,通算和通算之間,也存在高速互聯的需求。
隨著IT產業的發展,PCIE、InfiniBand、RoCE等各種協議平行發展,輝達的NVlink等協議最大化發揮了輝達GPU的算力,靈衢不止是一個替代,它是AI算力互聯標準的重塑,通過靈衢互聯協議,能夠把數萬規模的計算卡,聯接成一個超節點。
相較於NVlink協議的封閉,華為宣佈將開放靈衢2.0技術規範,投入如此之大的心力,華為為何要將靈衢開放,其實不難理解,華為的理念是硬體變現,靈衢若只是華為一家之言,那就無法形成生態,更多的企業用靈衢建構自己的算力叢集,產業的雪球才能越滾越大。
“我們的路肯定不是輝達的路,現在大家都以輝達的視角看我們的路,不公平。但我們自己不能‘傻’。我是短期痛苦,長期不痛苦。”徐直軍說。
華為在AI算力領域走出來了一條自己的路,這是由很多能力建構成的系統。以光通訊技術為例,輝達超節點採用了全銅通訊,優點是技術成熟,成本較低,缺點是只能部署2米以內,否則速度會大幅衰減,因此可聯接晶片數量有限。華為採用了更激進的光通訊策略,光模組帶來了高頻寬和高速率的優勢,損耗低,適合長距離傳輸,因而可聯接更多晶片,部署靈活。
但是,在華為之前,沒有一家廠商敢用光模組來實現超節點,光模組故障率高且成本高,方案能不能做成都是未知數,華為憑藉著多年積累的通訊能力,在光晶片和連接技術、故障恢復等方面形成了一套獨一無二的方案,使得超節點成為可能。
華為的勝利,是系統的勝利,是所有華為人乃至中國計算產業鏈的勝利。徐直軍表示,“用超節點架構以及支援超節點的靈衢互聯協議,打造超節點和叢集,來滿足中國無窮無盡的算力需求,這既是我們對自己的一個目標,又是對產業界的承諾,更是對國家的承諾。”
“把這條路闖出來,把中國產業鏈拉動起來,這條路就成了路。算不上新範式,是被迫出來的範式,是被逼出來的偉大。”徐直軍說,“誰想做別人做過的事情呢?肯定想去開創未來的事情。” (鈦媒體)