上周,華為全聯接大會集中展示了華為最新最強的一系列創新。今年最受關注的自然是超節點技術帶來的算力風暴和突破。但超節點帶來的算力突破還不是全部,超節點架構帶動的開源開放,還會把這場風暴推得更深更遠。更加直觀類比來說,這是一場華為發起的“AI高速路”修路嘗試,開放硬體相當於開放了修路材料,開放原始碼軟體和靈衢元件相當於開源了修路方法和標準協議。華為用開源開放,給出了中國AI高速公路樞紐建設的方案——一個惠及各行業全場景,技術紅利覆蓋大中小各類玩家的生態。大殺器超節點,華為決定開源開放在華為全聯接大會上,華為重磅發佈創新的超節點架構,推出覆蓋資料中心到工作站的全場景超節點新品。Atlas 950 SuperPoD是面向超大型AI計算任務的最佳選擇,從基礎器件、協議演算法到光電技術,實現了系統級的創新突破。其通過正交架構,讓Atlas 950實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,獨創的材料和工藝讓光模組液冷可靠性提升一倍。此外,Atlas 950 SuperPoD創新的UB-Mesh遞迴直連拓撲網路架構,支援單板內、單板間和機架間的NPU全互聯,以64卡為步長按需擴展,最大可實現8192卡無收斂全互聯。即便與輝達產品對比,Atlas 950超節點也優勢顯著。相比計畫明年下半年上市的NVL144,其規模、總算力、記憶體容量、互聯頻寬分別達到後者的56.8倍、6.7倍、15倍(1152TB)、62倍(16.3PB/s)。即便對標輝達2027年計畫上市的NVL576,依舊遙遙領先。Atlas 850是業界首個企業級風冷AI超節點伺服器,內部搭載8張昇騰NPU,有效滿足企業模型後訓練、多場景推理等需求。Atlas 850支援多櫃靈活部署,最大可形成128台1024卡的超節點叢集,是目前業內唯一可在風冷機房實現超節點架構的算力叢集,企業無需改造現有風冷機房即可部署算力叢集。Atlas 350標卡採用最新的昇騰950PR晶片,向量算力提升2倍,支援更細粒度的Cacheline訪問,在推薦推理場景可實現2.5倍性能提升,且單卡即可運行。Atlas 350支援靈衢連接埠互聯,實現算力、記憶體等資源池化,讓更大參數模型、更低時延應用可以在標卡上實現。TaiShan 950 SuperPoD是華為推出的業界首款通算超節點,具備百納秒級超低時延、Tb級超大頻寬和記憶體池化能力,能大幅提升資料庫、虛機熱遷移和巨量資料場景等業務性能,為通算性能提升開闢全新路徑。這一系列的超節點新品能實現從資料中心、企業部署、小型工作站的全場景覆蓋,從而在硬體層面協同使用者實現個性化部署,推動AI高速公路互通互聯。而就在超節點發佈的同時,華為選擇了全面的開放和開源。首先是硬體層面的開放。華為宣佈全面開放超節點技術,與產業界共享技術紅利,共同推動超節點技術走向普惠與協同創新。一方面,開放靈衢協議和超節點參考架構,允許產業界基於技術規範自研相關產品或部件。另一方面,全面開放超節點基礎硬體,包括NPU模組、風冷刀片、液冷刀片、AI標卡、CPU主機板和級聯卡等不同形態的硬體,方便客戶和夥伴進行增量開發,設計基於靈衢的各種產品。其次是軟體層面的開源。超節點的運行離不開作業系統的深度支援,作業系統靈衢元件也將全部開源,元件程式碼將陸續合入openEuler等多個上游作業系統開源社區。使用者可以根據實際需求,將部分或全部原始碼整合到現有作業系統中,自行迭代維護版本,也可以將整個元件直接合入現有作業系統,未來演進與開源社區版本同步。開源是驅動技術創新和產業進步的核心力量,昇騰CANN全面開源開放,Mind系列元件也同步開源,並支援PyTorch、vLLM等業界開源社區,加速開發者自主創新。可以說,華為這一手硬體、一手軟體直接開源了個痛快!華為為何要開源?一方面,開源能夠和產業界、開發者社區基於超節點架構自研相關產品或部件、自訂偵錯調優、共享技術紅利,加速產業協同發展。另一方面,開源還有利於消費者按需取用、降低適配成本,打造面向行業的超節點場景化解決方案。華為董事、ICT BG CEO楊超斌表示:華為將圍繞超節點架構持續創新,讓超節點技術不但用於大型資料中心,也可以用於企業級的資料中心和小型工作站。同時,堅持硬體開放,支援各個夥伴,靈活打造面向各個行業的超節點場景化解決方案。堅持軟體開源,讓開發者靈活高效創新,共建繁榮生態。這就意味著,超節點技術不再是少數大型資料中心的專屬利器,而是一個開放共享的算力生態。每個行業、每個企業、每位開發者都能根據自身需求,靈活搭建自己的算力“高速路”。無論是大型模型訓練、複雜推理任務,還是企業級應用場景,使用者都能按需獲取硬體和軟體能力,實現算力資源的高效利用和靈活擴展。當前,超節點已廣泛服務於網際網路、金融、營運商、電力、製造等行業,幫助各類企業提升算力效率和業務能力:把各個計算單元、儲存單元等元件通過大頻寬、低時延網際網路絡平等互聯。統一通訊協議,省去額外協議轉換開銷。統一記憶體編址,實現全域資源池化,使有效算力能夠隨叢集規模線性擴展。通過靈衢協議的高可靠機制,並融入華為在通訊上幾十年的積累,大幅提升叢集可靠性。雖然多晶片互聯、大規模計算節點以取代單晶片成為行業共識,但傳統叢集通過“伺服器堆疊+乙太網路聯接”擴展算力,往往頻寬受限、時延高,而且隨著規模越大效率也會越低、可靠性難以保障。基於這一痛點,華為以超節點架構為“路基”,通過靈衢互聯協議,把分散的伺服器深度互聯,讓叢集像一台機器一樣學習、推理與協作,為AI大模型和行業應用提供真正高效、穩定、可擴展的算力底座。那麼,什麼是靈衢呢?簡單來說,靈衢(UnifiedBus)是一個面向超節點的互聯協議,我們可以把它理解成一個開放共建的修路協議。依託靈衢的超節點架構具備資源池化、線性擴展、長穩可靠等關鍵特性,從而實現計算、儲存單元的大頻寬和低時延互聯,解決了傳統叢集規模上升可靠性降低的痛點。不僅如此,靈衢還是開放原始碼的。這就意味著,不規定唯一的修路方式,協議全面公開,大家可以因地制宜,在不同路況的搭建合適的車道。結果就是——大家能自由開發系統、調度軟體,生態越跑越繁榮。開放共建:修路不獨佔AI算力生態,本質上是 “修建資料傳輸與調度的高速路”。以輝達的NVLink為例,它就像“工業園內部高速”,服務GPU單機或機架內的資料傳輸——這條路頻寬高、延遲低,卻因採用專有協議而相對封閉。編譯、傳輸、通訊、驅動等規則均由其獨家制定,無法與其他生態互聯互通。而華為則通過靈衢協議與超節點架構,走出了一條開放之路:它建構的不是孤立路段,而是一套統一標準的 “綜合交通樞紐”—— 從卡間互聯的 “超高速磁懸浮”,到機櫃內互聯的 “城市環線”,再到機櫃間互聯的 “全國高鐵網”,均採用同一套協議規則。這意味著資料如同車輛,從起點到終點無需換道、等待,可全程暢通。同時,所有計算、記憶體、儲存資源在此被打散、池化,系統能自動匹配最高效的調度路徑,實現全域資源最佳化。更關鍵的是,華為不僅自己 “修路”,還將這套技術標準向全社會公開,邀請硬體廠商(“建築公司”)、晶片企業(“汽車製造商”)共同參與,按統一標準研發硬體、適配產品,打破 “園區式” 封閉生態的隔閡,推動整個國產算力生態做大做強。此前,AMD、Intel、Apple 等企業發佈的開源UALink,雖有類似開放嘗試,但受限於軟硬體積澱不足,難以支撐大規模擴展的算力網路。就像楊超斌在會上提到的:當前,上下文長度和訓練資料量激增,模型迭代速度加快、多工協同與多輪推理、摩爾定律失效,行業的低時延等一系列要求,促使多晶片互聯、大規模計算成為必然。而想充分釋放百億億次計算和兆參數AI模型的潛力,關鍵在於伺服器叢集中每個NPU間能否實現快速、無縫的通訊。這些節點與叢集,本質是數萬到數十萬個NPU 拼接成的 “高性能引擎”,其協同編排能力,正是算力生態的關鍵。而華為的靈衢協議與超節點架構,不僅為開放硬體與開放原始碼軟體提供了可行方案,也在真正的可用性上提供了另一種選擇。如同華為輪值董事長徐直軍介紹,華為即將上線的Atlas 950超節點、Atlas 960超節點、TaiShan 950超節點以及Atlas 950 SuperCluster 50萬卡叢集和Atlas 960 SuperCluster,都基於靈衢實現了更大的算力規模、更高的頻寬和更低的時延。對比當前全球最大叢集xAI Colossus,Atlas 950 SuperCluster的規模是其2.5倍,算力是其1.3倍,堪稱全球最強算力叢集。而就像我們開頭提到的,Atlas 950超節點較輝達產品的性能也毫不遜色。除了性能上的絕對優勢,華為更以 “開放” 推動產業普惠。讓不同規模、需求的使用者都能搭建自己的 “AI 高速路”,參與全場景算力生態建設,最終實現硬體、軟體、演算法的共建共贏。而對於中國AI算力生態乃至整個AI產業來說,這更是一種安全可靠可持續的選擇,把AI建設在自己的基座之上,形成AI時代的標準和話語權。並且因為我們擁有最大的市場,這種生態一旦閉環,將會形成全新的創新飛輪,如同新能源汽車已經實現的一樣。要致富,先修路。AI建設也是一樣,但現在,華為率先提供了一條開源開放共贏的中國之路。 (量子位)