#全聯接大會 | 熱門關鍵字 | 鉅亨號

每年一度的華為全聯接大會，往往被業界視為觀察數位技術最新動向的重要窗口。9月18日，華為副董事長、輪值董事長徐直軍在2025華為全聯接大會上，公佈了兩則重磅消息，罕見展示了華為在人工智慧（AI）算力方面的硬實力和佈局。一是華為昇騰晶片未來三年將持續迭代4款產品，並將在2026年一季度發佈的新產品上採用華為自研HBM（高頻寬記憶體），這意味著昇騰單顆晶片的性能將會顯著提升，與輝達等企業推出的國際一流晶片對齊；二是華為率先把超節點技術引入通用計算領域，發佈全球首個通用計算超節點TaiShan950 SuperPoD，以及基於該架構的GaussDB資料庫。這兩項突破絕非孤立的技術更新，它們共同指向華為以系統級創新彌補單點短板的戰略路徑。在全球算力競爭已從“單晶片競賽”走向“體系化作戰”的今天，華為正以超節點技術重新定義算力基座的建構方式。而架構於硬體創新之上的軟體生態，也借此獲得前所未有的性能張力。最直觀的體現是，GaussDB資料庫在TaiShan950超節點上實現的性能倍增，揭示出軟硬協同所能釋放的巨大潛能。回望半個世紀以來全球核心資料業務的演進史，從大型機到分佈式系統，從Oracle、IBM所主導的資料庫傳統架構，到雲原生、AI原生的新一代資料基礎設施，技術突破與資料主權的敘事始終交織。而今，華為不僅在關鍵底層技術上實現自主可控，更以持續的自主創新，參與乃至引領資料庫範式的重塑。它正在做的，已不僅是打破壟斷，更是在重構一套屬於數字時代未來的、根植中國、面向世界的系統架構。全球領先超節點：軟體性能躍升的新動能在人工智慧時代，算力的重要性不言而喻。以宏觀視角來看，算力已成為一個國家的核心戰略資源，直接關係到科技自主權與產業話語權。而具體到每個產業，大模型訓練動輒需要數千萬甚至上億條資料的迭代運算，金融分析系統要在毫秒級的時間內對市場變化做出反應，科學研究的複雜模型需要更高的精度和效率……這背後都離不開強大算力的支撐。正如徐直軍在大會上所言，“算力過去是，未來也將繼續是人工智慧的關鍵，更是中國人工智慧的關鍵。”為了打造自主算力底座，早在數年前，華為就啟動了“全面智能化”（All Intelligence）戰略，目標是讓強大的算力賦能千行萬業。如果將人工智慧視作一台精密運轉的時代機械，華為最新推出的超節點技術正如為其裝配的一台高性能發動機。這一系統級創新，不僅為算力基礎設施注入強勁動能，更重新定義了AI發展的空間與推進速率。據徐直軍介紹，超節點已經成為AI基礎設施建設的新常態。在物理上，超節點由多台機器組成，但邏輯上以一台機器學習、思考、推理。基於超節點，華為發佈了超節點叢集，算力規模分別超過50萬卡和達到百萬卡。實現如此龐大規模的高效互聯，是對底層架構設計的嚴峻考驗。而華為基於三十多年構築的聯接技術能力，開創性採用了靈衢互聯協議。目前，基於靈衢的華為雲CloudMatrix384昇騰AI雲服務已全面上線。而未來，超節點規格更將邁向8192卡、15488卡，持續拓寬算力邊界。算力的基礎是晶片，包括華為昇騰晶片在內的一批國產晶片近年來都取得了顯著性能提升。據媒體報導，阿里巴巴旗下半導體公司平頭哥近日公佈最新AI晶片PPU的性能參數，其在一些指標上超過了輝達A800和華為上一代晶片昇騰910B。“我們將以幾乎一年一代、算力翻倍的速度，同時圍繞更易用、更多資料格式、更高頻寬等方向持續演進，持續滿足AI算力不斷增長的需求。”徐直軍在華為全聯接大會上表示。行業報告顯示，新一代雲終端產業正向“雲-網-端-邊-芯”深度協同演進，與AI的融合將催生新一代產業形態。此前，華為雲已提出“3+2+1”戰略架構——通算、智算、儲存為三大核心，AI PaaS與資料庫構成兩大能力基座，安全則貫穿始終。從2025全聯接大會的最新動態來看，華為正通過“算力上雲、應用雲化”的系統路徑，將“雲網端邊芯”協同優勢轉化為從底層算力供給至頂層智能應用的全端賦能能力，為各行各業的智能化轉型奠定堅實而開放的底座。“磁懸浮”革命：靈衢如何讓資料庫性能飆升2.9倍在人工智慧推動產業躍遷的宏大處理程序中，資料存力與算力正在成為國家競爭力的關鍵指標。回顧過去數十年，甲骨文、IBM等西方巨頭憑藉先發技術優勢，長期主導全球資料庫市場，構築起難以撼動的生態壁壘。然而，這一格局正在發生歷史性轉變。近年來，以華為為代表的國內企業持續突破技術邊界。資料顯示，國外廠商的市場份額正逐步收縮，中國力量加速崛起。據中國通訊標準化協會巨量資料技術標準推進委員會（CCSA TC601）2024年發佈的報告，中美資料庫企業數量已相當，預示新一輪產業主導權之爭正在悄然上演。華為雲於2019年推出了自研的分佈式資料庫GaussDB，成為國內唯一實現軟硬協同、全端自主的資料庫。2024年6月，IDC報告顯示，華為雲以13.9%的份額在中國本地部署關係型資料庫市場首次超越甲骨文，問鼎榜首。這不僅是一次市場份額的更迭，更像征著中國底層軟體根技術自主創新的重大突破。而全球首個通用計算超節點TaiShan 950與GaussDB的結合，標誌著資料庫性能和可靠性進入新紀元。據徐直軍介紹，基於該架構的GaussDB池化多寫方案可實現性能提升2.9倍，平滑替代傳統大型機、小型機資料庫系統。他更直言，“TaiShan 950結合GaussDB分佈式資料庫，將成為大型機、小型機及Oracle Exadata的終結者”。其核心突破在於靈衢——首先，GaussDB將計算、記憶體、儲存分層池化，而靈衢如同在超節點中鋪設了多條“磁懸浮高速鐵路”，池化多寫架構則在此基礎上建立了統一的“交通調度系統”，實現智能調度，這使得每一次資料訪問請求都幾乎是瞬時的。實測結果顯示，基於靈衢池化部署的三節點GaussDB叢集，性能達到540萬tpmC（每分鐘處理540萬筆事務）。打個比方，可以把一個“超節點”想像成一個功能齊全、自給自足的“超級廚房”。而基於靈衢的池化，意味著廚房裡的廚具（計算CPU）、食材（資料儲存）、備料台（記憶體）都集中在一個房間裡，並且廚師們可以無縫共享所有資源。相比而言，傳統架構則像一個大食堂的後廚，每個廚師有自己狹窄的灶台。需要麵粉時，得跑另一個倉庫去取（網路/儲存訪問）；需要別人切好的菜時，得等服務員端過來（網路/記憶體訪問）。大部分時間都花在“跑腿”上，而不是“炒菜”上。金融行業作為資料庫技術的試金石，已成為GaussDB廣泛落地的主戰場。2024年8月，《金融電子化》調研顯示，國有六大行只有少量業務使用Oracle，並普遍從國產資料庫中擇一至兩款作為主力——其中GaussDB覆蓋業務系統數量位居首位。這一切印證的不僅是技術替代，更是一個時代的資料基座，正悄然轉向東方的自主創新與系統重構。範式轉移：從技術破壁到生態定義的新征程過去四十年，全球資料庫市場的權杖始終由西方巨頭執掌，其在金融、電信等核心領域構築的壁壘近乎堅不可摧。而今，伴隨華為雲GaussDB基於通用計算超節點的系統性突破，這一格局正迎來歷史性轉折。國產資料庫不再止步於替代與跟隨，而是藉以靈衢為代表的根技術創新，實現從“功能可用”到“性能躍遷”的層級跨越，標誌著中國力量正式從西方體系的“最佳化者”轉型為未來範式的“定義者”。更具戰略意義的是，華為在全聯接大會上主動開放靈衢2.0技術規範，推動其成為產業共識的“聯接標準”。徐直軍所倡導的共建生態，實則是以開放協議對抗碎片化困境，意圖在叢集計算領域建構統一的算力底座。這一舉措，不僅降低全行業創新門檻，更將中國原創架構嵌入全球數字基礎設施的演進脈絡中。華為通過開放技術規範、提供適配工具與聯合研發支援，正在推動形成一個打破技術壁壘、相容多元需求的全球算力基礎設施生態，這與全球數字基建“互聯互通、共建共享”的訴求高度契合。而GaussDB憑藉獲得國際/國內雙CC EAL4+安全認證的硬實力，為其進軍全球市場鑄就了可信基石。在自主創新與開放戰略的雙軌推進下，GaussDB不再僅是市場競爭的參與者，更有望成為支撐全球數位化轉型的“底座型”系統。這意味著，中國技術首次有機會以體系化的方式，深度參與並引領下一輪數字文明的建構處理程序——一場從技術破壁到生態定義的新征程，已然開啟。 (環球時報)

以開創的超節點互聯技術，引領AI基礎設施新範式徐直軍在華為全聯接大會2025上的主題演講女士們、先生們，各位老朋友、新朋友，大家上午好！歡迎來參加2025年華為全聯接大會，時隔一年，很高興再次與大家相聚在上海。我想大家都能感受到，過去的一年對所有AI從業者、關注者來講是記憶深刻的一年，DeepSeek橫空出世，讓全國人民過了一個快樂的AI年，也讓所有大模型訓練者開啟了不知多少個不眠之夜，調整訓練方式，復現DeepSeek結果，當然也給我們帶來了巨大衝擊。從春節開始，到今年4月30日，經過多團隊的協同作戰，終於使Ascend910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前，請允許我回顧一下去年的HC，我講到了如下幾點：第一、智能化的可持續，首先是算力的可持續；第二、中國半導體製造工藝將在相當長時間處於落後狀態；第三、可持續的算力只能基於實際可獲得的晶片製造工藝；第四、人工智慧成為主導性算力需求，促使計算系統正在發生結構性變化；第五、開創計算架構，打造“超節點+叢集”算力解決方案持續滿足算力需求。但第五點沒有展開講，本來想講，但我的團隊不同意。今天，我想利用此機會，來把我去年HC沒有完成的任務完成，也算是答卷。我今天分享的主題是：“以開創的超節點互聯技術，引領AI基礎設施新範式”，也是回答去年HC提到的第五點：如何開創計算架構，打造“超節點+叢集”算力解決方案來持續滿足算力需求。在展開今天主題前，回到DeepSeek對產業界、對華為的衝擊，DeepSeek開源後，我們的客戶對華為的昇騰發展指出了很多問題，也充滿了期待，並一直在給我們不斷地提建議。為此，經過內部的充分討論並達成共識，我們於2025年8月5日在北京專門舉辦了昇騰產業峰會，我代表華為給出了回應，在座的有的參加了，有的可能沒有參加。今天，我也利用此機會就主要的決定給大家匯報一下。主要有四點：一、華為堅持昇騰硬體變現；二、CANN 編譯器和虛擬指令集介面開放，其它軟體全開源，CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成，未來開源開放與產品上市同步；三、Mind系列應用使能套件及工具鏈全面開源，並於2025年12月31日前完成；四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求，但要走向AGI、要走向物理AI，我們認為，算力，過去是，未來也將繼續是人工智慧的關鍵，更是中國人工智慧的關鍵。算力的基礎是晶片，昇騰晶片是華為AI算力戰略的基礎。自2018年發佈Ascend310晶片，2019年發佈Ascend910晶片，到2025年，Ascend910C晶片隨著Atlas900超節點規模部署，為大家所熟悉。在過去幾年，客戶和夥伴們對昇騰晶片有很多訴求，對昇騰晶片也有很多期待。面向未來，華為的晶片路標是如何規劃的？想必是大家普遍關心的話題，可能也是最關心的內容。因此，今天，我就直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家，昇騰晶片將持續演進，為中國乃至世界的AI算力構築堅固根基。未來3年，至2028年，我們在開發和規劃了三個系列，分別是Ascend 950系列，包括兩顆晶片：Ascend950PR和Ascend950DT，以及Ascend960、Ascend970系列，更多具體晶片還在規劃中。下面我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend950系列。我首先介紹一下Ascend 950系列的晶片架構，Ascend 950PR和Ascend 950DT共用了Ascend950 Die。與前一代昇騰晶片相比，Ascend950 在以下幾個方面實現了根本性提升。第一，新增支援業界標準FP8/MXFP8/MXFP4等低數值精度資料格式，算力分別達到1P和2P，提升訓練效率和推理吞吐。並特別支援華為自研的HiF8，在保持FP8的高效的同時，精度非常接近FP16。第二，大幅度提升了向量算力。這主要通過三個方面實現：其一，提升向量算力佔比；其二，採用創新的新同構設計，即支援 SIMD/SIMT 雙程式設計模型，SIMD能夠像流水線一樣處理“大塊”向量，而SIMT便於靈活處理“碎片化”資料；其三，把記憶體訪問顆粒度從512字節減少到128字節，記憶體訪問更精細，從而更好地支援了離散且不連續的記憶體訪問。第三，互聯頻寬相比Ascend910C提升了2.5倍，達到2TB/s。第四，結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同，我們自研了兩種HBM，分別是：HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend950Die合封，分別構成晶片Ascend950PR：面向Prefill和推薦場景，以及Ascend950DT：面向Decode和訓練場景。下面分別介紹。首先是我們的第一顆晶片，Ascend 950PR，主要面向推理Prefill階段和推薦業務場景。首先，我們發現，隨著Agent的快速發展，輸入上下文越來越長，首Token輸出階段佔用計算資源越來越多。其次是在電子商務、內容平台、社交媒體等業務應用中，要求推薦演算法具有更高的精準度和更低的時延，對計算能力的需求也越來越大。推理Prefill階段和推薦演算法都是計算密集型，對計算平行的能力要求高，但對記憶體訪問頻寬的需求相對低。通過分級記憶體解決方案，推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。Ascend 950PR 採用了華為自研的低成本HBM，HiBL 1.0，相比高性能、高價格的HBM3e/4e，能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年一季度推出，首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT，相比Ascend950PR，它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高，我們開發了HiZQ 2.0，使記憶體容量達到144GB，記憶體訪問頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次，支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體訪問頻寬、記憶體容量、互聯連接埠數等各種規格上相比Ascend 950翻倍，大幅度提升訓練、推理等場景的性能；同時還支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現，能進一步提升推理吞吐，並且比業界FP4方案的推理精度更優。Ascend 960將在2027年四季度推出。最後一顆是在規劃中的Ascend 970，這顆晶片的一些規格還在討論中。總體方向是，在各項指標上大幅度升級，全面升級訓練和推理性能。目前的初步考慮是，相比Ascend 960，Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍，記憶體訪問頻寬至少增加1.5倍。Ascend 970計畫在2028年四季度推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標，總體上，我們將以幾乎一年一代算力翻倍的速度，同時圍繞更易用，更多資料格式、更高頻寬等方向持續演進，持續滿足AI算力不斷增長的需求。可以看到，相比Ascend 910B/910C，從Ascend 950開始的主要變化包括：引入SIMD/SIMT新同構，提升程式設計易用性；支援更加豐富的資料格式，包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等；支援更大的互聯頻寬，其中950系列為2TB/s，970系列提升到4TB/s；支援更大的算力，FP8算力從950系列的1PFLOPS提升到960的2PFLOPS、970的4PFLOPS；FP4算力從950的2PFLOPS提升到960的4PFLOPS、970的8PFLOPS；記憶體容量逐漸加倍，而記憶體訪問頻寬將翻兩番。有了昇騰晶片為基礎，我們就能夠打造滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向看，超節點已經成為主導性產品形態，並正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的電腦，物理上由多台機器組成，但邏輯上以一台機器學習、思考、推理。隨著算力需求的持續增長，超節點的規模也在持續、快速增大。今年3月份，華為正式推出了Atlas 900超節點，滿配支援384卡。因為是超節點，這384顆Ascend910C晶片，能夠像一台電腦一樣工作，最大算力可達300PFLOPS。到目前為止，Atlas 900依然是全球算力最大的超節點。大家經常聽到的CloudMatrix384超節點，是華為雲基於Atlas 900超節點建構的雲服務實例。Atlas 900超節點自上市以來，已經累計部署超過300套，服務20多個客戶，涵蓋網際網路、電信、製造等多個行業。可以說，Atlas900於2025年，開啟了華為AI超節點的征程。今天，結合我們已經推出或正在研發中的昇騰晶片，我將為大家帶來更多超節點和叢集產品。現在進入今天最激動人心的時刻，就是新產品發佈環節。今天我要發佈的第一款產品，Atlas 950超節點，基於Ascend950DT打造。Atlas 950超節點支援8192張基於Ascend950DT的昇騰卡，是Atlas 900超節點的20多倍，我們習慣稱呼的昇騰卡，每張卡對應一顆Ascend950DT晶片，8192張昇騰卡等同於8192顆Ascend950DT晶片。Atlas950超節點滿配包括由128個計算櫃、32個互聯櫃，共計160個機櫃組成，佔地面積1000平方米左右，櫃間採用全光互聯。總算力大幅度提升，其中，FP8算力達到8E FLOPS，FP4算力達到16E FLOPS。互聯頻寬達到16PB/s，這個數字意味著，Atlas 950一個產品的總互聯頻寬，已經超過今天全球網際網路峰值頻寬的10倍有餘。Atlas 950超節點的上市時間是：2026年四季度。我們很自豪的看到，Atlas 950超節點，至少在未來多年都將保持是全球最強算力的超節點，並且在各項主要能力上都遠超業界主要產品。其中，相比輝達同樣將在明年下半年上市的NVL144，Atlas 950超節點卡的規模是其56.8倍，總算力是其6.7倍，記憶體容量是其15倍，達到1152TB；互聯頻寬是其62倍，達到16.3PB/s。即使是與輝達計畫2027年上市的 NVL576相比，Atlas 950超節點在各方面依然是領先的。算力、記憶體容量、記憶體訪問速度、互聯頻寬等能力的大幅度增強，為大模型訓練性能和推理吞吐帶來顯著提升。相比華為已經推出的Atlas900超節點，Atlas 950超節點的訓練性能提升17倍，達到4.91M TPS。通過支援FP4資料格式，Atlas 950超節點的推理性能提升達26.5倍，達到19.6M TPS。8192卡超節點並不是我們的終點，我們還在繼續努力。我今天發佈的第二款超節點產品，Atlas960超節點。基於Ascend960，Atlas 960超節點最大可支援15488卡。Atlas960超節點由176個計算櫃，44個互聯櫃，共220個機櫃，佔地面積約2200平方米。Atlas960超節點的上市時間是：2027年四季度。伴隨卡的規模的再次升級，Atlas 960超節點讓我們在AI超節點的優勢再度增強。基於Ascend960，其總算力、記憶體容量、互聯頻寬在Atlas950基礎上再翻倍。其中，FP8總算力將達到30E FLOPS，而FP4總算力將達到60 EFLOPS；記憶體容量達到4460TB，互聯頻寬達到34PB/s。大模型訓練和推理的性能相比Atlas950超節點，將分別提升3倍和4倍以上，達到15.9M TPS 和80.5M TPS。通過Atlas 950和Atlas 960，我們對於為人工智慧的長期快速發展提供可持續且充裕算力，充滿信心。超節點已經重新定義AI基礎設施的範式，但不僅僅侷限於AI。在通用計算領域，我們同樣認為，超節點技術能夠帶來很大的價值。從需求角度考慮，金融核心業務等目前仍然有部分承載在大型機和小型機之上，相比普通伺服器叢集，它們對伺服器的性能和可靠性有更高的訴求，通用計算超節點在這兩點上正好切合需求。從技術角度考慮，超節點同樣可以為通算領域注入全新活力。因此，鯤鵬處理器主要圍繞支援超節點，更多核、更高性能等方向持續演進。同時，通過自研的雙執行緒靈犀核，使鯤鵬處理器能方便支援更多執行緒。2026年Q1，我們將推出Kunpeng950處理器，包括兩個版本，分別是：96核/192執行緒和192核/384執行緒；支援通用計算超節點；安全方面新增四層隔離，成為鯤鵬首顆實現機密計算的資料中心處理器。2028年Q1，鯤鵬處理器將在晶片微架構、先進封裝技術等領域持續突破關鍵技術，將再次推出兩個版本，分別是高性能版本，96核/192執行緒，單核性能提升50%+，主要面向AI host、資料庫等場景。以及高密版本，不少於256核/512執行緒，主要面向虛擬化、容器、巨量資料、數倉等場景。接下來是今天我發佈的第三款產品：TaiShan 950超節點，基於Kunpeng950打造，全球首個通用計算超節點，其最大支援16節點，32個處理器，最大記憶體48TB，同時支援記憶體、SSD、DPU池化。這款產品不只是通用計算領域的一次技術升級，除了大幅提升通用計算場景下的業務性能，還能幫助金融系統破解核心難題。當前大型機、小型機替換的核心挑戰是資料庫分佈式改造，而基於TaiShan 950超節點打造的GaussDB多寫架構，無需改造，但性能提升2.9 倍，最終可平滑替代大型機、小型機上的傳統資料庫。TaiShan950加上分佈式GaussDB將成為各類大型機、小型機的終結者，徹底取代各種應用場景的大型機和小型機以及Oracle的Exadata資料庫伺服器。除了核心資料庫場景，TaiShan 950超節點在更廣泛的場景裡，表現也很亮眼：比如虛擬化環境的記憶體利用率提升20%，在Spark巨量資料場景，即時資料處理時間縮短30%。TaiShan 950超節點上市時間是：2026年一季度，敬請期待。超節點的價值，不僅僅體現在智算和通算傳統業務領域。網際網路產業廣泛應用的推薦系統，正在從傳統推薦演算法向生成式推薦系統演進。我們可以基於TaiShan950和Atlas950打造成混合超節點，為下一代生成式推薦系統打開全新架構方向。一方面，通過超大頻寬、超低時延互聯以及超大記憶體，混合超節點構成超大共用記憶體池，支援PB級推薦系統嵌入表，從而支撐超高維度使用者特徵；另一方面，混合超節點的超大AI算力，能夠支援超低時延推理和特徵檢索。因此，混合超節點是面向下一代生成式推薦系統的解決方案的全新選擇。大規模超節點把智算和通算的能力都推向新的高度，同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者，當然不懼挑戰。在定義和設計Atlas950、Atlas960兩個超節點的技術規格時，我們遭遇到了互聯技術的巨大挑戰，主要在兩個方面：第一是如何做到長距離而且高可靠。大規模超節點機櫃多，櫃間聯接距離長，當前電互聯和光互聯技術都不能滿足需求。其中，當前的電互聯技術在高速時聯接距離短，最多隻能支援兩櫃互聯，而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起，但無法滿足可靠性需求。第二是如何做到大頻寬而且低時延。當前跨櫃卡間互聯頻寬低，和超節點的需求差距達5倍；跨櫃的卡間時延大，當前互聯技術最好只能做到3微秒左右，和Atlas950/960設計需求仍然有24%的差距，當時延已經低至2~3個微秒時，已經逼近物理極限，那怕0.1微秒的提升，挑戰都很大。華為基於三十多年構築的技術能力，通過系統性創新，徹底解決了當前技術存在的問題，超標達成Atlas950/960超節點的設計需求，使萬卡超節點成為可能。首先，為瞭解決長距離且高可靠問題，我們在互聯協議的物理層、資料鏈路層、網路層、傳輸層等每一層都引入了高可靠機制；同時在光路引入了百納秒級故障檢測和保護切換，當出現光模組閃斷或故障時，讓應用無感；並且，我們重新定義和設計了光器件、光模組和互聯晶片。這些創新和設計讓光互聯的可靠性提升100倍，且互聯距離超過200米，實現了電的可靠和光的距離。其次，為瞭解決大頻寬且低時延問題，我們突破了多連接埠聚合與高密封裝技術，以及平等架構和統一協議，實現了TB級的超大頻寬，2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新，我們才攻克了超節點互聯技術，滿足了高可靠、全光互聯、高頻寬、低時延的互聯要求，讓大規模超節點成為了可能。為了達成Atlas950/960超節點對互聯的技術要求，為了實現萬卡超節點還能是一台電腦，華為開創了超節點架構並開創了新型的互聯協議，能夠支撐萬卡級超節點架構。基於這個互聯協議的超節點架構的核心價值主張是：萬卡超節點，一台電腦，也就是說，通過該互聯協議，把數萬規模的計算卡，聯接成一個超節點，能夠像一台電腦一樣工作、學習、思考、推理。在技術上，我們總結認為，萬卡級超節點架構應該具備6大特徵，分別是匯流排級互聯、平等協同、全量池化、協議歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協議取名“靈衢”，英文名稱：UB，UnifiedBus今天，我們正式發佈靈衢、UnifiedBus，一個面向超節點的互聯協議。同時，我宣佈，華為將開放靈衢2.0技術規範。為什麼從靈衢2.0開始開放？事實上，靈衢的研究是從2019年開始的，因為眾所周知的原因，先進工藝不可獲得，我們需要從多晶片上突破，希望把更多的計算資源聯接在一起。我們取了一個名字叫UnifiedBus，簡稱UB，中文名字“靈衢”，意味著類似九省通衢，實現大規模算力的聯通。基於靈衢 1.0 的Atlas 900超節點自2025年3月開始交付，至今已商用部署300多套，靈衢1.0技術得到充分驗證。在靈衢1.0的基礎上，我們繼續豐富功能，最佳化性能，提升規模，進一步完善了協議，形成了靈衢2.0，前面發佈的Atlas 950超節點就是基於靈衢2.0。我們認為靈衢2.0具備了開放的條件，為了更廣泛地促進互聯技術發展和產業進步，今天華為決定開放靈衢2.0技術規範，歡迎產業界夥伴基於靈衢研發相關產品和部件，共建靈衢開放生態。我在去年HC會上強調過，基於中國可獲得的晶片製造工藝，我們努力打造“超節點+叢集”算力解決方案，來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生，是面向超節點的互聯協議，也是建構算力集群產品最優的互聯技術。接下來為大家帶來兩個叢集產品：首先是，Atlas 950 SuperCluster 50萬卡叢集！Atlas 950 SuperCluster叢集由64個Atlas 950超節點互聯組成，把1萬多機櫃中的52萬多片昇騰950DT組成為一個整體，FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步，即2026年Q4。在叢集組網上，我們同時支援UBoE與RoCE兩種協議，UBoE是把UB協議承載在乙太網路上，讓客戶能夠利用現有以太交換機。相比傳統RoCE，UBoE組網的靜態時延更低、可靠性更高，交換機和光模組數量都更節省，所以，我們推薦UBoE。這就是我們的Atlas 950 SuperCluster叢集。相比當前世界上最大的叢集xAI Colossus，規模是其2.5倍，算力是其1.3倍，是當之無愧的全世界最強算力集群！無論是當下主流的千億稠密、稀疏大模型訓練任務，還是未來的兆、十兆大模型訓練，超節點叢集都可以成為性能強悍的算力底座，高效穩定地支援人工智慧持續創新。相應的，在2027年Q4，我們還將基於Atlas 960超節點，同步推出Atlas 960 SuperCluster，叢集規模進一步提升到百萬卡級，FP8總算力達到2 ZFLOPS！FP4總算力達到4 ZFLOPS。並且，它同樣也支援UBoE與RoCE兩種協議，在UBoE協議加持下，性能與可靠性同樣更優，並且，靜態時延和網路無故障時間優勢進一步擴大，因此繼續推薦UBoE組網。通過Atlas 960 SuperCluster，我們將持續加速客戶應用創新，探索智能水平新高。很高興今天給大家帶來一系列新產品，我們希望和產業界一起，以開創的靈衢超節點互聯技術，引領AI基礎設施新範式；以基於靈衢的超節點和叢集持續滿足算力快速增長的需求，推動人工智慧持續發展，創造更大的價值！ (中國青年網)