當地時間2026年3月2日,MWC 2026巴塞隆納展會迎來重磅炸場時刻——華為計算產品線總裁張熙偉首次在海外發佈全新Atlas 950 SuperPoD超節點叢集,這款被稱為“算力巨無霸”的產品,以單系統8192顆昇騰950DT晶片、8 EFLOPS(FP8精度)總算力、1152TB超大記憶體的強悍規格,直接刷新全球超節點叢集的性能紀錄,甚至全面超越輝達未來規劃機型,成為應對兆級大模型訓練、多模態場景落地、智能體網際網路建設的核心算力底座。
不同於行業內部分超節點“單純堆硬體”的粗放模式,Atlas 950的核心競爭力在於系統級架構創新與全鏈路技術最佳化,其背後是華為在晶片、互聯協議、軟體生態等領域的長期技術積累。
此次發佈不僅彰顯了華為在算力基礎設施領域的全球領先地位,更將深刻影響全球算力產業鏈格局,推動AI算力從“雲端集中式”向“端雲協同式”深度轉型。
本文將從叢集核心架構拆解、關鍵技術深度剖析、算力產業鏈影響、行業意義與未來展望四個維度,全方位解讀Atlas 950超節點叢集的技術價值與產業影響,兼顧技術性、科學性與原創性,助力讀者看透這款“算力巨無霸”的核心競爭力。
Atlas 950超節點叢集的強悍性能,絕非單純依靠8192顆晶片的堆疊,而是源於其革命性的系統級架構設計——打破傳統以CPU為中心的馮諾依曼架構,建構“全平等互聯+記憶體統一編址+資源池化”的全新架構範式,實現“計算、通訊、儲存”三位一體的高效協同,從根源上解決了傳統算力叢集“規模越大、效率越低”的行業痛點。
其核心架構可分為三大層級,各層級協同聯動,構成完整的算力支撐體系:
01. 硬體基礎層:晶片叢集+模組化設計,兼顧規模與靈活
硬體基礎層是Atlas 950算力輸出的核心載體,以昇騰950DT晶片為核心,採用“模組化堆疊+全光互聯”的設計思路,實現算力規模與部署靈活性的雙重平衡,具體細節如下:
核心晶片方面,Atlas 950搭載的昇騰950DT晶片,是華為專為超大規模AI訓練與推理Decode階段最佳化的專用NPU晶片,雖然受限於製程工藝,單卡性能仍處於追趕國際頂級產品的階段,但通過叢集化協同,實現了“量變到質變”的突破。
該晶片支援FP4、FP8等低精度計算格式,可根據任務需求動態切換,兼顧算力性能與能耗控制,為叢集的高算力、低功耗運行提供基礎支撐。
叢集部署方面,Atlas 950採用“單櫃64卡”的模組化基本單元,最大可擴展至8192張昇騰950DT卡高速互聯,規模是華為此前昇騰384超節點的20多倍。
這種模組化設計的優勢在於,可根據使用者算力需求靈活擴容,從8卡到8192卡實現無縫擴展,既適配中小型企業的輕量化算力需求,也能滿足大型智算中心、營運商的超大規模算力需求,降低算力建設的門檻與成本。
儲存與算力匹配方面,1152TB的超大記憶體並非簡單的容量疊加,而是採用“記憶體池化”設計,將所有節點的記憶體資源整合為統一的共享資源池,實現記憶體統一編址——就像圖書館藏書統一編號,無需複雜的資料遷移流程,即可實現跨節點資料的快速調取,避免算力浪費,真正實現“計算不等待通訊”,這也是其能夠支撐兆級大模型訓練的關鍵前提之一。
02. 互聯傳輸層:“靈衢”協議+全光互聯,破解通訊瓶頸
傳統算力叢集的核心痛點的是“通訊瓶頸”——隨著晶片數量增加,節點間的通訊延遲會急劇上升,算力利用率大幅下降,甚至出現訓練中斷的情況。
Atlas 950之所以能實現8192顆晶片的高效協同,核心在於其搭載了華為自研的“靈衢”(UnifiedBus)互聯協議與全光互聯技術,建構了“低時延、高頻寬、高可靠”的互聯傳輸體系。
“靈衢”互聯協議是此次發佈的核心技術突破之一,它將匯流排從伺服器內部擴展到整機櫃、跨機櫃,替代傳統乙太網路互聯,實現了通訊效率的量級提升:相比傳統互聯協議,通訊頻寬提升15倍,單跳通訊時延從2微秒降至200納秒,降低10倍;同時,該協議支援長距離高可靠全光無損互聯,櫃間頻寬實現10倍提升,跨櫃卡間往返時延從7μs降低到3μs,徹底打破了銅纜互聯的距離和頻寬限制,讓數千個機櫃像一塊晶片一樣協同工作。
全光互聯技術的應用進一步強化了互聯傳輸能力,Atlas 950的互聯總頻寬突破16.3PB/s,這一數字相當於當前全球網際網路峰值頻寬的10倍有餘,意味著節點間的資料傳輸速度實現質的飛躍,能夠輕鬆支撐超大規模資料的即時互動,為兆級大模型的分佈式訓練提供了堅實的通訊保障。
值得注意的是,華為已將“靈衢”互聯協議的600頁詳細技術規範全面開放,截至目前下載量已接近2.4萬次,助力產業界夥伴依託該技術打造相關產品,共建開放共贏的算力生態。
03. 軟體調度層:全端協同+智能調度,最大化釋放算力價值
硬體的強悍性能需要軟體生態的支撐,Atlas 950搭載華為全端自研的軟體調度體系,涵蓋異構計算架構CANN、作業系統openEuler、AI框架MindSpore等核心元件,實現“硬體-軟體-演算法”的全端協同,最大化釋放算力價值。
其中,CANN異構計算架構作為“算力調度中樞”,通過分層解耦,將算子庫、加速庫、圖計算、程式語言等軟體程式碼全部開源,支援Triton、PyTorch、vLLM等業界主流開放原始碼專案,大幅提升了開發者的易用性,能夠根據不同任務需求,動態調度叢集的算力、儲存、通訊資源,實現資源的最優分配。
MindSpore AI框架則針對Atlas 950的架構特點進行了深度最佳化,支援超大規模模型的分佈式訓練,可自動拆分訓練任務,分配到不同的晶片節點,提升訓練效率。
此外,Atlas 950還支援“朝推夜訓”錯峰調度模式與“訓推共池”技術,可根據白天推理、夜間訓練的業務特點,動態調整算力分配,大幅提升算力利用率;同時,其內建的智能維運系統,可即時監控叢集的運行狀態,及時排查故障,保障叢集的穩定運行,降低維運成本。
Atlas 950超節點叢集之所以能在核心指標上全面領先全球同類產品,關鍵在於四大核心技術突破,華為通過系統級創新,繞開了先進製程的限制,實現了“以通訊補算力、以系統補單點”的戰略,在叢集性能上實現對國際主流產品的全面反超,具體技術突破如下:
01. 突破一:平等計算架構,打破CPU中心瓶頸
傳統算力叢集採用“CPU為中心”的架構,所有計算、儲存、通訊任務都需要經過CPU中轉,導致通訊延遲高、算力利用率低,尤其是在超大規模叢集中,這一問題更為突出。
Atlas 950創新採用“平等計算架構”,讓CPU、NPU、記憶體單元、儲存單元等6大元件實現平等互聯,無需經過CPU中轉,直接進行資料互動,大幅提升通訊效率。
這種架構的核心優勢在於,將計算任務的重心從CPU轉移到NPU,充分發揮NPU在AI計算中的優勢,同時讓各元件各司其職、高效協同,使整個超節點在邏輯上像一台電腦一樣工作。實測資料顯示,相比傳統CPU中心架構,Atlas 950的算力利用率提升30%以上,訓練中斷率降低90%,徹底解決了傳統叢集“規模越大、效率越低”的痛點。
02. 突破二:多精度算力自適應調節,兼顧性能與能耗
Atlas 950支援FP4、FP8、FP16、BF16等多種計算精度,可根據任務類型動態切換,實現“性能與能耗”的最優平衡——在大模型訓練場景,採用FP8精度,實現8 EFLOPS的總算力,滿足超大規模模型的訓練需求;在高並行推理場景,採用FP4精度,算力提升至16 EFLOPS,同時降低能耗,適配推薦系統、智能互動等高頻推理場景。
這種多精度自適應調節技術,並非簡單的精度切換,而是通過軟體演算法的最佳化,在降低精度的同時,最大限度保證推理精度不損失。
實測資料顯示,Atlas 950在FP4精度下的推理性能,較昇騰384超節點提升26.5倍,達到19.6M TPS;訓練性能提升17倍,達到4.91M TPS,能夠輕鬆支撐LLaMA 3、Qwen等千億級、兆級大模型的訓練與推理。
03. 突破三:記憶體統一編址+資源池化,實現算力高效利用
兆級大模型訓練的核心需求之一,是海量資料的快速讀取與互動,傳統叢集的記憶體分散管理模式,會導致資料遷移成本高、讀取延遲高,嚴重影響訓練效率。Atlas 950採用“記憶體統一編址+資源池化”技術,將所有節點的記憶體、儲存資源整合為統一的共享資源池,實現跨節點資料的“零遷移”讀取。
具體而言,記憶體統一編址技術讓不同節點的記憶體擁有統一的地址空間,開發者無需關注資料儲存在那個節點,即可像訪問本地記憶體一樣,快速調取跨節點資料,大幅降低資料遷移成本;資源池化技術則可根據任務需求,動態分配記憶體、儲存、算力資源,避免資源閒置,實現算力利用率的最大化。
1152TB的超大記憶體池,能夠輕鬆容納兆級大模型的參數,無需頻繁進行資料讀寫,大幅提升訓練效率。
04. 突破四:全光無損互聯,破解長距離通訊難題
超大規模叢集的部署,往往需要跨機櫃、長距離互聯,傳統銅纜互聯存在訊號衰減嚴重、頻寬有限、功耗高的問題,無法滿足8192顆晶片的高效協同需求。
Atlas 950採用“全光無損互聯”技術,結合“靈衢”互聯協議,實現了長距離、高頻寬、低時延的通訊突破。
全光互聯技術以光纖為傳輸介質,相比銅纜,訊號衰減更小、傳輸距離更遠、頻寬更大,同時功耗降低40%以上;無損傳輸技術則通過流量控制、差錯校驗等演算法,避免資料傳輸過程中的丟包,確保通訊的可靠性。
此次Atlas 950的互聯總頻寬達到16.3PB/s,是輝達2026年下半年計畫上市的NVL144的62.7倍,即便對標輝達2027年計畫上市的NVL576,互聯頻寬依然領先16.3倍,徹底破解了超大規模叢集的長距離通訊難題。
Atlas 950超節點叢集的發佈,不僅是華為自身技術實力的體現,更將對全球算力產業鏈產生深遠影響——其核心邏輯是“以系統級創新帶動全鏈條發展”,推動算力產業鏈從“單點競爭”向“全鏈條協同”轉型,同時助力國產算力實現全球化突圍,帶動上游製造、中游配套、下游應用全線受益,具體影響可分為三個層面:
01. 上游:帶動國產晶片、材料、封測產業升級,強化供應鏈自主可控
Atlas 950的核心硬體依賴昇騰950DT晶片,而該晶片實現了從設計、製造、封裝到核心元件的全鏈路國產化,將直接帶動上游國產晶片製造、封測、核心材料產業的升級,強化中國算力供應鏈的自主可控能力。
此外,Atlas 950的規模化部署,還將帶動國產HBM記憶體、高速連接器等核心元件的需求爆發,推動相關企業加大研發投入,提升產品競爭力,逐步打破國外企業的壟斷。
02. 中游:拉動伺服器、光模組、液冷等配套產業放量,形成協同生態
Atlas 950超節點叢集的部署,需要伺服器、光模組、液冷裝置等中游配套產品的支撐,將直接拉動相關產業的放量增長,形成“超節點+配套”的協同生態。
同時,華為堅持開源開放戰略,將“靈衢”互聯協議、CANN異構計算架構等核心技術開源,將吸引更多中游企業參與到配套產品的研發與生產中,完善中游配套生態,降低產業整體成本。
03. 下游:賦能千行百業AI升級,推動算力變現與場景落地
Atlas 950超節點叢集的強悍性能,將為下游各行業的AI升級提供核心算力支撐,推動算力從“基礎設施”向“生產要素”轉型,實現算力的規模化變現,具體應用場景涵蓋六大核心領域:
此外,Atlas 950預計將於2026年上半年在國內發佈,四季度正式上市,其規模化落地將進一步降低各行業的算力門檻,推動AI技術在千行百業的深度滲透,釋放算力的產業價值。
重構全球算力格局,助力AI原生時代落地
MWC 2026上華為Atlas 950超節點叢集的發佈,不僅是一款產品的亮相,更標誌著全球算力競爭進入“系統級創新”的新階段,其行業意義主要體現在三個方面:
其一,打破國際算力壟斷,實現國產算力的全球化突圍。長期以來,全球超大規模算力叢集市場被輝達等國外企業壟斷,而Atlas 950在核心指標上全面超越輝達未來規劃機型,證明了國產算力在系統級創新領域的領先實力,打破了國外企業的技術壟斷,為全球算力產業提供了新的選擇,也推動中國算力技術走向全球。
其二,推動算力產業從“單點競爭”向“全鏈條協同”轉型。Atlas 950的發佈,帶動了上游晶片、材料、封測,中游伺服器、光模組、液冷,下游應用等全鏈條的協同發展,形成了“硬體-軟體-生態-應用”的完整產業閉環,推動中國算力產業鏈向高品質發展轉型,強化供應鏈自主可控能力,規避地緣政治風險。
其三,支撐AI原生時代落地,助力千行百業智能化升級。當前,AI技術已邁入智能體網際網路時代,兆級大模型、具身智能等場景對算力提出了更高要求,Atlas 950的發佈,為這些場景的落地提供了堅實的算力底座,推動AI技術從“實驗室”走向“產業端”,加速千行百業的智能化升級,助力營運商從移動網際網路邁向智能體網際網路。
從未來展望來看,隨著Atlas 950的規模化上市,預計將引發全球超節點叢集的技術迭代,更多企業將聚焦系統級創新,推動算力性能的持續提升;同時,華為開源開放的戰略,將吸引更多全球開發者與企業參與到昇騰生態建設中,完善國產算力生態,推動國產算力在全球市場的份額持續提升。
此外,隨著AI技術的持續迭代,Atlas 950還將不斷最佳化升級,進一步提升算力性能、降低能耗、拓展應用場景,同時帶動算力產業鏈上下游的技術創新與產業升級,為全球AI產業的發展提供更加強勁的算力支撐。
可以預見,Atlas 950的發佈,將成為國產算力崛起的重要里程碑,推動全球算力格局進入“中國引領、全球協同”的新階段。 (AI雲原生智能算力架構)