#超節點
【MWC 2026】華為發佈:Atlas 950 超節點叢集!FP8 精度:8 EFLOPS算力之深度洞察!
當地時間2026年3月2日,MWC 2026巴塞隆納展會迎來重磅炸場時刻——華為計算產品線總裁張熙偉首次在海外發佈全新Atlas 950 SuperPoD超節點叢集,這款被稱為“算力巨無霸”的產品,以單系統8192顆昇騰950DT晶片、8 EFLOPS(FP8精度)總算力、1152TB超大記憶體的強悍規格,直接刷新全球超節點叢集的性能紀錄,甚至全面超越輝達未來規劃機型,成為應對兆級大模型訓練、多模態場景落地、智能體網際網路建設的核心算力底座。不同於行業內部分超節點“單純堆硬體”的粗放模式,Atlas 950的核心競爭力在於系統級架構創新與全鏈路技術最佳化,其背後是華為在晶片、互聯協議、軟體生態等領域的長期技術積累。此次發佈不僅彰顯了華為在算力基礎設施領域的全球領先地位,更將深刻影響全球算力產業鏈格局,推動AI算力從“雲端集中式”向“端雲協同式”深度轉型。本文將從叢集核心架構拆解、關鍵技術深度剖析、算力產業鏈影響、行業意義與未來展望四個維度,全方位解讀Atlas 950超節點叢集的技術價值與產業影響,兼顧技術性、科學性與原創性,助力讀者看透這款“算力巨無霸”的核心競爭力。一、核心架構拆解 打破傳統侷限,建構“平等互聯+資源池化”的算力新範式Atlas 950超節點叢集的強悍性能,絕非單純依靠8192顆晶片的堆疊,而是源於其革命性的系統級架構設計——打破傳統以CPU為中心的馮諾依曼架構,建構“全平等互聯+記憶體統一編址+資源池化”的全新架構範式,實現“計算、通訊、儲存”三位一體的高效協同,從根源上解決了傳統算力叢集“規模越大、效率越低”的行業痛點。其核心架構可分為三大層級,各層級協同聯動,構成完整的算力支撐體系:01. 硬體基礎層:晶片叢集+模組化設計,兼顧規模與靈活硬體基礎層是Atlas 950算力輸出的核心載體,以昇騰950DT晶片為核心,採用“模組化堆疊+全光互聯”的設計思路,實現算力規模與部署靈活性的雙重平衡,具體細節如下:核心晶片方面,Atlas 950搭載的昇騰950DT晶片,是華為專為超大規模AI訓練與推理Decode階段最佳化的專用NPU晶片,雖然受限於製程工藝,單卡性能仍處於追趕國際頂級產品的階段,但通過叢集化協同,實現了“量變到質變”的突破。該晶片支援FP4、FP8等低精度計算格式,可根據任務需求動態切換,兼顧算力性能與能耗控制,為叢集的高算力、低功耗運行提供基礎支撐。叢集部署方面,Atlas 950採用“單櫃64卡”的模組化基本單元,最大可擴展至8192張昇騰950DT卡高速互聯,規模是華為此前昇騰384超節點的20多倍。這種模組化設計的優勢在於,可根據使用者算力需求靈活擴容,從8卡到8192卡實現無縫擴展,既適配中小型企業的輕量化算力需求,也能滿足大型智算中心、營運商的超大規模算力需求,降低算力建設的門檻與成本。儲存與算力匹配方面,1152TB的超大記憶體並非簡單的容量疊加,而是採用“記憶體池化”設計,將所有節點的記憶體資源整合為統一的共享資源池,實現記憶體統一編址——就像圖書館藏書統一編號,無需複雜的資料遷移流程,即可實現跨節點資料的快速調取,避免算力浪費,真正實現“計算不等待通訊”,這也是其能夠支撐兆級大模型訓練的關鍵前提之一。02. 互聯傳輸層:“靈衢”協議+全光互聯,破解通訊瓶頸傳統算力叢集的核心痛點的是“通訊瓶頸”——隨著晶片數量增加,節點間的通訊延遲會急劇上升,算力利用率大幅下降,甚至出現訓練中斷的情況。Atlas 950之所以能實現8192顆晶片的高效協同,核心在於其搭載了華為自研的“靈衢”(UnifiedBus)互聯協議與全光互聯技術,建構了“低時延、高頻寬、高可靠”的互聯傳輸體系。“靈衢”互聯協議是此次發佈的核心技術突破之一,它將匯流排從伺服器內部擴展到整機櫃、跨機櫃,替代傳統乙太網路互聯,實現了通訊效率的量級提升:相比傳統互聯協議,通訊頻寬提升15倍,單跳通訊時延從2微秒降至200納秒,降低10倍;同時,該協議支援長距離高可靠全光無損互聯,櫃間頻寬實現10倍提升,跨櫃卡間往返時延從7μs降低到3μs,徹底打破了銅纜互聯的距離和頻寬限制,讓數千個機櫃像一塊晶片一樣協同工作。全光互聯技術的應用進一步強化了互聯傳輸能力,Atlas 950的互聯總頻寬突破16.3PB/s,這一數字相當於當前全球網際網路峰值頻寬的10倍有餘,意味著節點間的資料傳輸速度實現質的飛躍,能夠輕鬆支撐超大規模資料的即時互動,為兆級大模型的分佈式訓練提供了堅實的通訊保障。值得注意的是,華為已將“靈衢”互聯協議的600頁詳細技術規範全面開放,截至目前下載量已接近2.4萬次,助力產業界夥伴依託該技術打造相關產品,共建開放共贏的算力生態。03. 軟體調度層:全端協同+智能調度,最大化釋放算力價值硬體的強悍性能需要軟體生態的支撐,Atlas 950搭載華為全端自研的軟體調度體系,涵蓋異構計算架構CANN、作業系統openEuler、AI框架MindSpore等核心元件,實現“硬體-軟體-演算法”的全端協同,最大化釋放算力價值。其中,CANN異構計算架構作為“算力調度中樞”,通過分層解耦,將算子庫、加速庫、圖計算、程式語言等軟體程式碼全部開源,支援Triton、PyTorch、vLLM等業界主流開放原始碼專案,大幅提升了開發者的易用性,能夠根據不同任務需求,動態調度叢集的算力、儲存、通訊資源,實現資源的最優分配。MindSpore AI框架則針對Atlas 950的架構特點進行了深度最佳化,支援超大規模模型的分佈式訓練,可自動拆分訓練任務,分配到不同的晶片節點,提升訓練效率。此外,Atlas 950還支援“朝推夜訓”錯峰調度模式與“訓推共池”技術,可根據白天推理、夜間訓練的業務特點,動態調整算力分配,大幅提升算力利用率;同時,其內建的智能維運系統,可即時監控叢集的運行狀態,及時排查故障,保障叢集的穩定運行,降低維運成本。二、關鍵技術深度剖析 四大核心突破,實現“以系統補單點”的跨越式發展Atlas 950超節點叢集之所以能在核心指標上全面領先全球同類產品,關鍵在於四大核心技術突破,華為通過系統級創新,繞開了先進製程的限制,實現了“以通訊補算力、以系統補單點”的戰略,在叢集性能上實現對國際主流產品的全面反超,具體技術突破如下:01. 突破一:平等計算架構,打破CPU中心瓶頸傳統算力叢集採用“CPU為中心”的架構,所有計算、儲存、通訊任務都需要經過CPU中轉,導致通訊延遲高、算力利用率低,尤其是在超大規模叢集中,這一問題更為突出。Atlas 950創新採用“平等計算架構”,讓CPU、NPU、記憶體單元、儲存單元等6大元件實現平等互聯,無需經過CPU中轉,直接進行資料互動,大幅提升通訊效率。這種架構的核心優勢在於,將計算任務的重心從CPU轉移到NPU,充分發揮NPU在AI計算中的優勢,同時讓各元件各司其職、高效協同,使整個超節點在邏輯上像一台電腦一樣工作。實測資料顯示,相比傳統CPU中心架構,Atlas 950的算力利用率提升30%以上,訓練中斷率降低90%,徹底解決了傳統叢集“規模越大、效率越低”的痛點。02. 突破二:多精度算力自適應調節,兼顧性能與能耗Atlas 950支援FP4、FP8、FP16、BF16等多種計算精度,可根據任務類型動態切換,實現“性能與能耗”的最優平衡——在大模型訓練場景,採用FP8精度,實現8 EFLOPS的總算力,滿足超大規模模型的訓練需求;在高並行推理場景,採用FP4精度,算力提升至16 EFLOPS,同時降低能耗,適配推薦系統、智能互動等高頻推理場景。這種多精度自適應調節技術,並非簡單的精度切換,而是通過軟體演算法的最佳化,在降低精度的同時,最大限度保證推理精度不損失。實測資料顯示,Atlas 950在FP4精度下的推理性能,較昇騰384超節點提升26.5倍,達到19.6M TPS;訓練性能提升17倍,達到4.91M TPS,能夠輕鬆支撐LLaMA 3、Qwen等千億級、兆級大模型的訓練與推理。03. 突破三:記憶體統一編址+資源池化,實現算力高效利用兆級大模型訓練的核心需求之一,是海量資料的快速讀取與互動,傳統叢集的記憶體分散管理模式,會導致資料遷移成本高、讀取延遲高,嚴重影響訓練效率。Atlas 950採用“記憶體統一編址+資源池化”技術,將所有節點的記憶體、儲存資源整合為統一的共享資源池,實現跨節點資料的“零遷移”讀取。具體而言,記憶體統一編址技術讓不同節點的記憶體擁有統一的地址空間,開發者無需關注資料儲存在那個節點,即可像訪問本地記憶體一樣,快速調取跨節點資料,大幅降低資料遷移成本;資源池化技術則可根據任務需求,動態分配記憶體、儲存、算力資源,避免資源閒置,實現算力利用率的最大化。1152TB的超大記憶體池,能夠輕鬆容納兆級大模型的參數,無需頻繁進行資料讀寫,大幅提升訓練效率。04. 突破四:全光無損互聯,破解長距離通訊難題超大規模叢集的部署,往往需要跨機櫃、長距離互聯,傳統銅纜互聯存在訊號衰減嚴重、頻寬有限、功耗高的問題,無法滿足8192顆晶片的高效協同需求。Atlas 950採用“全光無損互聯”技術,結合“靈衢”互聯協議,實現了長距離、高頻寬、低時延的通訊突破。全光互聯技術以光纖為傳輸介質,相比銅纜,訊號衰減更小、傳輸距離更遠、頻寬更大,同時功耗降低40%以上;無損傳輸技術則通過流量控制、差錯校驗等演算法,避免資料傳輸過程中的丟包,確保通訊的可靠性。此次Atlas 950的互聯總頻寬達到16.3PB/s,是輝達2026年下半年計畫上市的NVL144的62.7倍,即便對標輝達2027年計畫上市的NVL576,互聯頻寬依然領先16.3倍,徹底破解了超大規模叢集的長距離通訊難題。三、算力產業鏈影響 啟動全鏈條協同,推動國產算力全球化突圍Atlas 950超節點叢集的發佈,不僅是華為自身技術實力的體現,更將對全球算力產業鏈產生深遠影響——其核心邏輯是“以系統級創新帶動全鏈條發展”,推動算力產業鏈從“單點競爭”向“全鏈條協同”轉型,同時助力國產算力實現全球化突圍,帶動上游製造、中游配套、下游應用全線受益,具體影響可分為三個層面:01. 上游:帶動國產晶片、材料、封測產業升級,強化供應鏈自主可控Atlas 950的核心硬體依賴昇騰950DT晶片,而該晶片實現了從設計、製造、封裝到核心元件的全鏈路國產化,將直接帶動上游國產晶片製造、封測、核心材料產業的升級,強化中國算力供應鏈的自主可控能力。晶片製造環節,昇騰950DT晶片由中芯國際獨家代工,採用N+3工藝(5nm等效),目前良率已達到40%-60%,隨著Atlas 950的規模化落地,將進一步帶動中芯國際先進工藝的產能釋放與技術迭代;封測環節,長電科技作為昇騰950DT晶片的核心封測廠商,採用Chiplet封裝技術,國產化率達到90%以上,將受益於晶片出貨量的增長,進一步提升封測技術水平;核心材料環節,天科合達、天岳先進的碳化矽襯底,雅克科技的HBM前驅體,華正新材的高頻覆銅板等,均為昇騰950DT晶片的核心供應商,將隨著Atlas 950的量產,實現產能與技術的雙重提升。此外,Atlas 950的規模化部署,還將帶動國產HBM記憶體、高速連接器等核心元件的需求爆發,推動相關企業加大研發投入,提升產品競爭力,逐步打破國外企業的壟斷。02. 中游:拉動伺服器、光模組、液冷等配套產業放量,形成協同生態Atlas 950超節點叢集的部署,需要伺服器、光模組、液冷裝置等中游配套產品的支撐,將直接拉動相關產業的放量增長,形成“超節點+配套”的協同生態。伺服器領域,高新發展(擬收購華鯤振宇)、拓維資訊、神州數位、烽火通訊等華為昇騰核心夥伴,將為Atlas 950提供定製化伺服器整機,隨著Atlas 950的上市,這些企業的伺服器出貨量將大幅提升;光模組領域,光迅科技、中際旭創等企業為Atlas 950提供400G/800G光模組,支撐全光互聯需求,將受益於超節點的規模化部署,實現光模組產能的釋放;液冷領域,高瀾股份、川潤股份、英維克等企業的液冷方案已通過華為認證,適配Atlas 950的高密度算力需求,可將PUE降至1.15以下,隨著超節點的落地,液冷裝置的需求將迎來爆發式增長。同時,華為堅持開源開放戰略,將“靈衢”互聯協議、CANN異構計算架構等核心技術開源,將吸引更多中游企業參與到配套產品的研發與生產中,完善中游配套生態,降低產業整體成本。03. 下游:賦能千行百業AI升級,推動算力變現與場景落地Atlas 950超節點叢集的強悍性能,將為下游各行業的AI升級提供核心算力支撐,推動算力從“基礎設施”向“生產要素”轉型,實現算力的規模化變現,具體應用場景涵蓋六大核心領域:一是大模型訓練與推理,依託8 EFLOPS算力與1152TB記憶體,Atlas 950可支撐千億級、兆級大模型的全流程訓練,同時滿足高並行推理需求,目前已有43個業界主流大模型基於昇騰預訓練,200多個開源模型適配昇騰生態;二是政務與智慧城市,賦能政務資料處理、智能監管、公共服務最佳化,例如常州移動昇騰雲平台已實現水域智能監測、電瓶車梯控預警等場景落地;三是金融科技,支撐量化交易、風控建模、智能客服,適配六大行等金融機構核心系統,推動金融信創落地;四是醫療與生物製藥,助力醫療影像分析、藥物研發、基因測序,依託高算力實現精準分析與高效建模;五是工業與具身智能,賦能智能製造、機器人協同、工業質檢,同時支撐人形機器人等具身智能場景的感知與協同能力落地;六是網際網路與算力服務,適配搜尋推薦、AI雲服務、智算中心建設,為字節等網際網路企業提供自主可控算力支撐,降低算力外采成本。此外,Atlas 950預計將於2026年上半年在國內發佈,四季度正式上市,其規模化落地將進一步降低各行業的算力門檻,推動AI技術在千行百業的深度滲透,釋放算力的產業價值。四、行業意義與未來展望重構全球算力格局,助力AI原生時代落地MWC 2026上華為Atlas 950超節點叢集的發佈,不僅是一款產品的亮相,更標誌著全球算力競爭進入“系統級創新”的新階段,其行業意義主要體現在三個方面:其一,打破國際算力壟斷,實現國產算力的全球化突圍。長期以來,全球超大規模算力叢集市場被輝達等國外企業壟斷,而Atlas 950在核心指標上全面超越輝達未來規劃機型,證明了國產算力在系統級創新領域的領先實力,打破了國外企業的技術壟斷,為全球算力產業提供了新的選擇,也推動中國算力技術走向全球。其二,推動算力產業從“單點競爭”向“全鏈條協同”轉型。Atlas 950的發佈,帶動了上游晶片、材料、封測,中游伺服器、光模組、液冷,下游應用等全鏈條的協同發展,形成了“硬體-軟體-生態-應用”的完整產業閉環,推動中國算力產業鏈向高品質發展轉型,強化供應鏈自主可控能力,規避地緣政治風險。其三,支撐AI原生時代落地,助力千行百業智能化升級。當前,AI技術已邁入智能體網際網路時代,兆級大模型、具身智能等場景對算力提出了更高要求,Atlas 950的發佈,為這些場景的落地提供了堅實的算力底座,推動AI技術從“實驗室”走向“產業端”,加速千行百業的智能化升級,助力營運商從移動網際網路邁向智能體網際網路。從未來展望來看,隨著Atlas 950的規模化上市,預計將引發全球超節點叢集的技術迭代,更多企業將聚焦系統級創新,推動算力性能的持續提升;同時,華為開源開放的戰略,將吸引更多全球開發者與企業參與到昇騰生態建設中,完善國產算力生態,推動國產算力在全球市場的份額持續提升。此外,隨著AI技術的持續迭代,Atlas 950還將不斷最佳化升級,進一步提升算力性能、降低能耗、拓展應用場景,同時帶動算力產業鏈上下游的技術創新與產業升級,為全球AI產業的發展提供更加強勁的算力支撐。可以預見,Atlas 950的發佈,將成為國產算力崛起的重要里程碑,推動全球算力格局進入“中國引領、全球協同”的新階段。 (AI雲原生智能算力架構)
【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析
01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上,華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案,標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計,整合了8192顆華為昇騰950 DT晶片,是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會,報告補充道,SuperPoD計畫於2026年第四季度商用。除了Atlas系統外,華為還展示通用計算平台TaiShan 950 SuperPoD,以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧:華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日,在華為全聯接大會 2025 上,華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示,華為在25年 Q1 已經推出了 Ascend910C,2026 年 Q1 推出全新的 Ascend950PR晶片,2026 年 Q4 推出 Ascend950DT,2027 年 Q4 推出 Ascend960 晶片,2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構,旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU,最高可擴展至128個機櫃,也是就 8,192 個 NPU,可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比,它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構,可實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構,支援單板內、單板間和機架間的 NPU 全互聯,以 64 卡為步長按需擴展,最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成,單機櫃配置64張加速卡,總體由128個電腦櫃和32個互聯機櫃組成,整套系統共計160個機櫃,形成完整的大規模AI算力叢集。在散熱方案上,Atlas 950 SuperPoD全面採用全液冷架構設計,不提供風冷版本選配,出廠即為液冷機櫃。這一策略表明,隨著算力密度和功耗持續提升,液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署,系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境,滿足大模型訓練等高強度負載的長期運行需求。同時,統一液冷形態也有助於提升系統交付效率與維運標準化水平,降低複雜度,體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面,華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成,總計整合64顆NPU晶片,整櫃設計功耗約75kW,已進入典型高密度液冷部署區間。在散熱方案上,整體採用冷板式液冷架構,對核心高功率器件進行直接液冷覆蓋,以保障在高算力負載下的穩定運行與能效表現。在系統架構層面,該方案機櫃內部不配置Rack級CDU(機架內CDU),而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性,同時減少機櫃內部空間佔用,最佳化結構佈局。伺服器方面,華為950平台採用分佈式獨立冷板架構,在每一顆NPU上均配置單獨冷板,實現對高功率核心器件的精細化散熱管理。據業內資訊顯示,當前華為尚未大規模引入MLCP技術,而是以成熟穩定的單級冷板方案為主,以兼顧可靠性與工程可落地性。在管路設計上,華為採用EPDM材質的液冷軟管,強調柔性與裝配便利性,並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時,在連接方式上,華為引入浮動接頭設計,以緩解裝配公差、熱膨脹及振動帶來的機械應力,從而提升系統長期可靠性。值得關注的是,華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片,本次方案則將光模組納入液冷散熱體系。在超節點(Supernode)架構下,光互連密度與頻寬需求顯著提升,光器件功耗持續攀升,傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組(如800G及以上)功耗進入更高區間,液冷正從“可選方案”向“必選路徑”轉變,這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢,液冷大會現場呈現 2026年4月14日至15日,第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦,聚焦AI時代資料中心散熱技術升級與產業生態協同,吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與,預計2000位行業專家參與。 (零氪1+1)
華為打造“最強超節點”,這項全球領先技術很關鍵
2025年以來,超節點(SuperPod)作為新的AI算力基礎設施,不斷成為行業焦點。觀察者網也曾深度報導過華為的昇騰384超節點,它通過高速互聯匯流排將384顆昇騰晶片連接起來,在超節點算力規模、網路互聯頻寬、記憶體總頻寬等多個指標上,趕超了國外廠商的旗艦超節點。但當時一些討論認為,華為是靠堆砌了384顆晶片,才超越了輝達72顆晶片,而後很多廠商也跟進了超節點的概念。一時間,算力行業掀起了建設超節點的熱潮。那回到最初的問題,超節點就是單純的堆晶片嗎?華為是通過暴力堆砌晶片趕超輝達的嗎?超節點和傳統的計算叢集區別在那?關於這些行業熱點話題,華為計算產品線行銷運作部部長張愛軍近日在一場媒體沙龍上對觀察者網等媒體做了詳解。他首先認為,今天的算力需求遠未被滿足,無論是大模型進入到生產系統中,還是在toC消費端,token消耗的數量都在指數級增長,未來中國每日token消耗量可能突破千兆。在一些觀點看來,算力缺口大可以通過大量建設伺服器叢集堆卡來解決。這麼說聽起來有一定道理,但真實情況遠沒有這麼簡單。根據Meta公佈的論文,萬卡叢集訓練時算力利用率僅約38%,粗暴堆卡可能會造成62%的算力浪費,並且模型訓練會3個小時中斷一次。這是因為,叢集網路通訊已成為當前大模型訓練和推理的最大挑戰。以DeepSeek這種混合專家模型(MoE)為例,每個“專家”如果不能有效溝通,NPU就會由於沒有足夠資料計算而閒置,進而形成1+1<2的結果。換句話說,如果384顆昇騰晶片簡單疊加,計算效果就會和普通伺服器叢集一樣效率低下。超節點就在這種情況下應運而生,它不是修補式改進,而是對傳統計算架構進行重構。張愛軍對觀察者網表示,超節點從傳統以CPU為中心的架構,變成了全平等互聯,無論是CPU、NPU還是記憶體單元,都不用再經過CPU,而是可以平等互聯,提高通訊效率,同時連接計算單元的“高速公路”也發生了變化,由全新的協議和匯流排能力來支撐裝置間互聯。現在市面上的超節點越來越多,但並沒有統一標準,而張愛軍認為,真正的超節點須具備三個關鍵特點:一是頻寬夠大,核心要讓計算不用等待通訊;二是有足夠低的時延,傳統叢集很難做到時延降低;三是形成有效的、邏輯上的單一系統,關鍵在於記憶體能不能統一編址。利用這些技術,超節點可以讓DeepSeek的256個“專家”分佈到每個計算單元上,提升吞吐效率。“為什麼要有統一記憶體編址的技術才能真正稱得上超節點?”他進一步對觀察者網解釋稱,傳統叢集的資訊傳遞,跟現實生活中寄快遞的方式比較像,需要做相應的轉換才能找到下單地址。而超節點希望像在圖書館裡檢索書籍一樣,提前進行書籍編址,能快速找到,而且可以變成資源池。如果沒有統一記憶體編址,就不能做到記憶體的池化。如果沒有記憶體池化,計算單元之間的資料快速交換很難做到。如果不能快速交換資料,計算效率是很難提升的。這是為什麼說做不到統一記憶體編址,超節點是很難真正高效地運行起來的原因之一。”一句話總結,超節點相比傳統叢集最大的優勢,是計算效率的顯著提升。以晶片製程為例,在摩爾定律放緩的情況下,7奈米到3奈米,可能每代性能提升不超過20%。而超節點可以將模型算力利用率從30%提升到45%,相當於提升了50%,通過資源的高效調度,在一定程度上可以彌補晶片工藝代差。但打造一個真正的超節點遠沒有那麼容易。關注技術細節的人可能會發現,華為的昇騰384超節點是由12個計算櫃和4個匯流排櫃構成,體積龐大,而輝達NVL72系統只有一個機櫃,為什麼輝達不連接更多機櫃,進而連接更多晶片?核心在於超節點架構不同,輝達採用的全銅線架構,傳遞的是電訊號,而華為將光通訊技術應用於超節點,採用超高速光模組連接。“如果用電的方式,高速訊號基本只能在一個機櫃裡兩到五米傳送,這也是為什麼很多業界的超節點只能在一個機櫃裡面提供。為什麼華為可以跳出單個機櫃限制,規模商用384個晶片互聯,未來可以支援8192個晶片互聯,核心是我們用了光的技術。”張愛軍對觀察者網表示。但“光”並不好駕馭。光模組成本高,也比較嬌慣,如果有灰塵,有各種各樣的溫度變化,容易發生閃斷、系統不穩定,要做的像電一樣可靠,像光一樣長度,難度很大。“我們是怎麼做到的?一句話,系統化創新,華為可以做自己的晶片,有自己光的器件能力,有自己的底層協議,在過去光通訊上建構了工程能力,我們做到了借助全光互聯提供超節點。為什麼其它廠商做不到?就是因為他們或許掌握了某些單點技術,但很難像華為一樣有系統化能力,這也得益於過去華為一直在通訊領域深厚的積累。過去20年,我們在光上面是全球第一的技術積累。”張愛軍對觀察者網說道。華為不僅在做智算超節點,也在發展通算超節點。去年的華為全聯接大會上,華為輪值董事長徐直軍發佈了基於鯤鵬950處理器的TaiShan 950超節點,這是全球首個通用計算超節點,將在2026年一季度上市。他當時表示,TaiShan 950加上分佈式GaussDB資料庫,將徹底取代各種應用場景的大型機和小型機,以及Oracle的Exadata資料庫伺服器。“大家過去買伺服器,主要關注CPU的主頻和核數。但今天大量的場景通過調整主頻和核數是難以解決的,核心原因是因為摩爾定律已經走到頭了,物理的效能很難,堆再多的核、提升再高的主頻,很難把計算效能提升上去。有一條新路,通過通訊的能力把多核能夠連接起來,形成有效的業務系統,同樣給通用計算提供相應的能力。核心和智算是一樣的,提供超大頻寬、超低時延、進行統一記憶體編址。”張愛軍說道。在華為的思考中,無論是智算還是通算超節點,乃至像Atlas 950 SuperCluster這樣數十萬卡的巨型超節點叢集,核心是要讓大量伺服器像一台電腦一樣工作,由此華為建構了新型互聯協議靈衢UB(UnifiedBus),並將靈衢2.0規範開放。“靈衢是建構超節點的核心能力,華為把它完全開放出來,讓業界所有的人都可以獲取到這個技術。基礎協議有600頁,是所有廠商中提供的最詳細、最完整的能力。通過對靈衢2.0協議的開放,產業界夥伴能夠借助這個技術打造自己的超節點。我們希望與產業界共創,能夠形成一個繁榮的產業生態,希望這些新的能力、新的技術不僅僅華為在使用,而是整個產業鏈一起來建構。”張愛軍表示。超節點足夠火熱,但支撐其運行的不只有晶片、光模組等硬體,還有大量軟體生態,比如異構計算架構CANN、作業系統openEuler、資料庫openGauss、AI框架MindSpore等等。生態需要產業共建,華為一直堅持軟體開源開放。張愛軍表示,“目前鯤鵬註冊開發者有380萬,昇騰有將近400萬開發者。2025年8月,我們把CANN完全開源開放,openEuler也是業界第一個面向超節點的開源作業系統。特別是CANN,我們從最底層的營運時,到開發語言、範本庫\算子庫等,完整地開源給產業界,現在已經有很多開發者基於昇騰CANN的能力,自己開發算子,來面向它的業務場景進行創新。AI 時代的迭代速度遠超以往,單打獨鬥很難跟上節奏,協同共創、開放共生才能共贏未來。” (觀網財經)
中國算力的開放時刻:超節點邁入萬卡紀元
日前,在崑山的人工智慧創新大會(HAIC 2025)上,中科曙光展示了首個中國萬卡級AI超叢集-scaleX 萬卡超節點真機。這是中國AI算力史上的一個標誌性時刻,超節點真正意義上邁入萬卡紀元。Scale X萬卡超級群的落地,不僅是一次超節點技術的權利交接,更是中國AI算力基礎設施在發展路徑上給出的新答案。超節點之始三年前,國內的AI 算力體系基本上都得靠輝達,不管是GPU 加速卡、NVLink 高速互聯技術,還是CUDA 軟體棧,都是NV的東西。這套方案幾乎成了行業默認標準,也讓整個產業鏈對這一家供應商的依賴越來越明顯。轉折點就出在輝達晶片的出口限制上。高階GPU 一缺貨,再加上CUDA 生態不對外開放、NVLink 技術也不給授權,國內廠商這下不得不琢磨一個現實問題:要是沒了輝達,我們自己能搭起什麼樣的算力體系?最先給出答案的是華為,它走了一條「全端自研」 的路,從底層晶片、互聯技術,到上層框架軟件,全都是自己研發的。後來橫空出世的384 超節點,也延續了這種縱向一體化的思路,晶片、通訊協議、操作系統和框架生態全是自研。靠著系統層面的高度一致性,它的效能相當能打:通訊延遲只有2.1 微秒,單機櫃算力達到300PFlops,PUE 還能穩定在1.1 左右。單看這些參數,確實能和輝達掰手腕。不過和輝達一樣,華為也選擇了「封閉自洽」 的路線。這種模式雖然能把資源效率拉滿,技術把控力也強,但短板也很突出:生態相容性比較受限,整個產業的協同推進速度也會慢一些。走向岔路口在全球AI 算力領域,超節點被視為下一代智慧計算的核心單元。它可以把幾十、幾百甚至上萬張AI 加速卡,整合為一個統一的邏輯節點,將通訊時延壓縮到微秒等級,以此突破傳統算力叢集的通訊瓶頸。這樣的技術優勢,也吸引了許多行業巨頭入局佈局。 2025 年下半年,阿里、浪潮、曙光就先後推出了各自的超節點產品。這三家廠商選擇的技術路線,和華為有所不同。它們以「開放架構」 為核心,走出了一條全新的道路,致力於打造屬於中國的AI 算力底層基礎。其中,發佈時間相對較早的浪潮“元腦SD200” 和阿里“磐久128”,共同搭建起了國產開放架構體系的雛形。浪潮這款產品主打多品牌GPU 異構計算,還創下了8.9 毫秒生成token 的亮眼紀錄;阿里的產品則依靠開放協議整合不同互聯標準,成功搭建出「雲超節點」。而中科曙光在HAIC 大會上推出的scaleX 萬卡超節點真機,也是備受矚目。此系統由16 個scaleX640 超節點互聯組成,總共部署了10240 張AI 加速卡,總算力突破5EFlops。它搭載的自研scaleFabric 高速網絡,帶寬能達到400Gb/s,端側延遲不到1 微秒。同時,曙光採用浸沒相變液冷技術,將單機櫃的PUE 壓低至1.04,堪稱名副其實的算力巨獸。更關鍵的是,這款產品不繫結任何單一晶片廠商。 scaleX640 能夠相容於寒武紀、壁仞、登臨等多個品牌的加速卡,並且已經適配了400 多個主流大模型和AI 框架。這也意味著,中國的AI 算力真正具備了「多晶片共存」 的能力,實現了算力生態的多元化發展。去輝達化隨著國產算力廠商的集體突破,「去輝達化」 早已不是一句口號,而是中國保障算力安全、推進自主創新的共同需求。從2023 年起,美國多次收緊對華高性能GPU 的出口限制,A100、H100 等主力型號相繼被列入管控清單,輝達的超節點NVL72 也是在限制之內。儘管近期美國政府對部分型號的限售政策略有鬆動,但覆蓋範圍也僅限於H 系列。再加上先前有消息指出輝達晶片可能存在安全後門,相關的安全風險進一步凸顯。這一系列變化,倒逼中國AI 產業加速尋找替代方案。但我們的核心目標,不是簡單再造一個類似輝達的企業,而是要搭建一套具備可替代性的完整算力生態系統。目前來看,國內已經湧現出兩套頗具代表性的發展路徑:一條是走封閉全棧的縱向整合路線,以華為昇騰為典型代表;另一條則是主打開放協同,像曙光、浪潮、阿里這些企業都在這條賽道上發力。在落地應用層面,各家的產品也已嶄露頭角。華為的CM384已經發貨很多套,在貴州的數據中心正常使用運營;浪潮的SD200 已經在多個模型推理平台實現商用,成為DeepSeek 與Kimi 等大模型的重要算力支撐;阿里的磐久128 在雲端搭建起大規模叢集,承擔起多模型協作的基礎設施角色;更是已經落地上海、杭州等地的智算中心,也被納入國家級算力調度工程的採購清單。更值得關注的是,開放路線的推進,也帶動了國產晶片的大規模落地應用。曙光的scaleX 體系已經完成了對壁仞BR 系列、登臨、寒武紀MLU 等多款國產加速卡的適配,浪潮和阿里也在為本土GPU 提前預置驅動環境。這意味著,國內的算力基礎設施不再依附於單一的輝達生態,轉而形成了以中國廠商為核心的開放式協作系統。“過去幾年大家都在埋頭造芯,現在終於有地方能讓這些晶片真正跑起來了。” 一位業內人士這樣感慨,“這其實比單純拿到訂單更有價值,它標誌著中國AI 算力體系開始具備自我造血的能力。”2025 年,堪稱中國AI 算力體系發展的「拐點之年」。封閉路線憑藉其技術優勢,佔據著性能高地,代表著極致的算力表現與可靠的可控性,在特定場景中具備不可替代的價值;開放路線則貼合產業發展的現實需求,有力推動了算力普惠與生態繁榮,為行業帶來了更多可能性。國內算力產業的發展邏輯也在悄悄轉變:不再是單一維度的表現比拚,而是更注重不同晶片的高效協同;不再是不同體系間的孤立較量,而是趨向於多元生態下的共生共贏。中國AI 算力的未來,很可能就藏在這兩條路線的共存與平衡之中,被重新書寫與定義。 (傅立葉的貓)
中國超節點雙雄對決:昇騰384 & scaleX640底牌盡出!
熱度最高的兩大中國國產超節點終於同框出鏡。近日,出自華為的昇騰384與曙光scaleX640超節點,在2025世界計算大會首次毗鄰展出。前者圍繞華為全端技術閉環高度整合384張昇騰加速卡,被視為垂直整合路線里程碑之作;後者基於AI運算開放架構設計,以業界首個單機櫃級640卡超節點反超,展現出開放協同路線的蓬勃潛力。兩大路線迥異的超節點產品「面對面」互飆實力,成為本屆大會的關鍵亮點之一。有業內人士指出,前有昇騰384「以網補算」換道超車輝達,再有scaleX640在算力規模、密度、能效領域全面領航突破,國產超節點正在你追我趕中重塑中國計算系統的全球競爭力。六項指標飆升,國產超節點馬力全開!從昇騰384年中首次亮相,到曙光scaleX640年尾的漂亮收官,國產超節點接連打破業界記錄,在關鍵性指標上飆升加速度。這次兩大代表產品同框,將此進展體現到了極致。數據顯示,昇騰384 超節點以384 張昇騰算力卡組成一個超節點,可提供高達300PFLOPs 的密集BF16 算力,接近輝達GB200NVL72 系統的兩倍。彼時,華為特別強調了"超節點+叢集"策略,透過Atlas900SuperCluster 實現業界最大規模的高速匯流排互聯。相較於昇騰384的珠玉在前,scaleX640進一步實現單機櫃640張加速卡整合,並基於「一拖二」的高密架構組成雙scaleX640超節點(可達1280卡計算單元),FP16/BF16算力突破至昇騰384的2.1倍率當然,超節點的本質是讓叢集系統像一台電腦有效運作,考慮的不僅是算力卡的堆疊程度,其算力密度和整體能效也是系統最佳化過程中的重要版圖。內先進水平根據會上展出訊息,昇騰384單機櫃可搭載32張昇騰910C NPU(共12個機櫃),低至1.12的PUE值及800伏高壓直流(HVDC)供電技術,將功耗能源效率提升至業界先進水準。1. 算力密度scaleX640單機櫃640卡將算力密度提升了整整20倍,而解決散熱問題的關鍵在於全球頂尖的浸沒相變液冷技術,其PUE值降低到了1.04,配備400/800MW的超散熱能力供電,可以為千卡級計算單元提供高達1.72MW的超級散熱能力。2. 記憶體頻寬此外,國產超節點在HBM記憶體頻寬和記憶體容量上表現出明顯的遞進趨勢。其中,昇騰384記憶體頻寬為1229 TB/s,總記憶體達49.2 TB;曙光scaleX640記憶體頻寬為2304 TB/s,總記憶體容量81.9 TB。後者兩項指標分別達到前者的1.7倍、1.9倍。3. 國產計算至此,兩大超節點產品在關鍵指標對壘交出超分答案。尤其scaleX640在昇騰384領先輝達的基礎上再進一階,彰顯了國產計算叢集可持續迭進的澎湃動能。兩大路線並進,華為與曙光仍有底牌?從技術路線特性來看,昇騰384採用了典型的「蘋果係」垂直整合模式,主要由單一巨頭廠商為主導,建構獨立的生態閉環。scaleX640則是「Android系」超節點玩家的代表,追求全端開放協同共贏。兩大路線你追我趕構成了國產計算叢集主流發展圖景。儘管昇騰384在技術路線競跑中被暫時趕超,但在此次大會同台競技中,華為方面正掏出一張張新底牌,試圖在下一程「萬卡級」賽道迎頭趕上。據悉,所謂「Android系」之於「蘋果係」的主要優勢在於生態相容能力。如scaleX640基於AI運算開放架構,適配支援多品牌AI加速卡,可以提供使用者更多彈性選擇。並且,該產品全面相容主流AI運算生態,適配優化了400+主流大模型,能夠支援AI模型、業務應用快速無縫遷移與深度優化,對於AI用戶的高效部署上線需求具備天然的吸引力。為了在算力閉環內實現極致協同,彌補與前者的相容性、擴展性差距,華為方面緊急上線了Flex:ai技術,聚合叢集內空閒XPU算力聚合形成「共享算力池」。業界認為,此項技術本質上是透過軟體創新來實現算力資源的統一管理與利用,進而遮蔽算力硬體的差異。值得一提的是,華為近期也預告了下一步Atlas 950 超節點計畫。該產品支援8192 張基於Ascend 950DT的昇騰卡,可擴展至上一代超節點的20多倍,預計將於2026年Q4上市。面對華為方面一年後下定的“戰書”,曙光似乎正在提前鎖定萬卡級超節點目標。業界傳聞稱,基於scaleX640和1280千卡計算單元,曙光或將在年內進一步推出「萬卡計算叢集」。有人猜測,“很可能就在12月末,開放式超節點路線或將率先奪得全球萬卡級計算高地。”這一番底牌頻出的“高手過招”,儼然將國產大算力熱度推向了極致。可以明顯看出,兩大主流技術路線在輪動迭進中不斷提速,從算力規模、整合密度到功耗能效、內存頻寬,乃至生態層面的全方位比拚下,中國算力正以更積極的姿態衝擊全球計算產業鏈頂端。 (AI雲原生智慧算力架構)
騰訊研究院AI速遞 20251117
生成式AI一、openEuler發佈全球首個超節點作業系統,專為AI打造1. 開源歐拉社區正式開啟新的5年發展之路,將於2025年底正式上線面向超節點的作業系統(openEuler 24.03 LTS SP3),成員單位超2100家,全球貢獻者突破2.3萬人;2. 該作業系統具備全域資源抽象、異構資源融合和全域資源檢視三大關鍵特徵,旨在充分釋放超節點算力潛能,加速基於超節點的應用創新;3. 靈衢互聯協議2.0由開放,並將向社區貢獻支援超節點的作業系統外掛程式碼,提供記憶體統一編址、異構算力低時延通訊和全域資源池化等關鍵能力。二、CEO劈柴兩個神秘表情,或暗示Gemini 3.0等下周登場1. GoogleCEO劈柴用兩個"若有所思"表情回應Gemini 3.0下周登場傳聞,69%網友押注下一代AI模型即將發佈,該模型有望成為Google的重大轉折點;2. 提前流出的內測顯示Gemini 3.0可一句話直出作業系統、動態建構Windows系統、5秒搭建網站,前端設計能力驚豔,被稱"前端工程師末日";3. 巴菲特已投入43億美元重倉Google股票,Gemini 3.0寄予了所有人美好期望,其表現將決定Google能否向AI王座發起衝擊。三、Google發佈遊戲SIMA 2,不用開外掛,「像人一樣」練級1. GoogleDeepMind推出SIMA 2智能體,能像人類一樣觀看螢幕使用虛擬鍵鼠打遊戲,突破了單純指令跟隨的侷限,具備推理和學習能力;2. SIMA 2可在未經預訓練的情況下攻克全新遊戲,能理解多模態提示(路線草圖、符號表情),並通過自我學習和基於Gemini的反饋引導實現自我提升;3. 系統採用符號回歸方法,整合Gemini作為核心引擎,目標是成為未來機器人應用的基礎模組,但目前在長期複雜任務和精細操作方面仍有侷限。四、EverMemOS發佈,一款面向AI的長期記憶作業系統1. 陳天橋盛大團隊推出EverMemOS長期記憶作業系統,在LoCoMo和LongMemEval-S評測集上分別取得92.3%和82%高分,顯著超越SOTA水平;2. 系統受人腦記憶機制啟發,創新設計四層架構(代理層、記憶層、索引層、介面層),採用"分層記憶提取"與動態組織解決純文字相似度檢索難題;3. 目前已在Github開放開源版本,預計今年晚些時候發佈雲服務版本,為企業使用者提供資料持久化與可擴展體驗。五、2000 元的 AI 戒指,心率睡眠都測不了,只能聽你碎碎念1. 前Meta員工創立的Sandbar發佈Stream智能戒指,售價249-299美元,砍掉所有健康監測功能,專注於"語音滑鼠"式AI語音互動;2. 戒指採用"握拳私語"互動方式,按住觸控板啟動錄音,動態切換多個大模型處理任務,但續航僅16-20小時遠不如傳統智能戒指;3. 配套iOS App使用ElevenLabs生成語音模型可模仿使用者聲音,所有資料端到端加密不保存原始音訊,但隱私和價值主張仍存疑。六、NotebookLM放大招,更新Deep Research重量級功能1. GoogleNotebookLM推出Deep Research功能,可自動收集N個相關網頁源並整理到上下文列表,幾分鐘內圍繞主題搭建專屬資料庫;2. 系統支援2500萬token上下文處理,所有回答必須基於使用者提供的來源且帶引用標註,可驗證性強,避免AI幻覺問題;3. 其視訊概覽功能,可將文件、網頁、視訊轉化成互動式視訊並生成相應畫面,Google明確承諾不會使用使用者個人資料訓練模型。前沿科技七、北大團隊新突破 AI「牛頓」,看一眼資料,推出物理定律1. 北京大學團隊推出AI-Newton系統,採用符號回歸方法,在無監督、無物理先驗知識前提下,成功重新發現牛頓第二定律、能量守恆定律和萬有引力定律等基礎規律;2. 系統由符號化概念、特定定律與普適定律構成的知識庫支援,通過物理領域專用語言表示知識,各測試用例中平均識別出約90個物理概念和50條一般定律;3. AI-Newton展現出漸進性和多樣性兩大特性,雖目前仍在研究階段,但為AI驅動自主科學發現提供了新範式,有望擴展到具身智能領域。報告觀點八、可解釋性新研究:OpenAI又Open成果,來自對齊團隊1. OpenAI發佈可解釋性新研究,提出訓練神經元連接少但神經元數量多的稀疏模型,通過強制大部分權重為0使模型內部機制更易被理解;2. 研究團隊找出模型完成特定任務的"最小回路",通過邊數幾何平均值量化可解釋性,發現訓練更大更稀疏的模型可生成功能更強但回路更簡單的模型;3. 論文通訊作者為Leo Gao,曾是Ilya超級對齊團隊成員,但研究仍處早期階段,稀疏模型比前沿模型小得多且訓練效率較低。九、馬斯克以Grok為核心,X與特斯拉雙平台的AI未來展望1. 馬斯克在X與特斯拉雙平台推進xAI,Colossus超算資料中心122天部署20萬塊H100 GPU,用於訓練Grok-4和即將推出的Grok-5;2. xAI採用"求真、不設禁忌"路線,讓AI生成合成資料重構知識體系打造"Grok百科",特斯拉下一代AI5晶片性能將提升40倍;3. Grok很快將進入特斯拉汽車,馬斯克預計2030年AI總體能力可能超越全人類,xAI開源Grok-2.5模型並計畫半年後開放Grok-3。 (騰訊研究院)
效率提升70%!超節點技術成中國AI算力破局關鍵? 8大廠商全面解析!
自從華為首先推出超節點技術之後,似乎瞬間「超節點」就成為中國國產AI伺服器的「標配」,也成為了國產AI算力領域的超級熱點。在剛結束的“ 2025百度世界大會”,在展區中央擺著一塊黑色的機櫃——這是百度剛推出的的崑崙芯超節點。據說這套搭載64張崑崙芯AI加速卡的系統,已能讓兆參數大模型在幾分鐘內完成推理;並且其已在百度內部實現大規模部署,這一百度自研技術可將單卡性能提升95%,單實例推理性能提升高達8倍。這意味著,包括華為和百度,目前至少有8家廠商推出了自己的「超節點技術」,既有中科曙光、浪潮這樣的傳統伺服器廠商,也有阿里雲這樣的雲端服務廠商。飆叔將這8家公司在超節點領域的佈局和產品狀況做了一個簡單梳理,具體如下:眾所周知的原因,目前國內先進製程高階AI晶片受限的背景之下,超節點技術成為了一種彌補「先進算力」不足的主要武器之一。超節點就是本質而言,是一種通訊技術,就是透過高速互聯技術(如光互連),將成千上萬顆國產AI晶片緊密耦合,大幅提升了叢集的有效算力利用率(MFU)。這相當於用系統架構的創新,彌補了單顆晶片在絕對效能上的不足,是實現「以量補質」或「以架構換性能」的關鍵策略。因而,超節點的規模化部署,為國產AI晶片和軟體棧提供了廣闊的「試驗場」和「磨刀石」。這強力推動了從晶片、模型到應用的整個國產AI生態鏈(即「國芯、國模、國用」)的協同發展和快速成熟。同時,超節點也降低AI應用門檻,其催生了「算力即服務」(CaaS)等新模式。這意味著廣大中小企業無需自建昂貴的資料中心,就可以透過API介面按需呼叫強大的超節點算力,大大促進了AI技術的普及和落地。當然,超節點是一個複雜的系統,其核心部件主要包括計算、互聯、散熱、供電等單元。這也催生或放大了國產AI算力產業的一個獨特市場。在互聯互通單元,其負責節點內高速通訊,包括交換晶片、光模組等;目前在國內受益的主要廠商包括:華為自研的靈衢互聯協議、中興通訊的交換晶片,中際旭創的光模組,光迅科技光模組等。另一個核心零件就是-散熱系統,其主要是應對高密度計算產生的巨大熱量,多採用液冷技術;這一領域中,英維克、高瀾股份、科華資料等都是核心廠商。特別值得一提的是,除了上述的系統整合商和核心供應商之外,一些關鍵的產業鏈上下游也值得關注。尤其是連接器與材料,高速互聯對內部連接器和基礎材料也提出了更高要求。例如,超寬機櫃需要更高規格的PCB(印刷電路板)和CCL(覆銅板)材料,同時,在機櫃內部,銅連接憑藉其成本優勢在短距離高速互聯中依然扮演重要角色。雖然超節點是較新的技術,但在國內越來越受到關注,其背後,不僅超節點技術成為彌補國產AI晶片製程缺陷,同時也是提高晶片叢集效能的重要路徑。因此,隨著摩爾定律即將「失效」已成共識的背景之下,推進晶片製程演進的難度增大,提升單顆晶片的運算效能面臨挑戰,或許超節點將成為持續提升算力的主流解決方案之一。 (飆叔科技洞察)
全球級超節點首落中國,賽局變了
近日,中國資料中心及其晶片使用要求的小作文連續刷屏,甚至一度引發中國國產晶片類股迅速走高。業內認為,這可能意味著國產算力市場進一步擴容,如NV卡等進口晶片在華市場佔比或將跌入谷底,中國AI算力基礎設施建設迎來新一輪利多加持。值得注意的是,就在該消息發酵之時,國產超節點曝出重大突破。11月6日,中科曙光正式發佈全球首個單機櫃級640卡超節點scaleX640,該產品基於全球領先的開放系統硬體架構打造,可以完全對標輝達CUDA生態,提供可快速遷移的超強算力支援。資料顯示,scaleX640超節點採用“一拖二”高密架構設計,實現了單機櫃640卡超高速匯流排互連,建構大規模、高頻寬、低時延的超節點通訊域,並通過雙scaleX640超節點組成千卡級計算單元,是當前算力規模最大、整合度最高的計算叢集。相比業界同類產品,scaleX640綜合算力性能實現倍增,同時單機櫃算力密度提升20倍;相比傳統方案,可實現MoE兆參數大模型訓練推理場景30%-40%的性能提升。目前產品已通過30天+長穩運行可靠性測試驗證,可保障10萬卡級超大規模叢集擴展部署。此外,根據輝達最新公佈的NVL72超節點架構資訊,國產超節點在底層晶片性能上與其存在一定差距,但在冷卻技術、供電方案、硬體架構、算力整合度、功率密度等領域,曙光scaleX640超節點均已實現反超,大幅提升了國產智算產品與NV卡的系統性對標能力。黃仁勳近日表態稱,“中國將贏得人工智慧競賽。”他將中國的潛在勝利歸功於更有利的監管環境和更低的能源成本。同時,黃仁勳公開批評了某些國家的做法,稱其是阻礙進步的“犬儒主義”,未來可能會扼殺AI創新和競爭。有業內人士認為,相較於輝達的單卡性能領先優勢,以scaleX640為代表的開放式計算叢集,正在打通智算產業上下游協同壁壘,以更緊密的系統創新模式拉近算力差距。同時,全球TOP級超節點落子國產智算基礎設施,也將為中國AI產業創新提供關鍵“壓艙石”。 (國芯網)