#超節點
中國算力的開放時刻:超節點邁入萬卡紀元
日前,在崑山的人工智慧創新大會(HAIC 2025)上,中科曙光展示了首個中國萬卡級AI超叢集-scaleX 萬卡超節點真機。這是中國AI算力史上的一個標誌性時刻,超節點真正意義上邁入萬卡紀元。Scale X萬卡超級群的落地,不僅是一次超節點技術的權利交接,更是中國AI算力基礎設施在發展路徑上給出的新答案。超節點之始三年前,國內的AI 算力體系基本上都得靠輝達,不管是GPU 加速卡、NVLink 高速互聯技術,還是CUDA 軟體棧,都是NV的東西。這套方案幾乎成了行業默認標準,也讓整個產業鏈對這一家供應商的依賴越來越明顯。轉折點就出在輝達晶片的出口限制上。高階GPU 一缺貨,再加上CUDA 生態不對外開放、NVLink 技術也不給授權,國內廠商這下不得不琢磨一個現實問題:要是沒了輝達,我們自己能搭起什麼樣的算力體系?最先給出答案的是華為,它走了一條「全端自研」 的路,從底層晶片、互聯技術,到上層框架軟件,全都是自己研發的。後來橫空出世的384 超節點,也延續了這種縱向一體化的思路,晶片、通訊協議、操作系統和框架生態全是自研。靠著系統層面的高度一致性,它的效能相當能打:通訊延遲只有2.1 微秒,單機櫃算力達到300PFlops,PUE 還能穩定在1.1 左右。單看這些參數,確實能和輝達掰手腕。不過和輝達一樣,華為也選擇了「封閉自洽」 的路線。這種模式雖然能把資源效率拉滿,技術把控力也強,但短板也很突出:生態相容性比較受限,整個產業的協同推進速度也會慢一些。走向岔路口在全球AI 算力領域,超節點被視為下一代智慧計算的核心單元。它可以把幾十、幾百甚至上萬張AI 加速卡,整合為一個統一的邏輯節點,將通訊時延壓縮到微秒等級,以此突破傳統算力叢集的通訊瓶頸。這樣的技術優勢,也吸引了許多行業巨頭入局佈局。 2025 年下半年,阿里、浪潮、曙光就先後推出了各自的超節點產品。這三家廠商選擇的技術路線,和華為有所不同。它們以「開放架構」 為核心,走出了一條全新的道路,致力於打造屬於中國的AI 算力底層基礎。其中,發佈時間相對較早的浪潮“元腦SD200” 和阿里“磐久128”,共同搭建起了國產開放架構體系的雛形。浪潮這款產品主打多品牌GPU 異構計算,還創下了8.9 毫秒生成token 的亮眼紀錄;阿里的產品則依靠開放協議整合不同互聯標準,成功搭建出「雲超節點」。而中科曙光在HAIC 大會上推出的scaleX 萬卡超節點真機,也是備受矚目。此系統由16 個scaleX640 超節點互聯組成,總共部署了10240 張AI 加速卡,總算力突破5EFlops。它搭載的自研scaleFabric 高速網絡,帶寬能達到400Gb/s,端側延遲不到1 微秒。同時,曙光採用浸沒相變液冷技術,將單機櫃的PUE 壓低至1.04,堪稱名副其實的算力巨獸。更關鍵的是,這款產品不繫結任何單一晶片廠商。 scaleX640 能夠相容於寒武紀、壁仞、登臨等多個品牌的加速卡,並且已經適配了400 多個主流大模型和AI 框架。這也意味著,中國的AI 算力真正具備了「多晶片共存」 的能力,實現了算力生態的多元化發展。去輝達化隨著國產算力廠商的集體突破,「去輝達化」 早已不是一句口號,而是中國保障算力安全、推進自主創新的共同需求。從2023 年起,美國多次收緊對華高性能GPU 的出口限制,A100、H100 等主力型號相繼被列入管控清單,輝達的超節點NVL72 也是在限制之內。儘管近期美國政府對部分型號的限售政策略有鬆動,但覆蓋範圍也僅限於H 系列。再加上先前有消息指出輝達晶片可能存在安全後門,相關的安全風險進一步凸顯。這一系列變化,倒逼中國AI 產業加速尋找替代方案。但我們的核心目標,不是簡單再造一個類似輝達的企業,而是要搭建一套具備可替代性的完整算力生態系統。目前來看,國內已經湧現出兩套頗具代表性的發展路徑:一條是走封閉全棧的縱向整合路線,以華為昇騰為典型代表;另一條則是主打開放協同,像曙光、浪潮、阿里這些企業都在這條賽道上發力。在落地應用層面,各家的產品也已嶄露頭角。華為的CM384已經發貨很多套,在貴州的數據中心正常使用運營;浪潮的SD200 已經在多個模型推理平台實現商用,成為DeepSeek 與Kimi 等大模型的重要算力支撐;阿里的磐久128 在雲端搭建起大規模叢集,承擔起多模型協作的基礎設施角色;更是已經落地上海、杭州等地的智算中心,也被納入國家級算力調度工程的採購清單。更值得關注的是,開放路線的推進,也帶動了國產晶片的大規模落地應用。曙光的scaleX 體系已經完成了對壁仞BR 系列、登臨、寒武紀MLU 等多款國產加速卡的適配,浪潮和阿里也在為本土GPU 提前預置驅動環境。這意味著,國內的算力基礎設施不再依附於單一的輝達生態,轉而形成了以中國廠商為核心的開放式協作系統。“過去幾年大家都在埋頭造芯,現在終於有地方能讓這些晶片真正跑起來了。” 一位業內人士這樣感慨,“這其實比單純拿到訂單更有價值,它標誌著中國AI 算力體系開始具備自我造血的能力。”2025 年,堪稱中國AI 算力體系發展的「拐點之年」。封閉路線憑藉其技術優勢,佔據著性能高地,代表著極致的算力表現與可靠的可控性,在特定場景中具備不可替代的價值;開放路線則貼合產業發展的現實需求,有力推動了算力普惠與生態繁榮,為行業帶來了更多可能性。國內算力產業的發展邏輯也在悄悄轉變:不再是單一維度的表現比拚,而是更注重不同晶片的高效協同;不再是不同體系間的孤立較量,而是趨向於多元生態下的共生共贏。中國AI 算力的未來,很可能就藏在這兩條路線的共存與平衡之中,被重新書寫與定義。 (傅立葉的貓)
中國超節點雙雄對決:昇騰384 & scaleX640底牌盡出!
熱度最高的兩大中國國產超節點終於同框出鏡。近日,出自華為的昇騰384與曙光scaleX640超節點,在2025世界計算大會首次毗鄰展出。前者圍繞華為全端技術閉環高度整合384張昇騰加速卡,被視為垂直整合路線里程碑之作;後者基於AI運算開放架構設計,以業界首個單機櫃級640卡超節點反超,展現出開放協同路線的蓬勃潛力。兩大路線迥異的超節點產品「面對面」互飆實力,成為本屆大會的關鍵亮點之一。有業內人士指出,前有昇騰384「以網補算」換道超車輝達,再有scaleX640在算力規模、密度、能效領域全面領航突破,國產超節點正在你追我趕中重塑中國計算系統的全球競爭力。六項指標飆升,國產超節點馬力全開!從昇騰384年中首次亮相,到曙光scaleX640年尾的漂亮收官,國產超節點接連打破業界記錄,在關鍵性指標上飆升加速度。這次兩大代表產品同框,將此進展體現到了極致。數據顯示,昇騰384 超節點以384 張昇騰算力卡組成一個超節點,可提供高達300PFLOPs 的密集BF16 算力,接近輝達GB200NVL72 系統的兩倍。彼時,華為特別強調了"超節點+叢集"策略,透過Atlas900SuperCluster 實現業界最大規模的高速匯流排互聯。相較於昇騰384的珠玉在前,scaleX640進一步實現單機櫃640張加速卡整合,並基於「一拖二」的高密架構組成雙scaleX640超節點(可達1280卡計算單元),FP16/BF16算力突破至昇騰384的2.1倍率當然,超節點的本質是讓叢集系統像一台電腦有效運作,考慮的不僅是算力卡的堆疊程度,其算力密度和整體能效也是系統最佳化過程中的重要版圖。內先進水平根據會上展出訊息,昇騰384單機櫃可搭載32張昇騰910C NPU(共12個機櫃),低至1.12的PUE值及800伏高壓直流(HVDC)供電技術,將功耗能源效率提升至業界先進水準。1. 算力密度scaleX640單機櫃640卡將算力密度提升了整整20倍,而解決散熱問題的關鍵在於全球頂尖的浸沒相變液冷技術,其PUE值降低到了1.04,配備400/800MW的超散熱能力供電,可以為千卡級計算單元提供高達1.72MW的超級散熱能力。2. 記憶體頻寬此外,國產超節點在HBM記憶體頻寬和記憶體容量上表現出明顯的遞進趨勢。其中,昇騰384記憶體頻寬為1229 TB/s,總記憶體達49.2 TB;曙光scaleX640記憶體頻寬為2304 TB/s,總記憶體容量81.9 TB。後者兩項指標分別達到前者的1.7倍、1.9倍。3. 國產計算至此,兩大超節點產品在關鍵指標對壘交出超分答案。尤其scaleX640在昇騰384領先輝達的基礎上再進一階,彰顯了國產計算叢集可持續迭進的澎湃動能。兩大路線並進,華為與曙光仍有底牌?從技術路線特性來看,昇騰384採用了典型的「蘋果係」垂直整合模式,主要由單一巨頭廠商為主導,建構獨立的生態閉環。scaleX640則是「Android系」超節點玩家的代表,追求全端開放協同共贏。兩大路線你追我趕構成了國產計算叢集主流發展圖景。儘管昇騰384在技術路線競跑中被暫時趕超,但在此次大會同台競技中,華為方面正掏出一張張新底牌,試圖在下一程「萬卡級」賽道迎頭趕上。據悉,所謂「Android系」之於「蘋果係」的主要優勢在於生態相容能力。如scaleX640基於AI運算開放架構,適配支援多品牌AI加速卡,可以提供使用者更多彈性選擇。並且,該產品全面相容主流AI運算生態,適配優化了400+主流大模型,能夠支援AI模型、業務應用快速無縫遷移與深度優化,對於AI用戶的高效部署上線需求具備天然的吸引力。為了在算力閉環內實現極致協同,彌補與前者的相容性、擴展性差距,華為方面緊急上線了Flex:ai技術,聚合叢集內空閒XPU算力聚合形成「共享算力池」。業界認為,此項技術本質上是透過軟體創新來實現算力資源的統一管理與利用,進而遮蔽算力硬體的差異。值得一提的是,華為近期也預告了下一步Atlas 950 超節點計畫。該產品支援8192 張基於Ascend 950DT的昇騰卡,可擴展至上一代超節點的20多倍,預計將於2026年Q4上市。面對華為方面一年後下定的“戰書”,曙光似乎正在提前鎖定萬卡級超節點目標。業界傳聞稱,基於scaleX640和1280千卡計算單元,曙光或將在年內進一步推出「萬卡計算叢集」。有人猜測,“很可能就在12月末,開放式超節點路線或將率先奪得全球萬卡級計算高地。”這一番底牌頻出的“高手過招”,儼然將國產大算力熱度推向了極致。可以明顯看出,兩大主流技術路線在輪動迭進中不斷提速,從算力規模、整合密度到功耗能效、內存頻寬,乃至生態層面的全方位比拚下,中國算力正以更積極的姿態衝擊全球計算產業鏈頂端。 (AI雲原生智慧算力架構)
騰訊研究院AI速遞 20251117
生成式AI一、openEuler發佈全球首個超節點作業系統,專為AI打造1. 開源歐拉社區正式開啟新的5年發展之路,將於2025年底正式上線面向超節點的作業系統(openEuler 24.03 LTS SP3),成員單位超2100家,全球貢獻者突破2.3萬人;2. 該作業系統具備全域資源抽象、異構資源融合和全域資源檢視三大關鍵特徵,旨在充分釋放超節點算力潛能,加速基於超節點的應用創新;3. 靈衢互聯協議2.0由開放,並將向社區貢獻支援超節點的作業系統外掛程式碼,提供記憶體統一編址、異構算力低時延通訊和全域資源池化等關鍵能力。二、CEO劈柴兩個神秘表情,或暗示Gemini 3.0等下周登場1. GoogleCEO劈柴用兩個"若有所思"表情回應Gemini 3.0下周登場傳聞,69%網友押注下一代AI模型即將發佈,該模型有望成為Google的重大轉折點;2. 提前流出的內測顯示Gemini 3.0可一句話直出作業系統、動態建構Windows系統、5秒搭建網站,前端設計能力驚豔,被稱"前端工程師末日";3. 巴菲特已投入43億美元重倉Google股票,Gemini 3.0寄予了所有人美好期望,其表現將決定Google能否向AI王座發起衝擊。三、Google發佈遊戲SIMA 2,不用開外掛,「像人一樣」練級1. GoogleDeepMind推出SIMA 2智能體,能像人類一樣觀看螢幕使用虛擬鍵鼠打遊戲,突破了單純指令跟隨的侷限,具備推理和學習能力;2. SIMA 2可在未經預訓練的情況下攻克全新遊戲,能理解多模態提示(路線草圖、符號表情),並通過自我學習和基於Gemini的反饋引導實現自我提升;3. 系統採用符號回歸方法,整合Gemini作為核心引擎,目標是成為未來機器人應用的基礎模組,但目前在長期複雜任務和精細操作方面仍有侷限。四、EverMemOS發佈,一款面向AI的長期記憶作業系統1. 陳天橋盛大團隊推出EverMemOS長期記憶作業系統,在LoCoMo和LongMemEval-S評測集上分別取得92.3%和82%高分,顯著超越SOTA水平;2. 系統受人腦記憶機制啟發,創新設計四層架構(代理層、記憶層、索引層、介面層),採用"分層記憶提取"與動態組織解決純文字相似度檢索難題;3. 目前已在Github開放開源版本,預計今年晚些時候發佈雲服務版本,為企業使用者提供資料持久化與可擴展體驗。五、2000 元的 AI 戒指,心率睡眠都測不了,只能聽你碎碎念1. 前Meta員工創立的Sandbar發佈Stream智能戒指,售價249-299美元,砍掉所有健康監測功能,專注於"語音滑鼠"式AI語音互動;2. 戒指採用"握拳私語"互動方式,按住觸控板啟動錄音,動態切換多個大模型處理任務,但續航僅16-20小時遠不如傳統智能戒指;3. 配套iOS App使用ElevenLabs生成語音模型可模仿使用者聲音,所有資料端到端加密不保存原始音訊,但隱私和價值主張仍存疑。六、NotebookLM放大招,更新Deep Research重量級功能1. GoogleNotebookLM推出Deep Research功能,可自動收集N個相關網頁源並整理到上下文列表,幾分鐘內圍繞主題搭建專屬資料庫;2. 系統支援2500萬token上下文處理,所有回答必須基於使用者提供的來源且帶引用標註,可驗證性強,避免AI幻覺問題;3. 其視訊概覽功能,可將文件、網頁、視訊轉化成互動式視訊並生成相應畫面,Google明確承諾不會使用使用者個人資料訓練模型。前沿科技七、北大團隊新突破 AI「牛頓」,看一眼資料,推出物理定律1. 北京大學團隊推出AI-Newton系統,採用符號回歸方法,在無監督、無物理先驗知識前提下,成功重新發現牛頓第二定律、能量守恆定律和萬有引力定律等基礎規律;2. 系統由符號化概念、特定定律與普適定律構成的知識庫支援,通過物理領域專用語言表示知識,各測試用例中平均識別出約90個物理概念和50條一般定律;3. AI-Newton展現出漸進性和多樣性兩大特性,雖目前仍在研究階段,但為AI驅動自主科學發現提供了新範式,有望擴展到具身智能領域。報告觀點八、可解釋性新研究:OpenAI又Open成果,來自對齊團隊1. OpenAI發佈可解釋性新研究,提出訓練神經元連接少但神經元數量多的稀疏模型,通過強制大部分權重為0使模型內部機制更易被理解;2. 研究團隊找出模型完成特定任務的"最小回路",通過邊數幾何平均值量化可解釋性,發現訓練更大更稀疏的模型可生成功能更強但回路更簡單的模型;3. 論文通訊作者為Leo Gao,曾是Ilya超級對齊團隊成員,但研究仍處早期階段,稀疏模型比前沿模型小得多且訓練效率較低。九、馬斯克以Grok為核心,X與特斯拉雙平台的AI未來展望1. 馬斯克在X與特斯拉雙平台推進xAI,Colossus超算資料中心122天部署20萬塊H100 GPU,用於訓練Grok-4和即將推出的Grok-5;2. xAI採用"求真、不設禁忌"路線,讓AI生成合成資料重構知識體系打造"Grok百科",特斯拉下一代AI5晶片性能將提升40倍;3. Grok很快將進入特斯拉汽車,馬斯克預計2030年AI總體能力可能超越全人類,xAI開源Grok-2.5模型並計畫半年後開放Grok-3。 (騰訊研究院)
效率提升70%!超節點技術成中國AI算力破局關鍵? 8大廠商全面解析!
自從華為首先推出超節點技術之後,似乎瞬間「超節點」就成為中國國產AI伺服器的「標配」,也成為了國產AI算力領域的超級熱點。在剛結束的“ 2025百度世界大會”,在展區中央擺著一塊黑色的機櫃——這是百度剛推出的的崑崙芯超節點。據說這套搭載64張崑崙芯AI加速卡的系統,已能讓兆參數大模型在幾分鐘內完成推理;並且其已在百度內部實現大規模部署,這一百度自研技術可將單卡性能提升95%,單實例推理性能提升高達8倍。這意味著,包括華為和百度,目前至少有8家廠商推出了自己的「超節點技術」,既有中科曙光、浪潮這樣的傳統伺服器廠商,也有阿里雲這樣的雲端服務廠商。飆叔將這8家公司在超節點領域的佈局和產品狀況做了一個簡單梳理,具體如下:眾所周知的原因,目前國內先進製程高階AI晶片受限的背景之下,超節點技術成為了一種彌補「先進算力」不足的主要武器之一。超節點就是本質而言,是一種通訊技術,就是透過高速互聯技術(如光互連),將成千上萬顆國產AI晶片緊密耦合,大幅提升了叢集的有效算力利用率(MFU)。這相當於用系統架構的創新,彌補了單顆晶片在絕對效能上的不足,是實現「以量補質」或「以架構換性能」的關鍵策略。因而,超節點的規模化部署,為國產AI晶片和軟體棧提供了廣闊的「試驗場」和「磨刀石」。這強力推動了從晶片、模型到應用的整個國產AI生態鏈(即「國芯、國模、國用」)的協同發展和快速成熟。同時,超節點也降低AI應用門檻,其催生了「算力即服務」(CaaS)等新模式。這意味著廣大中小企業無需自建昂貴的資料中心,就可以透過API介面按需呼叫強大的超節點算力,大大促進了AI技術的普及和落地。當然,超節點是一個複雜的系統,其核心部件主要包括計算、互聯、散熱、供電等單元。這也催生或放大了國產AI算力產業的一個獨特市場。在互聯互通單元,其負責節點內高速通訊,包括交換晶片、光模組等;目前在國內受益的主要廠商包括:華為自研的靈衢互聯協議、中興通訊的交換晶片,中際旭創的光模組,光迅科技光模組等。另一個核心零件就是-散熱系統,其主要是應對高密度計算產生的巨大熱量,多採用液冷技術;這一領域中,英維克、高瀾股份、科華資料等都是核心廠商。特別值得一提的是,除了上述的系統整合商和核心供應商之外,一些關鍵的產業鏈上下游也值得關注。尤其是連接器與材料,高速互聯對內部連接器和基礎材料也提出了更高要求。例如,超寬機櫃需要更高規格的PCB(印刷電路板)和CCL(覆銅板)材料,同時,在機櫃內部,銅連接憑藉其成本優勢在短距離高速互聯中依然扮演重要角色。雖然超節點是較新的技術,但在國內越來越受到關注,其背後,不僅超節點技術成為彌補國產AI晶片製程缺陷,同時也是提高晶片叢集效能的重要路徑。因此,隨著摩爾定律即將「失效」已成共識的背景之下,推進晶片製程演進的難度增大,提升單顆晶片的運算效能面臨挑戰,或許超節點將成為持續提升算力的主流解決方案之一。 (飆叔科技洞察)
全球級超節點首落中國,賽局變了
近日,中國資料中心及其晶片使用要求的小作文連續刷屏,甚至一度引發中國國產晶片類股迅速走高。業內認為,這可能意味著國產算力市場進一步擴容,如NV卡等進口晶片在華市場佔比或將跌入谷底,中國AI算力基礎設施建設迎來新一輪利多加持。值得注意的是,就在該消息發酵之時,國產超節點曝出重大突破。11月6日,中科曙光正式發佈全球首個單機櫃級640卡超節點scaleX640,該產品基於全球領先的開放系統硬體架構打造,可以完全對標輝達CUDA生態,提供可快速遷移的超強算力支援。資料顯示,scaleX640超節點採用“一拖二”高密架構設計,實現了單機櫃640卡超高速匯流排互連,建構大規模、高頻寬、低時延的超節點通訊域,並通過雙scaleX640超節點組成千卡級計算單元,是當前算力規模最大、整合度最高的計算叢集。相比業界同類產品,scaleX640綜合算力性能實現倍增,同時單機櫃算力密度提升20倍;相比傳統方案,可實現MoE兆參數大模型訓練推理場景30%-40%的性能提升。目前產品已通過30天+長穩運行可靠性測試驗證,可保障10萬卡級超大規模叢集擴展部署。此外,根據輝達最新公佈的NVL72超節點架構資訊,國產超節點在底層晶片性能上與其存在一定差距,但在冷卻技術、供電方案、硬體架構、算力整合度、功率密度等領域,曙光scaleX640超節點均已實現反超,大幅提升了國產智算產品與NV卡的系統性對標能力。黃仁勳近日表態稱,“中國將贏得人工智慧競賽。”他將中國的潛在勝利歸功於更有利的監管環境和更低的能源成本。同時,黃仁勳公開批評了某些國家的做法,稱其是阻礙進步的“犬儒主義”,未來可能會扼殺AI創新和競爭。有業內人士認為,相較於輝達的單卡性能領先優勢,以scaleX640為代表的開放式計算叢集,正在打通智算產業上下游協同壁壘,以更緊密的系統創新模式拉近算力差距。同時,全球TOP級超節點落子國產智算基礎設施,也將為中國AI產業創新提供關鍵“壓艙石”。 (國芯網)
華為、阿里押注“超節點”
機構指出,中美AI競爭正從「單卡性能」走向「系統級效率」。人工智慧正以史無前例的速度重塑各行業,這場變革背後離不開海量算力的支援。當AI模型參數從億級躍升至兆級,「超節點」開始逐漸取代單機與傳統叢集,成為新一代的「算力法寶」。超節點,即Superpod,是一種用於建構大規模算力叢集的技術架構。此概念最早由輝達提出,指將數千張GPU整合在一個邏輯單元內,形成類似「超級計算節點」的系統。與傳統架構不同的是,超節點可以通過高速互聯技術,彌補原先伺服器間頻寬不足以及高時延等問題,以期實現算力效率的最佳化。在不久前舉行的2025雲棲大會上,阿里雲發佈了磐久128超節點AI伺服器。據悉,該伺服器整合阿里自研CIPU 2.0晶片和EIC/MOC高性能網路卡,單櫃支援128個AI計算晶片。同等算力下,相較於傳統架構,此伺服器推理效能可提升50%。除推理場景外,超節點亦可用於AI訓練。今年4月,華為推出CloudMatrix 384超節點,透過建構超過萬片的大叢集提供算力。對於兆、十兆參數的大模型訓練任務,在雲端資料中心,可將432個超節點級聯成最高16萬卡的超大叢集。在9月召開的華為全連接大會上,華為表示CloudMatrix 384超節點已銷售300余套,共服務20余家客戶,主要需求來自政企。未來,華為還將推出Atlas 950 SuperPoD超節點,算力規模8,192卡,預計2026年第四季上市。新一代產品Atlas 960 SuperPoD算力規模將達到15,488張卡,預計2027年第四季上市。華龍證券指出,中美AI競爭正從“單卡性能”走向“系統級效率”,中國正在用叢集建設+開源生態+工程化交付的方式完成AI基建方面的彎道超車。事實上,當前還有更多國產硬體廠商正在加速佈局超節點:8月7日,浪潮資訊發佈面向兆參數大模型的超節點AI伺服器「元腦SD200」。沐曦股份已發佈多種超節點形態,包括光互連超節點、耀龍3D Mesh超節點、Shanghai Cube國產高密度液冷整櫃以及高密度液冷算力POD。8月28日,百度智能雲發佈百舸AI計算平台5.0版本。在算力方面,崑崙芯超節點正式啟用。從技術方向來看,超節點正成為AI基礎設施建設的新常態。民生證券認為,先前市場更關注晶片算力,但伴隨Scale up產業趨勢崛起,超節點已重新定義AI基礎設施的範式。以華為超節點為例,其櫃間採用全光互聯,具有高可靠、高頻寬、低時延等優勢;另一方面,華為的Atlas 950通過正交架構,實現零線纜電互聯,其獨創的材料和工藝讓光模組液冷可靠性提升1倍。相較之下輝達將在明年下半年上市的NVL144,Atlas950超節點卡的規模是其56.8倍,總算力是其6.7倍,記憶體容量是其15倍,互聯頻寬是其62倍,在各方面均呈領先。該機構進一步指出,當超節點速率大幅提升,AIDC功率將迎來新挑戰。由於包括華為CloudMatrix 384、輝達GB200NVL72在內的超節點單機櫃功耗普遍突破100KW,因此在算力密度指數級增加的情況下,超節點機櫃的溫控和電源系統將面臨挑戰。而當Atas950超節點採用全液冷模式時,其互聯頻寬速率和算力速率均可望迎來大幅提升。從投資層面來看,國金證券表示,華為超節點等新平台在算力、頻寬、記憶等關鍵指標上全面領先,可望推動國產算力基礎設施加速落地。看好超節點滲透率的持續提升,帶動光連接供應鏈的放量。 (科創板日報)
雲棲大會:阿里雲磐久AI超節點液冷方案
阿里雲磐久128卡AI超節點液冷解析2025年雲棲大會現場,全面升級的阿里雲AI基礎設施重磅亮相,全面展示了阿里雲從底層晶片、超節點伺服器、高性能網路、分佈式儲存、智算叢集到人工智慧平台、模型訓練推理服務的全端AI技術能力。在伺服器層面,阿里雲發佈全新一代磐久128超節點AI伺服器。新一代磐久超節點伺服器由阿里雲自主研發設計,具備高密度、高性能和高可用的核心優勢,可高效支援多種AI晶片,單櫃支援128個AI計算晶片,密度刷新業界紀錄。整機櫃:阿里雲磐久AI超節點機櫃寬度為2個標準伺服器機櫃的寬度,採用非對稱設計,從機櫃前面看,左側主要為為GPU節點櫃,約23inch+寬,右側為標準的19inch櫃,承載了CPU計算節點、OOB交換機、Powershelf、以及CDU(阿里叫CMC元件)等。阿里雲磐久AI超節點128單卡的PPU為400W,單晶片最大支援2KW,單櫃最大350KW整櫃液冷:單台6U高CDU,雙櫃液冷浮動盲插接頭+manifold。CDU部分:從現場照片中看不出阿里雲超節點液冷CDU的廠家資訊,應該是廠商給阿里定製的。CPU液冷設計:這次展示的 GPU 計算節點整體寬度已經超過 23 英吋,接近 600mm,比標準機架伺服器更寬,主要是為了容納高密度的散熱與供液結構。散熱架構採用 風冷 + 液冷組合:節點後部配置了兩塊 GPU 板,每塊 PCB 上並列佈局兩顆 PPU 晶片;此外還整合了一顆後部交換晶片;這些高功耗晶片 均通過液冷冷板進行散熱。冷板的安裝方式為 並聯,從節點中部的 manifold分歧管取液,內部所使用的連接器設計風格與 NV的 NVQD 非常接近。在安全設計方面,節點佈置了 漏液檢測線,沿著管路走向鋪設,並配合 集水槽來引導冷卻液,確保一旦發生洩漏能第一時間感知並引流。不過,從現場展品來看,檢測線的纏繞方式略顯鬆散,沒有緊貼在管路底部,如果在真實環境中使用,可能會降低檢測的靈敏度和可靠性。CPU節點:這次展示的 CPU 計算節點依然保持了標準 19 英吋機架寬度,整體採用的是 風液混合架構。兩顆 CPU 晶片通過 液冷冷板進行散熱,從管路佈局來看,連接方式大機率是並聯,這樣可以保證兩顆晶片得到相對均衡的冷卻效果。不過,由於 CPU 的單顆功耗相比 GPU、加速卡要低一些,其實也完全可以採用串聯的方式,把液體依次經過兩塊冷板,從而簡化管路設計、降低系統複雜度。交換機:在阿里雲這次展示的超節點液冷方案裡,交換板的主晶片採用了液冷設計,並且通過手插式快接頭與管路連接,便於維護和更換。比較特別的是,冷板底部還接了一根透明的 PU 管。從設計上看,這根管子大機率是作為導流用的——在極端情況下如果發生漏液,冷卻液會被快速引流到集水盤,避免液體在機櫃內部亂溢,造成裝置短路或損壞。阿里雲超節點後面的一些現場資料:背部採用2進2出,實現冗餘備份,球閥是丹佛斯的FD83,UQD應該也是丹佛斯供應。(零氪1+1)
阿里的磐久超節點和供應鏈
昨天趕在阿里雲棲大會的最後一天,特意從上海趕去杭州看了阿里的超節點,在現場拍了一個視訊,但現場環境比較雜亂,人非常多。但後來發現視訊中有兩個地方表述有誤,下面我們再詳細分析一下阿里的這個超節點,跟輝達的NVL72和華為的CM384做個對比。如果看了這個文章還不太明白的讀者,我們明晚視訊號的直播還會講阿里的這個超節點。1、GPU數量阿里的這個磐久超節點,是採用兩個64個GPU超節點的方式,每個計算節點上有4顆阿里的自研GPU,因此上下各有16個計算節點,總共是16 x 4(4顆GPU) x 2(上下) = 128個GPU。其中64個GPU是一組的scale up。華為的CM384是包括384顆昇騰910C,輝達的GB200/GB300 NVL72,是包含72顆GPU。2、互聯輝達的NVL72中,採用的CabelTray的互聯方式,即Compute tray和Switch Tray是通過線纜進行連接,走的是NVLink的私有協議。華為的CM384中,由於是採用了多個Rack作為一個超節點,昇騰伺服器和交換機之間也是通過線纜進行互聯。阿里的超節點則完全不同,採用的是無背板的正互動聯,計算節點在前面,都是橫著放的,Switch節點在後面,是豎著放的。他們都是直接插在一起的,中間並沒有通過PCB。這種方式的有點顯而易見,沒有中了“中間商”,訊號傳輸的損耗會小很多。3、電和光在輝達的NVL72里面的scale up,都是使用的銅來連接,這些我們之前的文章都分析過,用光的話,成本和功耗都會增加非常多。華為的CM384里面,採用的是全光互聯,但這裡的光互聯,其實指的也是第一層的UB Switch和第二層UB Switch之間是光互聯。如果只算scale up,CM384中,NPU:光模組=1:14,如果再加上scale out,那麼一個CM384中,就需要6912個400G的光模組,所以功耗和成本都居高不下。在NPU和第一層UB Switch,CPU和第一層UB Switch之間的互聯,也都是電互聯。在阿里的超節點中,一組64個GPU內部是scale up,採用的是電互聯,有的是PCB直接連接,有的是銅纜,這一層並沒有光。在連接兩個ALink Switch之間,使用了光互聯,但目前還不清楚光的用量是多少。4、參數對比在所有參數中,大家最關心的是算力,但阿里目前並沒有給出算力參數。下面這個圖是SemiAnalysis給出的輝達GB200 NVL72和華為昇騰CM384的參數對比。目前阿里給出的參數其實不多,我們列舉一下:內建 CIPU 2.0 + EIC/MOC 網路卡,Scale-Up 頻寬 Pb/s 級,延遲百 ns,儲存網 800 Gbps,GPU 直聯 6.4 Tbps。關於功耗,並沒有查到阿里的官網參數,但有報告中給出的是超過300kW,CM384是559kW,GB200 NVL72是145kW。5、生態相容性按照阿里官方的描述,說是可以相容多家GPU/ASIC,但前提是要支援ALink協議。這一點是比較難的,目前國內外的大廠們,都不想去相容別家的私有協議。而阿里的GPU是可以相容cuda的,在目前這個階段,算是一個不錯的優勢。6、GPU和CPU的互聯華為CM384的GPU和CPU互聯可以參考我們上面給出的圖,GPU和CPU都連到了UB Switch上。輝達的Bianc板卡中,GB200和Grace CPU是通過NVLink-C2C互聯。輝達和華為的方案中,GPU/NPU都是和CPU在一起的,而阿里的方案中,GPU和CPU是兩個獨立計算節點,中間通過PCIe進行互聯的。GPU計算節點:這個互聯的線,是藏在了機箱的背部。7、阿里的伺服器供應鏈結合業內的一些資訊,講一下大家最關心的供應鏈,僅供大家參考,不構成投資建議。AI及通用伺服器整合:浪潮佔據 33% - 35% 的份額;華勤的份額為 23%;另有企業並列第三,所佔份額為 18%。若單看通用伺服器細分領域,浪潮的份額為 30%,中興通訊佔比 27%,華勤以 18% 的份額緊隨其後,新華三則佔據 15% 的市場份額。從合作動態來看,阿里今年的相關招標工作已全部完成,市場份額的變動預計要到明年年中才會顯現。中興通訊設定了明確目標,計畫從浪潮手中奪取市場份額第一的位置。液冷:高瀾和英維克是主要參與者,其中高瀾佔據 30% 的份額,英維克的份額區間在 30% - 40%;申菱環境的市場份額處於 20% - 30% 之間;剩餘的市場份額則由其他企業瓜分。在企業動態方面,科華資料剛剛成功進入液冷白名單,按照發展預期,到 2026 年其在液冷領域的業務規模有望快速擴大,這一增長態勢可能會對目前佔據頭部位置的三家企業(高瀾、英維克、申菱環境)的市場份額產生稀釋作用。光模組: 華工科技是阿里雲光模組業務的核心供應商,其在該合作中的份額超過 25% - 30%;光迅科技在阿里雲 400G 光模組市場中表現突出,市佔率位居第一,達到 30% - 40%,同時,其 800G 光模組已實現批次供貨,並且與阿里雲採用 “聯合開發”(JDM)的模式開展合作;中際旭創、航錦科技及其他企業則佔據了剩餘的市場份額。PCB: 從技術與價值層面來看,超節點主機板的層數已提升至 24 - 30 層,其中超低損耗材料的佔比超過 60%,這一技術升級使得單卡 PCB 的價值量從原先的 900 元上升至 1900 元。在企業競爭方面,滬電股份是阿里雲伺服器主機板及加速卡的主力供應商,2024 年其 AI 伺服器 PCB 業務收入佔比已提升至 35%,隨著磐久 128 產品的放量,滬電股份的產品結構有望得到進一步最佳化,且其高端板的毛利率超過 35%,顯著高於傳統通訊板的毛利率水平。深南電路與滬電股份在訂單方面存在共享情況,二者在相關市場的供給份額合計超過 50% - 60%;剩餘的市場供給則由國內其他幾家主流 PCB 廠商承擔。伺服器電源: 當前,中恆電氣與歐陸通是該領域的核心電源裝置供應商,二者的產品幾乎覆蓋了當下伺服器電源的主要供應量。在合作方面,它們為阿里雲資料中心提供高效的供電系統,同時也供應應用於磐久伺服器的浸沒式液冷集中式供電電源。近期市場動態顯示,科華資料剛剛進入阿里 UPS 白名單,從發展趨勢來看,科華資料後續有望成為阿里伺服器電源領域的第三大供應商,目前科華已經在騰訊伺服器電源中佔了比較大的份額,後續看他們如何爭取在阿里的份額了。 (傅里葉的貓)