#昇騰 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#昇騰

【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析

01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上，華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案，標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計，整合了8192顆華為昇騰950 DT晶片，是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會，報告補充道，SuperPoD計畫於2026年第四季度商用。除了Atlas系統外，華為還展示通用計算平台TaiShan 950 SuperPoD，以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧：華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日，在華為全聯接大會 2025 上，華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示，華為在25年 Q1 已經推出了 Ascend910C，2026 年 Q1 推出全新的 Ascend950PR晶片，2026 年 Q4 推出 Ascend950DT，2027 年 Q4 推出 Ascend960 晶片，2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構，旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU，最高可擴展至128個機櫃,也是就 8,192 個 NPU，可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比，它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構，可實現零線纜電互聯，採用液冷接頭浮動盲插設計做到零漏液，其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構，支援單板內、單板間和機架間的 NPU 全互聯，以 64 卡為步長按需擴展，最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成，單機櫃配置64張加速卡，總體由128個電腦櫃和32個互聯機櫃組成，整套系統共計160個機櫃，形成完整的大規模AI算力叢集。在散熱方案上，Atlas 950 SuperPoD全面採用全液冷架構設計，不提供風冷版本選配，出廠即為液冷機櫃。這一策略表明，隨著算力密度和功耗持續提升，液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署，系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境，滿足大模型訓練等高強度負載的長期運行需求。同時，統一液冷形態也有助於提升系統交付效率與維運標準化水平，降低複雜度，體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面，華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成，總計整合64顆NPU晶片，整櫃設計功耗約75kW，已進入典型高密度液冷部署區間。在散熱方案上，整體採用冷板式液冷架構，對核心高功率器件進行直接液冷覆蓋，以保障在高算力負載下的穩定運行與能效表現。在系統架構層面，該方案機櫃內部不配置Rack級CDU（機架內CDU），而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性，同時減少機櫃內部空間佔用，最佳化結構佈局。伺服器方面，華為950平台採用分佈式獨立冷板架構，在每一顆NPU上均配置單獨冷板，實現對高功率核心器件的精細化散熱管理。據業內資訊顯示，當前華為尚未大規模引入MLCP技術，而是以成熟穩定的單級冷板方案為主，以兼顧可靠性與工程可落地性。在管路設計上，華為採用EPDM材質的液冷軟管，強調柔性與裝配便利性，並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時，在連接方式上，華為引入浮動接頭設計，以緩解裝配公差、熱膨脹及振動帶來的機械應力，從而提升系統長期可靠性。值得關注的是，華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片，本次方案則將光模組納入液冷散熱體系。在超節點（Supernode）架構下，光互連密度與頻寬需求顯著提升，光器件功耗持續攀升，傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組（如800G及以上）功耗進入更高區間，液冷正從“可選方案”向“必選路徑”轉變，這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢，液冷大會現場呈現 2026年4月14日至15日，第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦，聚焦AI時代資料中心散熱技術升級與產業生態協同，吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與，預計2000位行業專家參與。 (零氪1+1)

支援中國國產晶片！中國移動1.555億元採購華為昇騰910C：明確要求拒絕進口

雖然國產AI晶片跟輝達等巨頭相比仍有一定的差距，但它們就是星星之火，如果被好好扶持也是可以燎原的。對於國產晶片的支援，特別是華為昇騰這塊，中國移動已經開始率先拿出行動了。近日，中國政府採購網發佈《光明大裝置算力服務支撐平台採購項目》中標公告，中國移動廣東公司以1.55億元中標，採購項目包含華為溫冷資料備份儲存裝置一套，裝置單價為4459.86萬元。據悉，該項目總預算金額為1.555億元，採購項目包括智能算力開放服務系統軟硬體及服務支援、資訊安全與維運軟硬體及服務支援、溫冷資料備份儲存裝置及配套，每一項貨物名稱都要求“拒絕進口”。招標公告提到，光明大裝置採用華為昇騰910C裝置以及面向超密叢集的天工架構進行建設，並使用性能最高的華為靈衢匯流排進行承載。整體系統提供智能算力規模為每秒一千六百億億次16位浮點運算。其中，包括基礎硬體、基礎軟體2個分系統，而全域儲存子系統配置高性能層儲存裝置OceanStor A800（SSD裸容量30.9PB）和大容量層儲存裝置OceanStor Pacific 9550（HHD裸容量62PB）等。 (硬體世界)

中國超節點雙雄對決：昇騰384 & scaleX640底牌盡出！

熱度最高的兩大中國國產超節點終於同框出鏡。近日，出自華為的昇騰384與曙光scaleX640超節點，在2025世界計算大會首次毗鄰展出。前者圍繞華為全端技術閉環高度整合384張昇騰加速卡，被視為垂直整合路線里程碑之作；後者基於AI運算開放架構設計，以業界首個單機櫃級640卡超節點反超，展現出開放協同路線的蓬勃潛力。兩大路線迥異的超節點產品「面對面」互飆實力，成為本屆大會的關鍵亮點之一。有業內人士指出，前有昇騰384「以網補算」換道超車輝達，再有scaleX640在算力規模、密度、能效領域全面領航突破，國產超節點正在你追我趕中重塑中國計算系統的全球競爭力。六項指標飆升，國產超節點馬力全開！從昇騰384年中首次亮相，到曙光scaleX640年尾的漂亮收官，國產超節點接連打破業界記錄，在關鍵性指標上飆升加速度。這次兩大代表產品同框，將此進展體現到了極致。數據顯示，昇騰384 超節點以384 張昇騰算力卡組成一個超節點，可提供高達300PFLOPs 的密集BF16 算力，接近輝達GB200NVL72 系統的兩倍。彼時，華為特別強調了"超節點+叢集"策略，透過Atlas900SuperCluster 實現業界最大規模的高速匯流排互聯。相較於昇騰384的珠玉在前，scaleX640進一步實現單機櫃640張加速卡整合，並基於「一拖二」的高密架構組成雙scaleX640超節點（可達1280卡計算單元），FP16/BF16算力突破至昇騰384的2.1倍率當然，超節點的本質是讓叢集系統像一台電腦有效運作，考慮的不僅是算力卡的堆疊程度，其算力密度和整體能效也是系統最佳化過程中的重要版圖。內先進水平根據會上展出訊息，昇騰384單機櫃可搭載32張昇騰910C NPU（共12個機櫃），低至1.12的PUE值及800伏高壓直流（HVDC）供電技術，將功耗能源效率提升至業界先進水準。1. 算力密度scaleX640單機櫃640卡將算力密度提升了整整20倍，而解決散熱問題的關鍵在於全球頂尖的浸沒相變液冷技術，其PUE值降低到了1.04，配備400/800MW的超散熱能力供電，可以為千卡級計算單元提供高達1.72MW的超級散熱能力。2. 記憶體頻寬此外，國產超節點在HBM記憶體頻寬和記憶體容量上表現出明顯的遞進趨勢。其中，昇騰384記憶體頻寬為1229 TB/s，總記憶體達49.2 TB；曙光scaleX640記憶體頻寬為2304 TB/s，總記憶體容量81.9 TB。後者兩項指標分別達到前者的1.7倍、1.9倍。3. 國產計算至此，兩大超節點產品在關鍵指標對壘交出超分答案。尤其scaleX640在昇騰384領先輝達的基礎上再進一階，彰顯了國產計算叢集可持續迭進的澎湃動能。兩大路線並進，華為與曙光仍有底牌？從技術路線特性來看，昇騰384採用了典型的「蘋果係」垂直整合模式，主要由單一巨頭廠商為主導，建構獨立的生態閉環。scaleX640則是「Android系」超節點玩家的代表，追求全端開放協同共贏。兩大路線你追我趕構成了國產計算叢集主流發展圖景。儘管昇騰384在技術路線競跑中被暫時趕超，但在此次大會同台競技中，華為方面正掏出一張張新底牌，試圖在下一程「萬卡級」賽道迎頭趕上。據悉，所謂「Android系」之於「蘋果係」的主要優勢在於生態相容能力。如scaleX640基於AI運算開放架構，適配支援多品牌AI加速卡，可以提供使用者更多彈性選擇。並且，該產品全面相容主流AI運算生態，適配優化了400+主流大模型，能夠支援AI模型、業務應用快速無縫遷移與深度優化，對於AI用戶的高效部署上線需求具備天然的吸引力。為了在算力閉環內實現極致協同，彌補與前者的相容性、擴展性差距，華為方面緊急上線了Flex:ai技術，聚合叢集內空閒XPU算力聚合形成「共享算力池」。業界認為，此項技術本質上是透過軟體創新來實現算力資源的統一管理與利用，進而遮蔽算力硬體的差異。值得一提的是，華為近期也預告了下一步Atlas 950 超節點計畫。該產品支援8192 張基於Ascend 950DT的昇騰卡，可擴展至上一代超節點的20多倍，預計將於2026年Q4上市。面對華為方面一年後下定的“戰書”，曙光似乎正在提前鎖定萬卡級超節點目標。業界傳聞稱，基於scaleX640和1280千卡計算單元，曙光或將在年內進一步推出「萬卡計算叢集」。有人猜測，“很可能就在12月末，開放式超節點路線或將率先奪得全球萬卡級計算高地。”這一番底牌頻出的“高手過招”，儼然將國產大算力熱度推向了極致。可以明顯看出，兩大主流技術路線在輪動迭進中不斷提速，從算力規模、整合密度到功耗能效、內存頻寬，乃至生態層面的全方位比拚下，中國算力正以更積極的姿態衝擊全球計算產業鏈頂端。（AI雲原生智慧算力架構）

5兆輝達回頭看：「寒武紀們」被低估了嗎？

人類歷史上第一家5兆市值公司誕生了。這個數字，超過了德國或英國一年的GDP，比A股所有「中」字頭股票的市值總和還要多。而創造這個奇蹟的，是一家在三十年前還只是在電腦城裡「賣顯示卡」的公司－輝達（NVIDIA）。作為AI的“賣鏟人”，輝達在人類對於人工智慧近乎宗教般的狂熱夢想中，一路高歌猛進。短短兩年時間，它的市值從1兆沖到5兆，其增長速度本身，就構成了這個時代最魔幻的註腳。很顯然，今天它當然不只賣鏟子。如果說上一輪的科技浪潮，是蘋果定義了「移動互聯網」的入口；那麼在這一輪波瀾壯闊的「智慧革命」中，輝達幾乎成為了整個AI世界的「中樞神經」和「唯一入口」。晶片，是鏟子、是石油、是電力……是人類關於Matrix所有想像的實體底座。沒有輝達的GPU，就沒有ChatGPT的橫空出世，就沒有Sora的以假亂真，就沒有今天我們談論的一切「大模型」。在輝達沖上5兆的時刻，我問一位在AI行業的朋友，這家公司有泡沫嗎？他幾乎是即時地回答我：目前看不到任何泡沫的跡象。其實也可以理解。為什麼？因為全世界的公司，從Google、微軟、OpenAI這樣的巨頭，到成千上萬試圖在AI浪潮中淘金的創業公司，都在排著隊，揮舞著現金，只為求購英VIDIA的H100或B200晶片。這種「剛性需求」的強烈程度，堪比沙漠中的淘金者對水的渴望。我在上個月給經濟觀察報的專欄文章《輝達進化論：當AI賣鏟人開始淘金》裡就寫道，這位最成功的“賣鏟人”，已經不再滿足於僅僅是提供工具本身。它正在從一個單純的硬體供應商，變成了一個與AI浪潮核心玩家深度綁定的利益共同體。這是一個完美的商業閉環。但即便如此，中國也不是沒有機會。當地緣政治的鐵幕落下，黃仁勳不久之前已經放話，中國高階AI晶片市場的佔有率「已經是0%。然而，中國作為唯一能在AI領域與對岸叫板的龐大市場，其需求並不會因此消失。一個巨大的真空地帶形成了。於是，「國產替代」從一個可選項，變成了唯一的必選項，風起雲湧。那麼，一個更貼近我們自身的問題是：當輝達創下5兆市值的歷史豐碑時，我們到底該如何給「寒武紀」們估值？A股市場上的這些AI晶片公司，如寒武紀、景嘉微、海光資訊…它們是真正的“潛力股”，還是只是這場盛宴中被高估的“氣氛組”？最近，我正在重溫估值大師達摩·達蘭（Aswath Damodaran）的經典之作《故事與估值》一書。達蘭教授的核心觀點是，所有估值的本質，都是「故事」與「數字」的結合。從這個視角，或許能夠幫助我們更能理解，中國AI晶片產業的未來，以及那些看似「昂貴」的股價背後，究竟隱藏著怎樣的邏輯。01. 兆估值煉金術首先，我們必須弄清楚，輝達的5兆估值，這套「煉金術」是怎麼來的？如果只是看財務“數字”，輝達的表現當然是驚人的。我們來看一組它「印鈔機」業務－資料中心的財務資料：連續幾個季度，營收年增超過200%甚至400%，毛利率直逼80%。這是什麼概念？這意味著輝達賣一塊晶片的利潤空間，比蘋果賣一部iPhone還要高得多。這根本不是硬體生意，這是「壟斷稅」。但僅僅是這些“數字”，還不足以支撐起5兆的龐大帝國。真正讓輝達「點石成金」的，是它那個強大到令人窒息的「故事」——CUDA。CUDA是什麼？這是理解輝達護城河的關鍵。我們可以打一個通俗的比方：輝達的GPU晶片是“引擎”，就像電腦上的Windows或蘋果的iOS，CUDA就是一套獨一無二的“操作系統”。在CUDA出現之前，GPU雖然計算能力很強，但非常難用。開發者想用它來做AI計算，不亞於要用文言文寫代碼，門檻極高。而輝達在近二十年前就開始佈局，推出了CUDA。這套「操作系統」提供了一個相對易用的程式設計平台，讓全球數百萬的開發者能夠用更熟悉的“白話文”（C++、Python等語言）來指揮GPU這台“發動機”，去完成複雜的AI訓練和推理任務。當Windows和iOS透過「應用商店」鎖定了所有使用者和開發者時，輝達也透過CUDA「鎖定」了全球所有的AI人才。這種「硬體（GPU）+軟體（CUDA）」的組合拳，才是其真正的護城河。它導致了極高的“遷移成本”。什麼叫遷移成本？想像一下，你所有的AI研究成果、所有的程式碼、你團隊裡所有工程師的技能，都是基於CUDA這個「操作系統」建立的。現在，另一家公司（如AMD或寒武紀）造出了一款新晶片，就算它的「引擎」性能和輝達一樣強，甚至價格還便宜一半，你敢用嗎？你不敢。因為你的「Windows」應用，無法在「Android」系統上運作。你必須把過去十年的程式碼全部重寫，你必須讓你的工程師團隊重新學習一套全新的「語言」。這個成本，遠遠高於你省下的那點晶片錢。這就是「網絡效應」：越多人用CUDA，為CUDA開發的工具和教學就越多；工具越多，就有越多的大學開始教CUDA；教CUDA的大學越多，畢業後懂CUDA的工程師就越多；懂CUDA的工程師越多，企業就越傾向於選擇輝達的晶片…這是一個完美的正向循環，也是一個讓所有競爭對手絕望的「生態壁壘」。因此，輝達的估值，早已不僅是對其當前「數字」（獲利能力）的計算，更是對它未來在AI世界「唯一入口」和「事實標準」地位的「故事」定價。而華爾街相信的，是輝達在未來十年，都將持續向全世界收取高昂的「AI稅」。02. 夾縫中的新大陸現在，我們把目光轉回中國。地緣政治的賽局和供應鏈的限制，為中國本土的AI晶片廠商，意外地打開了一個「夾縫中的新大陸」。當輝達最先進的H100、B200晶片被一紙禁令攔在海關之外時，一個規模高達千億等級、並且仍在高速增長的龐大市場，被動地「讓」了出來。這個市場有多大？根據信通院等機構的測算，光是2024年，中國大模型市場對高階AI晶片的需求就可能超過50萬張，未來幾年的複合成長率驚人。這本應是輝達最肥美的“蛋糕”，現在，它只能眼睜睜地看著。這對寒武紀、華為昇騰、阿里平頭哥、壁仞科技、摩爾執行緒等所有本土玩家來說，是前所未有的歷史機會期。它們面對的，是幾乎沒有外部競爭、需求又極其確定的「溫室市場」。然而，這片「新大陸」並非坦途，甚至可以說是荊棘叢生。本土廠商面臨的核心挑戰，已經從“能不能造出晶片”，轉向了“造出的晶片有沒有人用”。在過去，我們評斷一款晶片，主要看PPA，也就是性能（Performance）、功耗（Power）、面積（Area）。我們的目標是創造一款在性能上接近輝達，同時功耗和成本更低的「平替」產品。但現在，所有人都明白了，沒有對標CUDA的成熟軟件棧，再強的晶片也只是“屠龍之技”，是中看不中用的“擺設”。國內的科技巨頭，如阿里、騰訊、百度、字節跳動，它們囤積的輝達晶片總有耗盡的一天。它們急需“國產替代”，但它們的需求也非常苛刻：這款國產晶片，必須能“用起來”，不能讓我的演算法工程師們把代碼全重寫一遍。於是，我們看到，所有國產AI晶片的頭部玩家，都把戰場從“硬體”轉向了“軟件”，試圖構建自己的“朋友圈”和“護城河”。目前，牌桌上主要有兩種流派：第一種，以華為昇騰（Ascend）為代表的「全端模式」。華為的打法，是複製一個「垂直整合」的生態。它不但有自己的昇騰晶片（硬體），還有自己的CANN（對標CUDA的底層軟體棧），甚至還有自己的MindSpore（對標PyTorch的AI框架）。這種模式的好處是控制力強，可以集中力量辦大事，實現內部的完美優化。缺點也同樣明顯：它相對“封閉”，是在試圖建立另一個“蘋果iOS”，要求開發者全面擁抱華為的技術體系。第二種，以寒武紀（MagicJian）為代表的「開放追趕模式」。寒武紀的定位更像是“中國的輝達”，它專注於做好晶片（硬體），同時提供一套名為MagicJian的軟件棧。它試圖更廣泛地去適配且相容主流的AI框架（如PyTorch），努力降低開發者的「遷移成本」。它的挑戰在於，作為一個體量遠小於華為的「中立」廠商，它是否有足夠的資源和號召力，去吸引開發者用它的「語言」？這場競賽的勝負手，已經不在於短期內誰的晶片跑分更高，而在於誰能更快地建構起一個「可用、易用、開發者願意用」的軟體生態，去承接這個因禁令而「溢出」的龐大市場。03. 從計算，到信念最後，讓我們回到最初的問題：寒武紀們被低估了嗎？如果我們嚴格按照達摩·達蘭的估值模型，只用「計算」的眼光去看的話，比如根據它們當下的出貨量、微薄的利潤率（甚至是大額虧損），以及高得離譜的市銷率（P/S），這些仍在追趕和巨額投入期的公司，其估值似乎根本無法支撐，泡沫明顯。以寒武紀為例，市值數百億人民幣，但年收入可能只有幾十億，而且仍在虧損。如果用傳統製造或半導體公司的標準來看，這無疑是昂貴的。但資本市場定價的，從來都不僅僅是“現在”，更是“未來”。對於A股的本土AI晶片股而言，它們的估值，本質上已經脫離了傳統「計算」的範疇，轉而成為一個「信念題」。這個「信念」包含幾個非常具體且層層遞進的層面：第一層信念：對「國產替代必然性」的信念。這是最基礎的信念。市場相信，無論主動或被動，中國AI產業對本土晶片的採購將是剛性的、不可逆的。地緣政治的「高牆」越高，這層信念就越牢固。因為所有人都明白，沒有底層的算力自主，一切「智慧強國」的宏圖都是沙上建塔。這為本土晶片提供了一個確定性極高的「保底」市場。第二層信念：對「中國AI市場長期成長」的信念。光有「替代」還不夠，這個「被取代」的市場必須夠大。市場相信，中國龐大的數字化經濟體量、海量的資料、豐富的應用場景，將共同催生一個不亞於北美的AI市場。從大模型、自動駕駛、生物醫藥到智慧製造，每個領域都是兆級的賽道。這個龐大的增量，為本土晶片提供了足夠高的「天花板」。第三層信念，也是最核心、最脆弱的信念：對「本土生態終將完成」的信念。這才是決定估值「是泡沫還是鑽石」的關鍵。市場在用幾百億、上千億的市值，去「賭」一個可能性：在華為、寒武紀或其他玩家中，至少會有一家，能夠克服萬難，最終建構起一個足以對標CUDA、能夠讓中國數百萬開發者順暢使用的軟件生態。為什麼說這層信念最脆弱？因為它不是必然的。它需要巨額的、持續十數年的研發投入，需要頂級的戰略耐心，需要龐大的工程師團隊夜以繼日地去“填坑”，更需要下游的客戶和開發者“用腳投票”，願意忍受早期產品的不完善，一起“共建”這個生態。因此，短期來看，寒武紀們的估值，反映的就是市場對這第三層信念的「搖擺」。當市場情緒樂觀時，比如華為昇騰又有了新突破，或者寒武紀適配了某款熱門大模型，大家覺得“生態好像快成了”，股價就會飆升，因為市場願意為這個“中國版CUDA”的遠景支付高額溢價。當市場情緒悲觀時，例如財報虧損擴大，或者某個技術難關遲遲無法攻克，大家又會退回到“計算”模式，覺得“故事講不通了”，股價就會暴跌。所以，討論“低估”還是“高估”，已經意義不大。我們必須明白，給這些公司估值，本質上不是在「計算」一家公司的當前價值，而是在「押注」一個國家產業突圍的機率。04. 生態，終局的博弈當輝達的市值沖向5萬美元時，它早已不是一家單純的硬體公司，它是一個「生態帝國」。而對於「寒武紀」來說，它們從誕生之日起，就註定了無法成為一家「小而美」的晶片設計公司。它們背負的宿命，就是要在中國這片土地上，重建一個獨立自主的AI「生態」。這是一場九死一生的豪賭，也是一場沒有退路的戰爭。從這個角度來看，寒武紀們的估值，目前仍然是一個「信念題」。這個信念，建立在地緣政治的「高牆」和中國市場的「縱深」之上。但信念無法永遠脫離現實。未來三到五年，將是國內AI生態的「攤牌期」。如果本土廠商無法提供真正「可用」的工具鏈，那麼國內的AI產業發展將被迫降速，甚至停滯，這個「信念」的基礎也就不復存在。反之，如果我們能在這場「夾縫」中，真的培育出一個或幾個開放、繁榮、足以對抗封鎖的AI新生態——那怕這個生態運轉的效率可能只有CUDA的70%或80%——那麼，今天我們看到的幾百億、幾千億市值，或許都還只是一個開始。（深水研究）

突破！DeepSeek新模型適配中國國產AI晶片！

中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日，深度求索（DeepSeek）公司正式開源發佈DeepSeek-V3.2-Exp大語言模型，其創新的稀疏注意力架構（DSA）顯著提升長文字處理效率。與此同時，華為昇騰計算產業生態宣佈實現對該模型的“0day支援”，基於vLLM/SGLang等主流推理框架完成全套適配部署，並向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp作為實驗性版本，首次引入細粒度稀疏注意力機制（DSA），在保持與V3.1-Terminus相當性能的前提下，顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦，有效降低了長文字處理的計算複雜度和記憶體佔用。華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer（LI）與Sparse Flash Attention（SFA），進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化，全面提升計算效率。在CANNAI平台上，昇騰完成了對應的最佳化適配，整體部署策略沿用DeepSeek的大EP平行方案，並針對稀疏DSA結構疊加實現長序列親和的CP平行策略，兼顧時延和吞吐。實測資料顯示，在128K長序列環境下，最佳化後的模型在昇騰硬體上能夠保持TTFT（首令牌響應時間）低於2秒、TPOT（每個令牌輸出時間）低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。為進一步簡化開發流程，昇騰CANN首次推出大融合算子程式設計體系PyPTO，該框架創新性地採用PTO程式設計範式，以Tensor為基本資料表達方式，建構計算圖，實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發，僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。除了華為昇騰，寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配，展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出，DeepSeek已成為中國國產開源模型的重要標竿，其快速迭代正推動著中國國產晶片標準的確立。華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作，基於稀疏Attention結構疊加實現長序列親和的上下文平行策略，最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS，為企業和開發者提供模型體驗和API服務。DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配，標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟，以及中國國產算力生態的不斷完善，中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)

DeepSeek與寒武紀的“4分鐘協同”，中國國產AI的默契合謀

9月29日傍晚，AI業界上演了一場精彩的“默契配合”。18:07，DeepSeek官方宣佈發佈DeepSeek-V3.2-Exp模型；僅4分鐘後，寒武紀便宣佈已完成對該模型的適配並開源相關推理引擎。這種近乎即時的步調一致，絕非偶然，演算法與晶片的同步登場，不再是矽谷的獨有節奏。中國AI產業正在用一場精心編排的協同演出，證明中國國產生態的成熟度。01 中國國產大模型與算力晶片的“神同步”2025年9月29日18:07，深度求索（DeepSeek）官宣發佈實驗性模型 DeepSeek-V3.2-Exp，引入自研稀疏注意力架構（DeepSeek Sparse Attention），顯著提升長文字處理效率並大幅降低推理成本。僅4分鐘後（18:11），寒武紀開發者公眾號宣佈：完成對該模型的適配並開源推理引擎vLLM-MLU程式碼，開發者可“第一時間體驗”新模型特性。這種精確到分鐘的協同，已遠超技術巧合，而是中國國產AI軟硬體生態深度繫結的戰略縮影。01 技術協同預先埋點的合謀表面上的“4分鐘響應”，實則是長期技術協作的結果。根據行業分析，像DeepSeek-V3.2這樣體量達到671GB的大模型，僅在理想條件下完成下載就需要8-10小時。而晶片與模型的適配涉及底層架構最佳化、算力資源匹配和相容性偵錯等複雜工作，絕非短時間內能夠完成。AI行業資深專家指出：“如此快速的適配響應，充分說明寒武紀早在DeepSeek-V3.2發佈前就已啟動適配研發，雙方在技術層面的溝通與協作早已悄然展開。”這種協同背後是深層次的技術融合。DeepSeek-V3.2-Exp引入的DeepSeek Sparse Attention（DSA）稀疏注意力機制，首次實現了細粒度稀疏注意力機制，在幾乎不影響模型輸出效果的前提下，大幅提升長文字訓練和推理效率。而寒武紀則通過Triton算子開發實現快速適配，利用BangC融合算子開發實現極致性能最佳化，基於計算與通訊的平行策略，達成業界領先的計算效率水平。02 軟硬體協同生態本次同步發佈的背後，是中國國產AI軟硬體生態的整體成熟。華為計算宣佈，昇騰已快速基於vLLM/SGLang等推理框架完成適配部署，實現DeepSeek-V3.2-Exp Day 0（第零天）支援，並向開發者開源所有推理程式碼和算子實現。華為雲更是首發上線了DeepSeek-V3.2-Exp，使用CloudMatrix 384超節點為該模型提供推理服務。這種協同效應不僅體現在效率上，更體現在性價比的實質性提升上。DeepSeek V3.2-Exp發佈後，API呼叫成本降低50%以上，使得更多開發者和中小企業能夠以更低成本使用頂尖水平的大模型。過去，中國國產晶片廠商常陷於“適配困境”——被動跟隨國際框架（如CUDA）更新介面，相容成本高且生態割裂。而2024年《國家人工智慧產業綜合標準化體系建設指南》的出台，首次系統性提出“軟硬體協同標準”，要求統一智能晶片介面、規範多硬體平台適配流程。《人工智慧異構加速器統一介面》國家標準強制要求晶片廠商開放指令集架構，使深度學習框架可跨平台無縫部署。這一頂層設計讓寒武紀等企業從“介面適配方”躍升為“標準制定方”，為DeepSeek模型的即時適配鋪平了道路。市場分析人士指出：“DeepSeek-V3.2最大的意義在於軟硬協同設計支援中國國產算力，全新DeepSeek Sparse Attention機制，疊加中國國產晶片的計算效率，可大幅降低長序列場景下的訓推成本。”需要注意的是儘管中國國產AI生態已初具規模，但挑戰猶存：TileLang等工具鏈的易用性仍不及CUDA，開發者生態需進一步下沉；全球競爭壓力下，Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求，對中國國產方案構成新挑戰。然而，當DeepSeek以UE8M0 FP8精度重新定義算力規則，當寒武紀以開放原始碼打破技術黑箱，中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調：“標準化的終極目標不是替代，而是重構全球AI生態的話語權分配。”03 協同模式下的AI產業新秩序DeepSeek與寒武紀等中國國產晶片廠商的高度協同，標誌著中國AI產業進入生態競爭新階段。這種協同不是偶然現象，而是產業鏈頭部企業面對國際競爭的戰略選擇。隨著AI向能源、交通、醫療等關鍵領域滲透，如果底層晶片、網路和系統長期依賴國外，就意味著命脈交到別人手裡。北京方案通過開放標準和統一相容，把崑崙芯、壁仞、太初元碁、摩爾執行緒等中國國產晶片和DeepSeek、豆包、文心一言、Kimi、Qwen等主流大模型拉入同一生態，確保中國國產AI有自己的“底座”和“話語權”。這種協同效應正在形成良性循環。中國國產晶片企業通過適配DeepSeek等先進模型，不斷提升自身在複雜AI任務中的處理能力；而大模型則借助晶片的最佳化實現更高效部署，擴大應用場景。申港證券分析認為：“隨著算力基礎設施的持續投入，中國國產算力在模型側和算力晶片方面或將持續突破，有望維持較好景氣度，展望中期，中國國產算力有望獲得領先於海外算力的增長彈性。”04 點評定義權的爭奪遠未終結儘管中國國產AI生態已初具規模，但挑戰猶存：TileLang等工具鏈的易用性仍不及CUDA，開發者生態需進一步下沉；全球競爭壓力下，Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求，對中國國產方案構成新挑戰。然而，當DeepSeek以UE8M0 FP8精度重新定義算力規則，當寒武紀以開放原始碼打破技術黑箱，中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調：“標準化的終極目標不是替代，而是重構全球AI生態的話語權分配。” (壹零社)

寒武紀、華為昇騰適配DeepSeek最新模型

9月29日，DeepSeek-V3.2-Exp模型正式在Hugging Face平台發佈並開源。模型引入稀疏 Attention 架構，這種架構能夠降低計算資源消耗並提升模型推理效率。據“華為計算”微信公眾號消息，昇騰已快速基於vLLM/SGLang等推理框架完成適配部署，實現DeepSeek-V3.2-Exp 0day支援，並面向開發者開源所有推理程式碼和算子實現。寒武紀在官方微訊號宣佈，已同步實現對深度求索公司最新模型DeepSeek-V3.2-Exp的適配，並開源大模型推理引擎vLLM-MLU原始碼。依託DeepSeek-V3.2-Exp帶來的全新DeepSeek Sparse Attention機制，疊加寒武紀的極致計算效率，可大幅降低長序列場景下的訓推成本。海光資訊同日宣佈其DCU實現無縫適配+深度調優，做到大模型算力“零等待”部署。海光資訊表示，基於GPGPU架構強大的生態優勢，與程式設計開發軟體棧DTK的特性，DeepSeek-V3.2-Exp在海光DCU上展現出優異的性能，同時驗證海光DCU高通用性、高生態相容度及自主可控的技術優勢。 (財聯社)

華為徐直軍：昇騰晶片是華為AI算力戰略的基礎

在最近舉行的華為全聯接大會上，華為輪值董事長徐直軍發表演講，他表示算力的基礎是晶片，而昇騰晶片是華為AI算力戰略的基礎。女士們、先生們，各位老朋友、新朋友，大家早安！歡迎來參加2025年華為全聯接大會，時隔一年，很高興能再次與大家相聚在上海。我想大家都能感受到，過去的一年對所有AI從業者、關注者來講是記憶深刻的一年，DeepSeek橫空出世，讓全國人民過了一個快樂的AI年，也讓所有大模型訓練者開啟了不知多少個不眠之夜，調整訓練方式，復現DeepSeek結果，當然也給我們帶來了巨大衝擊當然。從春節開始，到今年4月30日，經過多團隊的協同作戰，終於讓Ascend 910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前，請容許我回顧去年的HC，我講到如下幾點：第一、智慧化的可持續，首先是算力的可持續；第二、中國半導體製造流程將在相當長時間處於落後狀態；第三、可持續的算力只能基於實際可取得的晶片製造製程；第四、人工智慧成為主導性算力需求，促使運算系統正在發生結構性變化；第五、開創運算架構，打造「超節點+叢集」算力解決方案持續滿足算力需求。但第五點沒有展開講，本來想講，但我的團隊不同意。今天，我想利用此機會，來把我去年HC沒有完成的任務完成，也算是答案卷。我今天分享的主題是：「以開創的超節點互聯技術，引領AI基礎設施新範式」，也是回答去年HC提到的第五點：如何開創運算架構，打造「超節點+叢集」算力解決方案來持續滿足算力需求。在展開今天主題前，回到DeepSeek對產業界、對華為的衝擊，DeepSeek開源後，我們的客戶對華為的昇騰發展指出了很多問題，也充滿了期待，並一直在給我們不斷地提建議。為此，經過內部的充分討論並達成共識，我們於2025年8月5日在北京專門舉辦了昇騰產業峰會，我代表華為給出了回應，在座的有的參加了，有的可能沒有參加。今天，我也利用此機會就主要的決定來向大家報告。主要有四點：一、華為堅持昇騰硬體變現；二、CANN 編譯器和虛擬指令集介面開放，其它軟體全開源，CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成，未來開源開放與產品上市同步；三、Mind系列應用使能套件及工具鏈全面開源，並於2025年12月31日前完成；四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求，但要走向AGI、要走向實體AI，我們認為，算力，過去是，未來也將繼續是人工智慧的關鍵，更是中國人工智慧的關鍵。算力的基礎是晶片，昇騰晶片是華為AI算力戰略的基礎。自2018年發表Ascend 310晶片，2019年發表Ascend 910晶片，到2025年，Ascend 910C晶片隨著Atlas 900超節點規模部署，為大家所熟悉。在過去幾年，客戶和夥伴們對昇騰晶片有很多訴求，對昇騰晶片也有很多期待。面向未來，華為的晶片路標是如何規劃的？想必是大家普遍關心的話題，也可能是最關心的內容。因此，今天，我將直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家，昇騰晶片將持續演進，為中國乃至世界的AI算力構築堅固根基。未來3年，至2028年，我們在開發和規劃了三個系列，分別是Ascend 950系列，包括兩顆晶片：Ascend 950PR和Ascend 950DT，以及Ascend 960、Ascend 970系列，更多具體晶片還在規劃中。以下我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend 950系列。我先介紹Ascend 950系列的晶片架構，Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比，Ascend 950 在以下幾個方面實現了根本性提升。第一，新增支援業界標準FP8/MXFP8/MXFP4等低數值精確度資料格式，算力分別達到1P和2P，提升訓練效率與推理吞吐。並特別支援華為自研的HiF8，在維持FP8的高效率的同時，精準度非常接近FP16。第二，大幅度提升了向量算力。這主要透過三個面向實現：其一，提升向量算力佔比；其二，採用創新的新同構設計，即支援SIMD/SIMT 雙程式設計模型，SIMD能夠像流水線一樣處理「大塊」向量，而SIMT便於靈活處理「碎片化」資料；其三，把記憶體存取顆粒度從512字節減少到128個字節減少到128個字節，從而讓記憶體存取。第三，互聯頻寬相比Ascend 910C提升了2.5倍，達到2TB/s。第四，結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同，我們自研了兩種HBM，分別是：HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封，分別構成晶片Ascend 950PR：面向Prefill和推薦場景，以及Ascend 950DT：面向Decode和訓練場景。以下分別介紹。首先是我們的第一顆晶片，Ascend 950PR，主要面向推理Prefill階段和推薦業務場景。首先，我們發現，隨著Agent的快速發展，輸入上下文越來越長，首Token輸出階段佔用運算資源越來越多。其次是在電子商務、內容平台、社群媒體等業務應用中，要求推薦演算法具有更高的準確度和更低的時延，對運算能力的需求也越來越大。推理Prefill階段和推薦演算法都是運算密集型，對計算並行的能力要求高，但對記憶體存取頻寬的需求相對低。透過分級記憶體解決方案，推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。 Ascend 950PR 採用了華為自研的低成本HBM，HiBL 1.0，相比高性能、高價格的HBM3e/4e，能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年第一季推出，首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT，比起Ascend 950PR，它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高，我們開發了HiZQ 2.0，使記憶體容量達到144GB，記憶體存取頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次，支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體存取頻寬、記憶體容量、互聯埠數等各種規格上相比Ascend 950翻倍，大幅提升訓練、推理等情境的效能；同時也支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現，能進一步提升推理吞吐，並且比業界FP4方案的推理精度更優。Ascend 960將在2027年第四季推出。最後一顆是在規劃中的Ascend 970，這顆晶片的一些規格還在討論中。整體方向是，在各項指標上大幅升級，全面升級訓練和推理表現。目前的初步考量是，相較於Ascend 960，Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍，記憶體存取頻寬至少增加1.5倍。 Ascend 970計劃在2028年第四季推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標，總體上，我們將以幾乎一年一代算力翻倍的速度，同時圍繞更易用，更多數據格式、更高頻寬等方向持續演進，持續滿足AI算力不斷增長的需求。可以看到，相較於Ascend 910B/910C，從Ascend 950開始的主要變化包括：引進SIMD/SIMT新架構，提升程式設計易用性；支援更豐富的資料格式，包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等；支援更大的互聯頻寬，其中950系列為2TB/s，970系列提升到4TB/s；支援更大的算力，FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS；FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、9708 PFLOPS；記憶體容量逐漸加倍，而記憶體存取頻寬將翻兩番。有了以昇騰晶片為基礎，我們就能夠打造出滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向來看，超節點已經成為主導性產品形態，並且正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的計算機，物理上由多台機器組成，但邏輯上以一台機器學習、思考、推理。隨著算力需求的持續成長，超節點的規模也持續、快速增加。今年3月份，華為正式推出了Atlas 900超節點，滿配支援384卡。因為是超節點，這384顆Ascend 910C晶片，能夠像一台電腦一樣運作，最大算力可達300 PFLOPS。到目前為止，Atlas 900依然是全球算力最大的超節點。大家常聽到的CloudMatrix384超節點，是華為雲端基於Atlas 900超節點所建構的雲端服務實例。 Atlas 900超節點自上市以來，已累積部署超過300套，服務20多個客戶，涵蓋網路、電信、製造業等多個產業。可以說，Atlas 900於2025年，開啟了華為AI超節點的旅程。今天，結合我們已經推出或正在研發中的昇騰晶片，我將為大家帶來更多超節點和叢集產品。現在進入今天最令人興奮的時刻，就是新產品發布環節。今天我要發佈的第一款產品，Atlas 950超節點，基於Ascend 950DT打造。Atlas 950超節點支援8192張基於Ascend 950DT的昇騰卡，是Atlas 900超節點的20多倍，我們習慣稱呼的昇騰卡，每張卡對應一顆Ascend 950DT晶片，8192張昇騰卡等同於8192顆Ascend 950DT晶片。Atlas 950超節點滿配包括由128個計算櫃、32個互聯櫃，共160個機櫃組成，佔地面積1000平方米左右，櫃間採用全光互聯。總算力大幅提升，其中，FP8算力達8E FLOPS，FP4算力達16E FLOPS。互聯頻寬達到16PB/s，這個數字意味著，Atlas 950一個產品的總互聯頻寬，已經超過今天全球互聯網峰值頻寬的10倍有餘。Atlas 950超節點的上市時間是：2026年第四季。我們很自豪的看到，Atlas 950超節點，至少在未來多年都將保持是全球最強算力的超節點，並且在各項主要能力上都遠超業界主要產品。其中，相較於輝達同樣將在明年下半年上市的NVL144，Atlas 950超節點卡的規模是其56.8倍，總算力是其6.7倍，內存容量是其15倍，達到1152TB；互聯頻寬是其62倍，達到16.3PB/s。即使是與輝達計畫2027年上市的NVL576相比，Atlas 950超節點在各方面依然是領先的。算力、記憶體容量、記憶體存取速度、連網頻寬等能力的大幅增強，為大模型訓練效能和推理吞吐帶來顯著提升。相較於華為已推出的Atlas 900超節點，Atlas 950超節點的訓練效能提升17倍，達到4.91M TPS。透過支援FP4資料格式，Atlas 950超節點的推理效能提升達26.5倍，達到19.6M TPS。8192卡超節點並不是我們的終點，我們還在繼續努力。我今天發布的第二款超節點產品，Atlas 960超節點。基於Ascend 960，Atlas 960超節點最大可支援15488卡。 Atlas 960超節點由176個計算櫃，44個互聯櫃，共220個機櫃，佔地約2200平方公尺。Atlas 960超節點的上市時間是：2027年第四季。伴隨卡片的規模的再次升級，Atlas 960超節點讓我們在AI超節點的優勢再度增強。基於Ascend 960，其總算力、記憶體容量、連網頻寬在Atlas 950基礎上再翻倍。其中，FP8總算力將達到30E FLOPS，而FP4總算力將達到60 EFLOPS；記憶體容量達到4460TB，連網頻寬達到34PB/s。大模型訓練與推理的效能相比Atlas 950超節點，將分別提升3倍和4倍以上，達到15.9M TPS 和80.5M TPS。透過Atlas 950和Atlas 960，我們對於為人工智慧的長期快速發展提供永續且充裕算力，充滿信心。超節點已經重新定義AI基礎設施的範式，但不僅限於AI。在通用運算領域，我們也認為，超節點技術能夠帶來很大的價值。從需求角度考慮，金融核心業務等目前仍然有部分承載在大型機和小型機之上，相比普通伺服器叢集，它們對伺服器的性能和可靠性有更高的訴求，通用計算超節點在這兩點上正好切合需求。從技術角度考慮，超節點同樣可以為通算領域注入全新活力。因此，鯤鵬處理器主要圍繞支援超節點，更多核心、更高效能等方向持續演進。同時，透過自研的雙執行緒靈犀核，讓鯕鵬處理器能方便支援更多執行緒。2026年Q1，我們將推出Kunpeng 950處理器，包含兩個版本，分別是：96核心/192執行緒和192核心/384執行緒；支援通用運算超節點；安全性方面新增四層隔離，成為鯤鵬首顆實現機密運算的資料中心處理器。2028年Q1，鯤鵬處理器將在晶片微架構、先進封裝技術等領域持續突破關鍵技術，將再次推出兩個版本，分別是高效能版本，96核心/192線程，單核心效能提升50%+，主要面向AI host、資料庫等場景。以及高密版本，不少於256核心/512線程，主要面向虛擬化、容器、大數據、數倉等場景。接下來是今天我發布的第三款產品：TaiShan 950超節點，基於Kunpeng 950打造，全球首個通用運算超節點，其最大支援16節點，32個處理器，最大記憶體48TB，同時支援記憶體、SSD、DPU池化。這款產品不只是通用運算領域的技術升級，除了大幅提升通用運算場景下的業務效能，還能幫助金融系統破解核心難題。目前大型主機、小型主機替換的核心挑戰是資料庫分散式改造，而基於TaiShan 950超節點打造的GaussDB多寫架構，無需改造，但效能提升2.9 倍，最終可平滑取代大型主機、小型主機上的傳統資料庫。 TaiShan 950加上分散式GaussDB將成為各類大型主機、小型主機的終結者，徹底取代各種應用場景的大型主機和小型主機以及Oracle的Exadata資料庫伺服器。除了核心資料庫場景，TaiShan 950超節點在更廣泛的場景裡，表現也很亮眼：例如虛擬化環境的記憶體利用率提升20%，在Spark大數據場景，即時資料處理時間縮短30%。TaiShan 950超節點上市時間是：2026年一季度，敬請期待。超節點的價值，不僅體現在智算和通算傳統業務領域。網路產業廣泛應用的推薦系統，正從傳統推薦演算法向生成式推薦系統演進。我們可以基於TaiShan 950和Atlas 950打造成混合超節點，為下一代生成式推薦系統開啟全新架構方向。一方面，透過超大頻寬、超低時延互聯以及超大內存，混合超節點構成超大共享內存池，支援PB級推薦系統嵌入表，從而支撐超高維度用戶特徵；另一方面，混合超節點的超大AI算力，能夠支援超低時延推理和特徵檢索。因此，混合超節點是下一代生成式推薦系統的解決方案的全新選擇。大規模超節點把智算和通算的能力都推向新的高度，同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者，當然不畏挑戰。在定義和設計Atlas 950、Atlas 960兩個超節點的技術規格時，我們遭遇了連網技術的巨大挑戰，主要在兩個方面：第一是如何做到長距離而且高可靠。大規模超節點機櫃多，櫃間聯接距離長，目前電互聯和光互聯技術都無法滿足需求。其中，目前的電互聯技術在高速時聯接距離短，最多隻能支援兩櫃互聯，而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起，但無法滿足可靠性需求。第二是如何做到大頻寬而且低時延。目前跨櫃卡間連帶寬低，和超節點的需求差距達5倍；跨櫃的卡間時延大，當前互聯技術最好只能做到3微秒左右，和Atlas 950/960設計需求仍然有24%的差距，當時延已經低至2~3個微秒時，已經提升物理極限，那0.1微秒的挑戰都很大。華為基於三十多年構築的技術能力，透過系統性創新，徹底解決了當前技術存在的問題，超標達成Atlas 950/960超節點的設計需求，使萬卡超節點成為可能。首先，為瞭解決長距離且高可靠問題，我們在互聯協議的物理層、數據鏈路層、網絡層、傳輸層等每一層都引入了高可靠機制；同時在光路引入了百納秒級故障檢測和保護切換，當出現光模組閃斷或故障時，讓應用無感；並且，我們重新定義和設計了光器件、光模組和互聯器件。這些創新與設計讓光互聯的可靠性提升100倍，互聯距離超過200米，實現了電的可靠與光的距離。其次，為瞭解決大頻寬且低時延問題，我們突破了多埠聚合與高密封裝技術，以及平等架構和統一協議，實現了TB級的超大頻寬，2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新，我們才攻克了超節點互聯技術，滿足了高可靠、全光互聯、高頻寬、低時延的互聯要求，讓大規模超節點成為了可能。為了達成Atlas 950/960超節點對互聯的技術要求，為了實現萬卡超節點還能是一台計算機，華為開創了超節點架構並開創了新型的互聯協議，能夠支撐萬卡級超節點架構。基於這個互聯協議的超節點架構的核心價值主張是：萬卡超節點，一台計算機，也就是說，透過該互聯協議，把數萬規模的計算卡，聯接成一個超節點，能夠像一台計算機一樣工作、學習、思考、推理。在技術上，我們總結認為，萬卡級超節點架構應該具備6個特徵，分別是匯流排級互聯、平等協同、全量池化、協定歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協定取名為“靈衢”，英文名稱：UB，UnifiedBus今天，我們正式發布靈衢、UnifiedBus，一個超節點的互聯協定。同時，我宣佈，華為將開放靈衢2.0技術規格。為什麼從靈衢2.0開始開放？事實上，靈衢的研究是從2019年開始的，因為眾所周知的原因，先進製程不可取得，我們需要從多晶片上突破，希望把更多的運算資源連結在一起。我們取了一個名字叫UnifiedBus，簡稱UB，中文名字“靈衢”，意味著類似九省通衢，實現大規模算力的聯通。基於靈衢 1.0 的Atlas 900超節點自2025年3月開始交付，至今已商用部署300多套，靈衢1.0技術已充分驗證。在靈衢1.0的基礎上，我們繼續豐富功能，優化性能，提升規模，進一步完善了協議，形成了靈衢2.0，前面發布的Atlas 950超節點就是基於靈衢2.0。我們認為靈衢2.0具備了開放的條件，為了更廣泛地促進互聯技術發展和產業進步，今天華為決定開放靈衢2.0技術規範，歡迎產業界夥伴基於靈衢研發相關產品和部件，共建靈衢開放生態。我在去年HC會上強調過，基於中國可獲得的晶片製造工藝，我們努力打造「超節點+叢集」算力解決方案，來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生，是針對超節點的互聯協議，也是建構算力群集產品最優的互聯技術。接下來為大家帶來兩個叢集產品：首先是，Atlas 950 SuperCluster 50萬卡叢集！Atlas 950 SuperCluster叢集由64個Atlas 950超節點互聯組成，把1萬多機櫃中的52萬多片昇騰950DT組成一個整體，FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步，即2026年Q4。在群集網路上，我們同時支援UBoE與RoCE兩種協議，UBoE是把UB協定承載在乙太網路上，讓客戶利用現有乙太交換器。相較於傳統RoCE，UBoE組網的靜態時延更低、可靠性更高，交換器和光模組數量都更節省，所以，我們推薦UBoE。這就是我們的Atlas 950 SuperCluster叢集。相較於目前世界最大的叢集xAI Colossus，規模是其2.5倍，算力是其1.3倍，是當之無愧的全世界最強算力叢集！無論是當下主流的千億稠密、稀疏大模型訓練任務，還是未來的兆、十兆大模型訓練，超節點叢集都可以成為性能強悍的算力底座，高效穩定地支援人工智慧持續創新。對應的，在2027年Q4，我們也將基於Atlas 960超節點，同步推出Atlas 960 SuperCluster，叢集規模進一步提升到百萬卡級，FP8總算力達到2 ZFLOPS！ FP4總算力達4 ZFLOPS。並且，它同樣也支援UBoE與RoCE兩種協議，在UBoE協議加持下，性能與可靠性同樣更優，並且，靜態時延和網絡無故障時間優勢進一步擴大，因此繼續推薦UBoE組網。透過Atlas 960 SuperCluster，我們將持續加速客戶應用創新，探索智慧水準新高。很高興今天為大家帶來一系列新產品，我們希望和產業界一起，以開創的靈衢超節點互聯技術，引領AI基礎設施新範式；以基於靈衢的超節點和叢集持續滿足算力快速增長的需求，推動人工智慧持續發展，創造更大的價值，謝謝！（礦石商業評論）