#昇騰
中國超節點雙雄對決:昇騰384 & scaleX640底牌盡出!
熱度最高的兩大中國國產超節點終於同框出鏡。近日,出自華為的昇騰384與曙光scaleX640超節點,在2025世界計算大會首次毗鄰展出。前者圍繞華為全端技術閉環高度整合384張昇騰加速卡,被視為垂直整合路線里程碑之作;後者基於AI運算開放架構設計,以業界首個單機櫃級640卡超節點反超,展現出開放協同路線的蓬勃潛力。兩大路線迥異的超節點產品「面對面」互飆實力,成為本屆大會的關鍵亮點之一。有業內人士指出,前有昇騰384「以網補算」換道超車輝達,再有scaleX640在算力規模、密度、能效領域全面領航突破,國產超節點正在你追我趕中重塑中國計算系統的全球競爭力。六項指標飆升,國產超節點馬力全開!從昇騰384年中首次亮相,到曙光scaleX640年尾的漂亮收官,國產超節點接連打破業界記錄,在關鍵性指標上飆升加速度。這次兩大代表產品同框,將此進展體現到了極致。數據顯示,昇騰384 超節點以384 張昇騰算力卡組成一個超節點,可提供高達300PFLOPs 的密集BF16 算力,接近輝達GB200NVL72 系統的兩倍。彼時,華為特別強調了"超節點+叢集"策略,透過Atlas900SuperCluster 實現業界最大規模的高速匯流排互聯。相較於昇騰384的珠玉在前,scaleX640進一步實現單機櫃640張加速卡整合,並基於「一拖二」的高密架構組成雙scaleX640超節點(可達1280卡計算單元),FP16/BF16算力突破至昇騰384的2.1倍率當然,超節點的本質是讓叢集系統像一台電腦有效運作,考慮的不僅是算力卡的堆疊程度,其算力密度和整體能效也是系統最佳化過程中的重要版圖。內先進水平根據會上展出訊息,昇騰384單機櫃可搭載32張昇騰910C NPU(共12個機櫃),低至1.12的PUE值及800伏高壓直流(HVDC)供電技術,將功耗能源效率提升至業界先進水準。1. 算力密度scaleX640單機櫃640卡將算力密度提升了整整20倍,而解決散熱問題的關鍵在於全球頂尖的浸沒相變液冷技術,其PUE值降低到了1.04,配備400/800MW的超散熱能力供電,可以為千卡級計算單元提供高達1.72MW的超級散熱能力。2. 記憶體頻寬此外,國產超節點在HBM記憶體頻寬和記憶體容量上表現出明顯的遞進趨勢。其中,昇騰384記憶體頻寬為1229 TB/s,總記憶體達49.2 TB;曙光scaleX640記憶體頻寬為2304 TB/s,總記憶體容量81.9 TB。後者兩項指標分別達到前者的1.7倍、1.9倍。3. 國產計算至此,兩大超節點產品在關鍵指標對壘交出超分答案。尤其scaleX640在昇騰384領先輝達的基礎上再進一階,彰顯了國產計算叢集可持續迭進的澎湃動能。兩大路線並進,華為與曙光仍有底牌?從技術路線特性來看,昇騰384採用了典型的「蘋果係」垂直整合模式,主要由單一巨頭廠商為主導,建構獨立的生態閉環。scaleX640則是「Android系」超節點玩家的代表,追求全端開放協同共贏。兩大路線你追我趕構成了國產計算叢集主流發展圖景。儘管昇騰384在技術路線競跑中被暫時趕超,但在此次大會同台競技中,華為方面正掏出一張張新底牌,試圖在下一程「萬卡級」賽道迎頭趕上。據悉,所謂「Android系」之於「蘋果係」的主要優勢在於生態相容能力。如scaleX640基於AI運算開放架構,適配支援多品牌AI加速卡,可以提供使用者更多彈性選擇。並且,該產品全面相容主流AI運算生態,適配優化了400+主流大模型,能夠支援AI模型、業務應用快速無縫遷移與深度優化,對於AI用戶的高效部署上線需求具備天然的吸引力。為了在算力閉環內實現極致協同,彌補與前者的相容性、擴展性差距,華為方面緊急上線了Flex:ai技術,聚合叢集內空閒XPU算力聚合形成「共享算力池」。業界認為,此項技術本質上是透過軟體創新來實現算力資源的統一管理與利用,進而遮蔽算力硬體的差異。值得一提的是,華為近期也預告了下一步Atlas 950 超節點計畫。該產品支援8192 張基於Ascend 950DT的昇騰卡,可擴展至上一代超節點的20多倍,預計將於2026年Q4上市。面對華為方面一年後下定的“戰書”,曙光似乎正在提前鎖定萬卡級超節點目標。業界傳聞稱,基於scaleX640和1280千卡計算單元,曙光或將在年內進一步推出「萬卡計算叢集」。有人猜測,“很可能就在12月末,開放式超節點路線或將率先奪得全球萬卡級計算高地。”這一番底牌頻出的“高手過招”,儼然將國產大算力熱度推向了極致。可以明顯看出,兩大主流技術路線在輪動迭進中不斷提速,從算力規模、整合密度到功耗能效、內存頻寬,乃至生態層面的全方位比拚下,中國算力正以更積極的姿態衝擊全球計算產業鏈頂端。 (AI雲原生智慧算力架構)
5兆輝達回頭看:「寒武紀們」被低估了嗎?
人類歷史上第一家5兆市值公司誕生了。這個數字,超過了德國或英國一年的GDP,比A股所有「中」字頭股票的市值總和還要多。而創造這個奇蹟的,是一家在三十年前還只是在電腦城裡「賣顯示卡」的公司-輝達(NVIDIA)。作為AI的“賣鏟人”,輝達在人類對於人工智慧近乎宗教般的狂熱夢想中,一路高歌猛進。短短兩年時間,它的市值從1兆沖到5兆,其增長速度本身,就構成了這個時代最魔幻的註腳。很顯然,今天它當然不只賣鏟子。如果說上一輪的科技浪潮,是蘋果定義了「移動互聯網」的入口;那麼在這一輪波瀾壯闊的「智慧革命」中,輝達幾乎成為了整個AI世界的「中樞神經」和「唯一入口」。晶片,是鏟子、是石油、是電力……是人類關於Matrix所有想像的實體底座。沒有輝達的GPU,就沒有ChatGPT的橫空出世,就沒有Sora的以假亂真,就沒有今天我們談論的一切「大模型」。在輝達沖上5兆的時刻,我問一位在AI行業的朋友,這家公司有泡沫嗎?他幾乎是即時地回答我:目前看不到任何泡沫的跡象。其實也可以理解。為什麼?因為全世界的公司,從Google、微軟、OpenAI這樣的巨頭,到成千上萬試圖在AI浪潮中淘金的創業公司,都在排著隊,揮舞著現金,只為求購英VIDIA的H100或B200晶片。這種「剛性需求」的強烈程度,堪比沙漠中的淘金者對水的渴望。我在上個月給經濟觀察報的專欄文章《輝達進化論:當AI賣鏟人開始淘金》裡就寫道,這位最成功的“賣鏟人”,已經不再滿足於僅僅是提供工具本身。它正在從一個單純的硬體供應商,變成了一個與AI浪潮核心玩家深度綁定的利益共同體。這是一個完美的商業閉環。但即便如此,中國也不是沒有機會。當地緣政治的鐵幕落下,黃仁勳不久之前已經放話,中國高階AI晶片市場的佔有率「已經是0%。然而,中國作為唯一能在AI領域與對岸叫板的龐大市場,其需求並不會因此消失。一個巨大的真空地帶形成了。於是,「國產替代」從一個可選項,變成了唯一的必選項,風起雲湧。那麼,一個更貼近我們自身的問題是:當輝達創下5兆市值的歷史豐碑時,我們到底該如何給「寒武紀」們估值?A股市場上的這些AI晶片公司,如寒武紀、景嘉微、海光資訊…它們是真正的“潛力股”,還是只是這場盛宴中被高估的“氣氛組”?最近,我正在重溫估值大師達摩·達蘭(Aswath Damodaran)的經典之作《故事與估值》一書。達蘭教授的核心觀點是,所有估值的本質,都是「故事」與「數字」的結合。從這個視角,或許能夠幫助我們更能理解,中國AI晶片產業的未來,以及那些看似「昂貴」的股價背後,究竟隱藏著怎樣的邏輯。01. 兆估值煉金術首先,我們必須弄清楚,輝達的5兆估值,這套「煉金術」是怎麼來的?如果只是看財務“數字”,輝達的表現當然是驚人的。我們來看一組它「印鈔機」業務-資料中心的財務資料:連續幾個季度,營收年增超過200%甚至400%,毛利率直逼80%。這是什麼概念?這意味著輝達賣一塊晶片的利潤空間,比蘋果賣一部iPhone還要高得多。這根本不是硬體生意,這是「壟斷稅」。但僅僅是這些“數字”,還不足以支撐起5兆的龐大帝國。真正讓輝達「點石成金」的,是它那個強大到令人窒息的「故事」——CUDA。CUDA是什麼?這是理解輝達護城河的關鍵。我們可以打一個通俗的比方:輝達的GPU晶片是“引擎”,就像電腦上的Windows或蘋果的iOS,CUDA就是一套獨一無二的“操作系統”。在CUDA出現之前,GPU雖然計算能力很強,但非常難用。開發者想用它來做AI計算,不亞於要用文言文寫代碼,門檻極高。而輝達在近二十年前就開始佈局,推出了CUDA。這套「操作系統」提供了一個相對易用的程式設計平台,讓全球數百萬的開發者能夠用更熟悉的“白話文”(C++、Python等語言)來指揮GPU這台“發動機”,去完成複雜的AI訓練和推理任務。當Windows和iOS透過「應用商店」鎖定了所有使用者和開發者時,輝達也透過CUDA「鎖定」了全球所有的AI人才。這種「硬體(GPU)+軟體(CUDA)」的組合拳,才是其真正的護城河。它導致了極高的“遷移成本”。什麼叫遷移成本?想像一下,你所有的AI研究成果、所有的程式碼、你團隊裡所有工程師的技能,都是基於CUDA這個「操作系統」建立的。現在,另一家公司(如AMD或寒武紀)造出了一款新晶片,就算它的「引擎」性能和輝達一樣強,甚至價格還便宜一半,你敢用嗎?你不敢。因為你的「Windows」應用,無法在「Android」系統上運作。你必須把過去十年的程式碼全部重寫,你必須讓你的工程師團隊重新學習一套全新的「語言」。這個成本,遠遠高於你省下的那點晶片錢。這就是「網絡效應」:越多人用CUDA,為CUDA開發的工具和教學就越多;工具越多,就有越多的大學開始教CUDA;教CUDA的大學越多,畢業後懂CUDA的工程師就越多;懂CUDA的工程師越多,企業就越傾向於選擇輝達的晶片…這是一個完美的正向循環,也是一個讓所有競爭對手絕望的「生態壁壘」。因此,輝達的估值,早已不僅是對其當前「數字」(獲利能力)的計算,更是對它未來在AI世界「唯一入口」和「事實標準」地位的「故事」定價。而華爾街相信的,是輝達在未來十年,都將持續向全世界收取高昂的「AI稅」。02. 夾縫中的新大陸現在,我們把目光轉回中國。地緣政治的賽局和供應鏈的限制,為中國本土的AI晶片廠商,意外地打開了一個「夾縫中的新大陸」。當輝達最先進的H100、B200晶片被一紙禁令攔在海關之外時,一個規模高達千億等級、並且仍在高速增長的龐大市場,被動地「讓」了出來。這個市場有多大?根據信通院等機構的測算,光是2024年,中國大模型市場對高階AI晶片的需求就可能超過50萬張,未來幾年的複合成長率驚人。這本應是輝達最肥美的“蛋糕”,現在,它只能眼睜睜地看著。這對寒武紀、華為昇騰、阿里平頭哥、壁仞科技、摩爾執行緒等所有本土玩家來說,是前所未有的歷史機會期。它們面對的,是幾乎沒有外部競爭、需求又極其確定的「溫室市場」。然而,這片「新大陸」並非坦途,甚至可以說是荊棘叢生。本土廠商面臨的核心挑戰,已經從“能不能造出晶片”,轉向了“造出的晶片有沒有人用”。在過去,我們評斷一款晶片,主要看PPA,也就是性能(Performance)、功耗(Power)、面積(Area)。我們的目標是創造一款在性能上接近輝達,同時功耗和成本更低的「平替」產品。但現在,所有人都明白了,沒有對標CUDA的成熟軟件棧,再強的晶片也只是“屠龍之技”,是中看不中用的“擺設”。國內的科技巨頭,如阿里、騰訊、百度、字節跳動,它們囤積的輝達晶片總有耗盡的一天。它們急需“國產替代”,但它們的需求也非常苛刻:這款國產晶片,必須能“用起來”,不能讓我的演算法工程師們把代碼全重寫一遍。於是,我們看到,所有國產AI晶片的頭部玩家,都把戰場從“硬體”轉向了“軟件”,試圖構建自己的“朋友圈”和“護城河”。目前,牌桌上主要有兩種流派:第一種,以華為昇騰(Ascend)為代表的「全端模式」。華為的打法,是複製一個「垂直整合」的生態。它不但有自己的昇騰晶片(硬體),還有自己的CANN(對標CUDA的底層軟體棧),甚至還有自己的MindSpore(對標PyTorch的AI框架)。這種模式的好處是控制力強,可以集中力量辦大事,實現內部的完美優化。缺點也同樣明顯:它相對“封閉”,是在試圖建立另一個“蘋果iOS”,要求開發者全面擁抱華為的技術體系。第二種,以寒武紀(MagicJian)為代表的「開放追趕模式」。寒武紀的定位更像是“中國的輝達”,它專注於做好晶片(硬體),同時提供一套名為MagicJian的軟件棧。它試圖更廣泛地去適配且相容主流的AI框架(如PyTorch),努力降低開發者的「遷移成本」。它的挑戰在於,作為一個體量遠小於華為的「中立」廠商,它是否有足夠的資源和號召力,去吸引開發者用它的「語言」?這場競賽的勝負手,已經不在於短期內誰的晶片跑分更高,而在於誰能更快地建構起一個「可用、易用、開發者願意用」的軟體生態,去承接這個因禁令而「溢出」的龐大市場。03. 從計算,到信念最後,讓我們回到最初的問題:寒武紀們被低估了嗎?如果我們嚴格按照達摩·達蘭的估值模型,只用「計算」的眼光去看的話,比如根據它們當下的出貨量、微薄的利潤率(甚至是大額虧損),以及高得離譜的市銷率(P/S),這些仍在追趕和巨額投入期的公司,其估值似乎根本無法支撐,泡沫明顯。以寒武紀為例,市值數百億人民幣,但年收入可能只有幾十億,而且仍在虧損。如果用傳統製造或半導體公司的標準來看,這無疑是昂貴的。但資本市場定價的,從來都不僅僅是“現在”,更是“未來”。對於A股的本土AI晶片股而言,它們的估值,本質上已經脫離了傳統「計算」的範疇,轉而成為一個「信念題」。這個「信念」包含幾個非常具體且層層遞進的層面:第一層信念:對「國產替代必然性」的信念。這是最基礎的信念。市場相信,無論主動或被動,中國AI產業對本土晶片的採購將是剛性的、不可逆的。地緣政治的「高牆」越高,這層信念就越牢固。因為所有人都明白,沒有底層的算力自主,一切「智慧強國」的宏圖都是沙上建塔。這為本土晶片提供了一個確定性極高的「保底」市場。第二層信念:對「中國AI市場長期成長」的信念。光有「替代」還不夠,這個「被取代」的市場必須夠大。市場相信,中國龐大的數字化經濟體量、海量的資料、豐富的應用場景,將共同催生一個不亞於北美的AI市場。從大模型、自動駕駛、生物醫藥到智慧製造,每個領域都是兆級的賽道。這個龐大的增量,為本土晶片提供了足夠高的「天花板」。第三層信念,也是最核心、最脆弱的信念:對「本土生態終將完成」的信念。這才是決定估值「是泡沫還是鑽石」的關鍵。市場在用幾百億、上千億的市值,去「賭」一個可能性:在華為、寒武紀或其他玩家中,至少會有一家,能夠克服萬難,最終建構起一個足以對標CUDA、能夠讓中國數百萬開發者順暢使用的軟件生態。為什麼說這層信念最脆弱?因為它不是必然的。它需要巨額的、持續十數年的研發投入,需要頂級的戰略耐心,需要龐大的工程師團隊夜以繼日地去“填坑”,更需要下游的客戶和開發者“用腳投票”,願意忍受早期產品的不完善,一起“共建”這個生態。因此,短期來看,寒武紀們的估值,反映的就是市場對這第三層信念的「搖擺」。當市場情緒樂觀時,比如華為昇騰又有了新突破,或者寒武紀適配了某款熱門大模型,大家覺得“生態好像快成了”,股價就會飆升,因為市場願意為這個“中國版CUDA”的遠景支付高額溢價。當市場情緒悲觀時,例如財報虧損擴大,或者某個技術難關遲遲無法攻克,大家又會退回到“計算”模式,覺得“故事講不通了”,股價就會暴跌。所以,討論“低估”還是“高估”,已經意義不大。我們必須明白,給這些公司估值,本質上不是在「計算」一家公司的當前價值,而是在「押注」一個國家產業突圍的機率。04. 生態,終局的博弈當輝達的市值沖向5萬美元時,它早已不是一家單純的硬體公司,它是一個「生態帝國」。而對於「寒武紀」來說,它們從誕生之日起,就註定了無法成為一家「小而美」的晶片設計公司。它們背負的宿命,就是要在中國這片土地上,重建一個獨立自主的AI「生態」。這是一場九死一生的豪賭,也是一場沒有退路的戰爭。從這個角度來看,寒武紀們的估值,目前仍然是一個「信念題」。這個信念,建立在地緣政治的「高牆」和中國市場的「縱深」之上。但信念無法永遠脫離現實。未來三到五年,將是國內AI生態的「攤牌期」。如果本土廠商無法提供真正「可用」的工具鏈,那麼國內的AI產業發展將被迫降速,甚至停滯,這個「信念」的基礎也就不復存在。反之,如果我們能在這場「夾縫」中,真的培育出一個或幾個開放、繁榮、足以對抗封鎖的AI新生態——那怕這個生態運轉的效率可能只有CUDA的70%或80%——那麼,今天我們看到的幾百億、幾千億市值,或許都還只是一個開始。 (深水研究)
突破!DeepSeek新模型適配中國國產AI晶片!
中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日,深度求索(DeepSeek)公司正式開源發佈DeepSeek-V3.2-Exp大語言模型,其創新的稀疏注意力架構(DSA)顯著提升長文字處理效率。與此同時,華為昇騰計算產業生態宣佈實現對該模型的“0day支援”,基於vLLM/SGLang等主流推理框架完成全套適配部署,並向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp作為實驗性版本,首次引入細粒度稀疏注意力機制(DSA),在保持與V3.1-Terminus相當性能的前提下,顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦,有效降低了長文字處理的計算複雜度和記憶體佔用。華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer(LI)與Sparse Flash Attention(SFA),進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化,全面提升計算效率。在CANNAI平台上,昇騰完成了對應的最佳化適配,整體部署策略沿用DeepSeek的大EP平行方案,並針對稀疏DSA結構疊加實現長序列親和的CP平行策略,兼顧時延和吞吐。實測資料顯示,在128K長序列環境下,最佳化後的模型在昇騰硬體上能夠保持TTFT(首令牌響應時間)低於2秒、TPOT(每個令牌輸出時間)低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。為進一步簡化開發流程,昇騰CANN首次推出大融合算子程式設計體系PyPTO,該框架創新性地採用PTO程式設計範式,以Tensor為基本資料表達方式,建構計算圖,實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發,僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。除了華為昇騰,寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配,展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出,DeepSeek已成為中國國產開源模型的重要標竿,其快速迭代正推動著中國國產晶片標準的確立。華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作,基於稀疏Attention結構疊加實現長序列親和的上下文平行策略,最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業和開發者提供模型體驗和API服務。DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配,標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟,以及中國國產算力生態的不斷完善,中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)
DeepSeek與寒武紀的“4分鐘協同”,中國國產AI的默契合謀
9月29日傍晚,AI業界上演了一場精彩的“默契配合”。18:07,DeepSeek官方宣佈發佈DeepSeek-V3.2-Exp模型;僅4分鐘後,寒武紀便宣佈已完成對該模型的適配並開源相關推理引擎。這種近乎即時的步調一致,絕非偶然,演算法與晶片的同步登場,不再是矽谷的獨有節奏。中國AI產業正在用一場精心編排的協同演出,證明中國國產生態的成熟度。01 中國國產大模型與算力晶片的“神同步”2025年9月29日18:07,深度求索(DeepSeek)官宣發佈實驗性模型 DeepSeek-V3.2-Exp,引入自研 稀疏注意力架構(DeepSeek Sparse Attention) ,顯著提升長文字處理效率並大幅降低推理成本。僅4分鐘後(18:11),寒武紀開發者公眾號宣佈:完成對該模型的適配並開源推理引擎vLLM-MLU程式碼,開發者可“第一時間體驗”新模型特性。這種精確到分鐘的協同,已遠超技術巧合,而是 中國國產AI軟硬體生態深度繫結的戰略縮影。01 技術協同 預先埋點的合謀表面上的“4分鐘響應”,實則是長期技術協作的結果。根據行業分析,像DeepSeek-V3.2這樣體量達到671GB的大模型,僅在理想條件下完成下載就需要8-10小時。而晶片與模型的適配涉及底層架構最佳化、算力資源匹配和相容性偵錯等複雜工作,絕非短時間內能夠完成。AI行業資深專家指出:“如此快速的適配響應,充分說明寒武紀早在DeepSeek-V3.2發佈前就已啟動適配研發,雙方在技術層面的溝通與協作早已悄然展開。”這種協同背後是深層次的技術融合。DeepSeek-V3.2-Exp引入的DeepSeek Sparse Attention(DSA)稀疏注意力機制,首次實現了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,大幅提升長文字訓練和推理效率。而寒武紀則通過Triton算子開發實現快速適配,利用BangC融合算子開發實現極致性能最佳化,基於計算與通訊的平行策略,達成業界領先的計算效率水平。02 軟硬體協同生態本次同步發佈的背後,是中國國產AI軟硬體生態的整體成熟。華為計算宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並向開發者開源所有推理程式碼和算子實現。華為雲更是首發上線了DeepSeek-V3.2-Exp,使用CloudMatrix 384超節點為該模型提供推理服務。這種協同效應不僅體現在效率上,更體現在性價比的實質性提升上。DeepSeek V3.2-Exp發佈後,API呼叫成本降低50%以上,使得更多開發者和中小企業能夠以更低成本使用頂尖水平的大模型。過去,中國國產晶片廠商常陷於“適配困境”——被動跟隨國際框架(如CUDA)更新介面,相容成本高且生態割裂。而2024年《國家人工智慧產業綜合標準化體系建設指南》的出台,首次系統性提出“軟硬體協同標準”,要求統一智能晶片介面、規範多硬體平台適配流程。《人工智慧異構加速器統一介面》國家標準強制要求晶片廠商開放指令集架構,使深度學習框架可跨平台無縫部署。這一頂層設計讓寒武紀等企業從“介面適配方”躍升為“標準制定方”,為DeepSeek模型的即時適配鋪平了道路。市場分析人士指出:“DeepSeek-V3.2最大的意義在於軟硬協同設計支援中國國產算力,全新DeepSeek Sparse Attention機制,疊加中國國產晶片的計算效率,可大幅降低長序列場景下的訓推成本。”需要注意的是儘管中國國產AI生態已初具規模,但挑戰猶存:TileLang等工具鏈的易用性仍不及CUDA,開發者生態需進一步下沉;全球競爭壓力下,Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求,對中國國產方案構成新挑戰。然而,當DeepSeek以UE8M0 FP8精度重新定義算力規則,當寒武紀以開放原始碼打破技術黑箱,中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調:“標準化的終極目標不是替代,而是重構全球AI生態的話語權分配。”03 協同模式下的AI產業新秩序DeepSeek與寒武紀等中國國產晶片廠商的高度協同,標誌著中國AI產業進入生態競爭新階段。這種協同不是偶然現象,而是產業鏈頭部企業面對國際競爭的戰略選擇。隨著AI向能源、交通、醫療等關鍵領域滲透,如果底層晶片、網路和系統長期依賴國外,就意味著命脈交到別人手裡。北京方案通過開放標準和統一相容,把崑崙芯、壁仞、太初元碁、摩爾執行緒等中國國產晶片和DeepSeek、豆包、文心一言、Kimi、Qwen等主流大模型拉入同一生態,確保中國國產AI有自己的“底座”和“話語權”。這種協同效應正在形成良性循環。中國國產晶片企業通過適配DeepSeek等先進模型,不斷提升自身在複雜AI任務中的處理能力;而大模型則借助晶片的最佳化實現更高效部署,擴大應用場景。申港證券分析認為:“隨著算力基礎設施的持續投入,中國國產算力在模型側和算力晶片方面或將持續突破,有望維持較好景氣度,展望中期,中國國產算力有望獲得領先於海外算力的增長彈性。”04 點評 定義權的爭奪遠未終結儘管中國國產AI生態已初具規模,但挑戰猶存:TileLang等工具鏈的易用性仍不及CUDA,開發者生態需進一步下沉;全球競爭壓力下,Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求,對中國國產方案構成新挑戰。然而,當DeepSeek以UE8M0 FP8精度重新定義算力規則,當寒武紀以開放原始碼打破技術黑箱,中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調:“標準化的終極目標不是替代,而是重構全球AI生態的話語權分配。” (壹零社)
華為徐直軍:昇騰晶片是華為AI算力戰略的基礎
在最近舉行的華為全聯接大會上,華為輪值董事長徐直軍發表演講,他表示算力的基礎是晶片,而昇騰晶片是華為AI算力戰略的基礎。女士們、先生們,各位老朋友、新朋友,大家早安!歡迎來參加2025年華為全聯接大會,時隔一年,很高興能再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI年,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果,當然也給我們帶來了巨大衝擊當然。從春節開始,到今年4月30日,經過多團隊的協同作戰,終於讓Ascend 910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前,請容許我回顧去年的HC,我講到如下幾點:第一、智慧化的可持續,首先是算力的可持續;第二、中國半導體製造流程將在相當長時間處於落後狀態;第三、可持續的算力只能基於實際可取得的晶片製造製程;第四、人工智慧成為主導性算力需求,促使運算系統正在發生結構性變化;第五、開創運算架構,打造「超節點+叢集」算力解決方案持續滿足算力需求。但第五點沒有展開講,本來想講,但我的團隊不同意。今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答案卷。我今天分享的主題是:「以開創的超節點互聯技術,引領AI基礎設施新範式」,也是回答去年HC提到的第五點:如何開創運算架構,打造「超節點+叢集」算力解決方案來持續滿足算力需求。在展開今天主題前,回到DeepSeek對產業界、對華為的衝擊,DeepSeek開源後,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,並一直在給我們不斷地提建議。為此,經過內部的充分討論並達成共識,我們於2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定來向大家報告。主要有四點:一、華為堅持昇騰硬體變現;二、CANN 編譯器和虛擬指令集介面開放,其它軟體全開源,CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;三、Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向實體AI,我們認為,算力,過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。自2018年發表Ascend 310晶片,2019年發表Ascend 910晶片,到2025年,Ascend 910C晶片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和夥伴們對昇騰晶片有很多訴求,對昇騰晶片也有很多期待。面向未來,華為的晶片路標是如何規劃的?想必是大家普遍關心的話題,也可能是最關心的內容。因此,今天,我將直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家,昇騰晶片將持續演進,為中國乃至世界的AI算力構築堅固根基。未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆晶片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。以下我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend 950系列。我先介紹Ascend 950系列的晶片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比,Ascend 950 在以下幾個方面實現了根本性提升。第一,新增支援業界標準FP8/MXFP8/MXFP4等低數值精確度資料格式,算力分別達到1P和2P,提升訓練效率與推理吞吐。並特別支援華為自研的HiF8,在維持FP8的高效率的同時,精準度非常接近FP16。第二,大幅度提升了向量算力。這主要透過三個面向實現:其一,提升向量算力佔比;其二,採用創新的新同構設計,即支援SIMD/SIMT 雙程式設計模型,SIMD能夠像流水線一樣處理「大塊」向量,而SIMT便於靈活處理「碎片化」資料;其三,把記憶體存取顆粒度從512字節減少到128個字節減少到128個字節,從而讓記憶體存取。第三,互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。第四,結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成晶片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。以下分別介紹。首先是我們的第一顆晶片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段佔用運算資源越來越多。其次是在電子商務、內容平台、社群媒體等業務應用中,要求推薦演算法具有更高的準確度和更低的時延,對運算能力的需求也越來越大。推理Prefill階段和推薦演算法都是運算密集型,對計算並行的能力要求高,但對記憶體存取頻寬的需求相對低。透過分級記憶體解決方案,推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。 Ascend 950PR 採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年第一季推出,首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT,比起Ascend 950PR,它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高,我們開發了HiZQ 2.0,使記憶體容量達到144GB,記憶體存取頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次,支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體存取頻寬、記憶體容量、互聯埠數等各種規格上相比Ascend 950翻倍,大幅提升訓練、推理等情境的效能;同時也支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,並且比業界FP4方案的推理精度更優。Ascend 960將在2027年第四季推出。最後一顆是在規劃中的Ascend 970,這顆晶片的一些規格還在討論中。整體方向是,在各項指標上大幅升級,全面升級訓練和推理表現。目前的初步考量是,相較於Ascend 960,Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍,記憶體存取頻寬至少增加1.5倍。 Ascend 970計劃在2028年第四季推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多數據格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。可以看到,相較於Ascend 910B/910C,從Ascend 950開始的主要變化包括:引進SIMD/SIMT新架構,提升程式設計易用性;支援更豐富的資料格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;支援更大的互聯頻寬,其中950系列為2TB/s,970系列提升到4TB/s;支援更大的算力,FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、9708 PFLOPS;記憶體容量逐漸加倍,而記憶體存取頻寬將翻兩番。有了以昇騰晶片為基礎,我們就能夠打造出滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向來看,超節點已經成為主導性產品形態,並且正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的計算機,物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。隨著算力需求的持續成長,超節點的規模也持續、快速增加。今年3月份,華為正式推出了Atlas 900超節點,滿配支援384卡。因為是超節點,這384顆Ascend 910C晶片,能夠像一台電腦一樣運作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點。大家常聽到的CloudMatrix384超節點,是華為雲端基於Atlas 900超節點所建構的雲端服務實例。 Atlas 900超節點自上市以來,已累積部署超過300套,服務20多個客戶,涵蓋網路、電信、製造業等多個產業。可以說,Atlas 900於2025年,開啟了華為AI超節點的旅程。今天,結合我們已經推出或正在研發中的昇騰晶片,我將為大家帶來更多超節點和叢集產品。現在進入今天最令人興奮的時刻,就是新產品發布環節。今天我要發佈的第一款產品,Atlas 950超節點,基於Ascend 950DT打造。Atlas 950超節點支援8192張基於Ascend 950DT的昇騰卡,是Atlas 900超節點的20多倍,我們習慣稱呼的昇騰卡,每張卡對應一顆Ascend 950DT晶片,8192張昇騰卡等同於8192顆Ascend 950DT晶片。Atlas 950超節點滿配包括由128個計算櫃、32個互聯櫃,共160個機櫃組成,佔地面積1000平方米左右,櫃間採用全光互聯。總算力大幅提升,其中,FP8算力達8E FLOPS,FP4算力達16E FLOPS。互聯頻寬達到16PB/s,這個數字意味著,Atlas 950一個產品的總互聯頻寬,已經超過今天全球互聯網峰值頻寬的10倍有餘。Atlas 950超節點的上市時間是:2026年第四季。我們很自豪的看到,Atlas 950超節點,至少在未來多年都將保持是全球最強算力的超節點,並且在各項主要能力上都遠超業界主要產品。其中,相較於輝達同樣將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152TB;互聯頻寬是其62倍,達到16.3PB/s。即使是與輝達計畫2027年上市的NVL576相比,Atlas 950超節點在各方面依然是領先的。算力、記憶體容量、記憶體存取速度、連網頻寬等能力的大幅增強,為大模型訓練效能和推理吞吐帶來顯著提升。相較於華為已推出的Atlas 900超節點,Atlas 950超節點的訓練效能提升17倍,達到4.91M TPS。透過支援FP4資料格式,Atlas 950超節點的推理效能提升達26.5倍,達到19.6M TPS。8192卡超節點並不是我們的終點,我們還在繼續努力。我今天發布的第二款超節點產品,Atlas 960超節點。基於Ascend 960,Atlas 960超節點最大可支援15488卡。 Atlas 960超節點由176個計算櫃,44個互聯櫃,共220個機櫃,佔地約2200平方公尺。Atlas 960超節點的上市時間是:2027年第四季。伴隨卡片的規模的再次升級,Atlas 960超節點讓我們在AI超節點的優勢再度增強。基於Ascend 960,其總算力、記憶體容量、連網頻寬在Atlas 950基礎上再翻倍。其中,FP8總算力將達到30E FLOPS,而FP4總算力將達到60 EFLOPS;記憶體容量達到4460TB,連網頻寬達到34PB/s。大模型訓練與推理的效能相比Atlas 950超節點,將分別提升3倍和4倍以上,達到15.9M TPS 和80.5M TPS。透過Atlas 950和Atlas 960,我們對於為人工智慧的長期快速發展提供永續且充裕算力,充滿信心。超節點已經重新定義AI基礎設施的範式,但不僅限於AI。在通用運算領域,我們也認為,超節點技術能夠帶來很大的價值。從需求角度考慮,金融核心業務等目前仍然有部分承載在大型機和小型機之上,相比普通伺服器叢集,它們對伺服器的性能和可靠性有更高的訴求,通用計算超節點在這兩點上正好切合需求。從技術角度考慮,超節點同樣可以為通算領域注入全新活力。因此,鯤鵬處理器主要圍繞支援超節點,更多核心、更高效能等方向持續演進。同時,透過自研的雙執行緒靈犀核,讓鯕鵬處理器能方便支援更多執行緒。2026年Q1,我們將推出Kunpeng 950處理器,包含兩個版本,分別是:96核心/192執行緒和192核心/384執行緒;支援通用運算超節點;安全性方面新增四層隔​​離,成為鯤鵬首顆實現機密運算的資料中心處理器。2028年Q1,鯤鵬處理器將在晶片微架構、先進封裝技術等領域持續突破關鍵技術,將再次推出兩個版本,分別是高效能版本,96核心/192線程,單核心效能提升50%+,主要面向AI host、資料庫等場景。以及高密版本,不少於256核心/512線程,主要面向虛擬化、容器、大數據、數倉等場景。接下來是今天我發布的第三款產品:TaiShan 950超節點,基於Kunpeng 950打造,全球首個通用運算超節點,其最大支援16節點,32個處理器,最大記憶體48TB,同時支援記憶體、SSD、DPU池化。這款產品不只是通用運算領域的技術升級,除了大幅提升通用運算場景下的業務效能,還能幫助金融系統破解核心難題。目前大型主機、小型主機替換的核心挑戰是資料庫分散式改造,而基於TaiShan 950超節點打造的GaussDB多寫架構,無需改造,但效能提升2.9 倍,最終可平滑取代大型主機、小型主機上的傳統資料庫。 TaiShan 950加上分散式GaussDB將成為各類大型主機、小型主機的終結者,徹底取代各種應用場景的大型主機和小型主機以及Oracle的Exadata資料庫伺服器。除了核心資料庫場景,TaiShan 950超節點在更廣泛的場景裡,表現也很亮眼:例如虛擬化環境的記憶體利用率提升20%,在Spark大數據場景,即時資料處理時間縮短30%。TaiShan 950超節點上市時間是:2026年一季度,敬請期待。超節點的價值,不僅體現在智算和通算傳統業務領域。網路產業廣泛應用的推薦系統,正從傳統推薦演算法向生成式推薦系統演進。我們可以基於TaiShan 950和Atlas 950打造成混合超節點,為下一代生成式推薦系統開啟全新架構方向。一方面,透過超大頻寬、超低時延互聯以及超大內存,混合超節點構成超大共享內存池,支援PB級推薦系統嵌入表,從而支撐超高維度用戶特徵;另一方面,混合超節點的超大AI算力,能夠支援超低時延推理和特徵檢索。因此,混合超節點是下一代生成式推薦系統的解決方案的全新選擇。大規模超節點把智算和通算的能力都推向新的高度,同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者,當然不畏挑戰。在定義和設計Atlas 950、Atlas 960兩個超節點的技術規格時,我們遭遇了連網技術的巨大挑戰,主要在兩個方面:第一是如何做到長距離而且高可靠。大規模超節點機櫃多,櫃間聯接距離長,目前電互聯和光互聯技術都無法滿足需求。其中,目前的電互聯技術在高速時聯接距離短,最多隻能支援兩櫃互聯,而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起,但無法滿足可靠性需求。第二是如何做到大頻寬而且低時延。目前跨櫃卡間連帶寬低,和超節點的需求差距達5倍;跨櫃的卡間時延大,當前互聯技術最好只能做到3微秒左右,和Atlas 950/960設計需求仍然有24%的差距,當時延已經低至2~3個微秒時,已經提升物理極限,那0.1微秒的挑戰都很大。華為基於三十多年構築的技術能力,透過系統性創新,徹底解決了當前技術存在的問題,超標達成Atlas 950/960超節點的設計需求,使萬卡超節點成為可能。首先,為瞭解決長距離且高可靠問題,我們在互聯協議的物理層、數據鏈路層、網絡層、傳輸層等每一層都引入了高可靠機制;同時在光路引入了百納秒級故障檢測和保護切換,當出現光模組閃斷或故障時,讓應用無感;並且,我們重新定義和設計了光器件、光模組和互聯器件。這些創新與設計讓光互聯的可靠性提升100倍,互聯距離超過200米,實現了電的可靠與光的距離。其次,為瞭解決大頻寬且低時延問題,我們突破了多埠聚合與高密封裝技術,以及平等架構和統一協議,實現了TB級的超大頻寬,2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新,我們才攻克了超節點互聯技術,滿足了高可靠、全光互聯、高頻寬、低時延的互聯要求,讓大規模超節點成為了可能。為了達成Atlas 950/960超節點對互聯的技術要求,為了實現萬卡超節點還能是一台計算機,華為開創了超節點架構並開創了新型的互聯協議,能夠支撐萬卡級超節點架構。基於這個互聯協議的超節點架構的核心價值主張是:萬卡超節點,一台計算機,也就是說,透過該互聯協議,把數萬規模的計算卡,聯接成一個超節點,能夠像一台計算機一樣工作、學習、思考、推理。在技​​術上,我們總結認為,萬卡級超節點架構應該具備6個特徵,分別是匯流排級互聯、平等協同、全量池化、協定歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協定取名為“靈衢”,英文名稱:UB,UnifiedBus今天,我們正式發布靈衢、UnifiedBus,一個超節點的互聯協定。同時,我宣佈,華為將開放靈衢2.0技術規格。為什麼從靈衢2.0開始開放?事實上,靈衢的研究是從2019年開始的,因為眾所周知的原因,先進製程不可取得,我們需要從多晶片上突破,希望把更多的運算資源連結在一起。我們取了一個名字叫UnifiedBus,簡稱UB,中文名字“靈衢”,意味著類似九省通衢,實現大規模算力的聯通。基於靈衢 1.0 的Atlas 900超節點自2025年3月開始交付,至今已商用部署300多套,靈衢1.0技術已充分驗證。在靈衢1.0的基礎上,我們繼續豐富功能,優化性能,提升規模,進一步完善了協議,形成了靈衢2.0,前面發布的Atlas 950超節點就是基於靈衢2.0。我們認為靈衢2.0具備了開放的條件,為了更廣泛地促進互聯技術發展和產業進步,今天華為決定開放靈衢2.0技術規範,歡迎產業界夥伴基於靈衢研發相關產品和部件,共建靈衢開放生態。我在去年HC會上強調過,基於中國可獲得的晶片製造工藝,我們努力打造「超節點+叢集」算力解決方案,來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生,是針對超節點的互聯協議,也是建構算力群集產品最優的互聯技術。接下來為大家帶來兩個叢集產品:首先是,Atlas 950 SuperCluster 50萬卡叢集!Atlas 950 SuperCluster叢集由64個Atlas 950超節點互聯組成,把1萬多機櫃中的52萬多片昇騰950DT組成一個整體,FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步,即2026年Q4。在群集網路上,我們同時支援UBoE與RoCE兩種協議,UBoE是把UB協定承載在乙太網路上,讓客戶利用現有乙太交換器。相較於傳統RoCE,UBoE組網的靜態時延更低、可靠性更高,交換器和光模組數量都更節省,所以,我們推薦UBoE。這就是我們的Atlas 950 SuperCluster叢集。相較於目前世界最大的叢集xAI Colossus,規模是其2.5倍,算力是其1.3倍,是當之無愧的全世界最強算力叢集!無論是當下主流的千億稠密、稀疏大模型訓練任務,還是未來的兆、十兆大模型訓練,超節點叢集都可以成為性能強悍的算力底座,高效穩定地支援人工智慧持續創新。對應的,在2027年Q4,我們也將基於Atlas 960超節點,同步推出Atlas 960 SuperCluster,叢集規模進一步提升到百萬卡級,FP8總算力達到2 ZFLOPS! FP4總算力達4 ZFLOPS。並且,它同樣也支援UBoE與RoCE兩種協議,在UBoE協議加持下,性能與可靠性同樣更優,並且,靜態時延和網絡無故障時間優勢進一步擴大,因此繼續推薦UBoE組網。透過Atlas 960 SuperCluster,我們將持續加速客戶應用創新,探索智慧水準新高。很高興今天為大家帶來一系列新產品,我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新範式;以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值,謝謝! (礦石商業評論)
華為的算力突圍 :一手大國重器、一手化繁為簡
把簡單留給企業,把複雜留給自己。9月18日,“華為全聯接大會2025”上,華為副董事長、輪值董事長徐直軍,一口氣官宣了未來三年多款晶片、超節點的演進路線。在智算領域,以昇騰950建構的新型超節點,將打造出“全球最強超節點”——不止比輝達2027年推出的NVL576系統更強,甚至在未來很多年內或許都將是全球最強算力的超節點。以昇騰960為基礎的超節點,則將在2027年四季度上市。“昇騰芯”、“超節點”,有望成為AI基礎設施建設的新常態。在通算領域,鯤鵬950、鯤鵬960系列處理器,也將在超節點上大顯身手。華為常務董事、華為雲端運算CEO張平安介紹,依託華為剛剛發佈的最新AI伺服器規劃,CloudMatrix雲上超節點規格將從384卡升級到未來的8192卡,實現50~100萬卡的超大叢集,為智能時代提供更澎湃的AI算力。華為雲CloudMatrix384 AI Token服務也全面上線,可直接為使用者提供最終的AI計算結果。“把簡單留給客戶,把複雜留給自己。”這一輪“上新”,華為雲為什麼這麼猛?關鍵的變數在於“系統級創新”,關鍵的路徑在於,全面走向千行萬業,而這兩個“關鍵”的背後是華為雲的戰略性聚焦。大爭之世,華為雲這一AI的戰略性聚焦,其實也是對行業趨勢的預判。全球AI的競爭,正聚焦為算力的競爭。據華為《智能世界2035》報告預測:到2035年,全社會算力總量將增長10萬倍。而美國,正試圖從AI晶片的源頭,掐斷中國的算力。但中國企業,選擇了主動破局。“華為全聯接大會2025”上,華為雲發佈CloudMatrix超節點的新升級,成為國產AI算力最強有力的答案。半年前,超越輝達NVL72的CloudMatrix384,可以支援384顆昇騰NPU和192顆鯤鵬CPU,組成超16萬卡的叢集,同時支援1300個千億參數大模型訓練或上萬個模型的推理。如今,根據華為雲的最新規劃,CloudMatrix超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,可組成50~100萬卡的超大叢集。這堪比“算力大爆炸”。CloudMatrix384絕非簡單的晶片堆疊,而是架構上的全面創新:將資源全面池化,形成算力池、記憶體池、視訊記憶體池等。這樣就可以把計算型任務、儲存型任務、AI專家系統解耦開來,將序列任務儘可能地變成分佈式平行任務,極大地提升了系統的推理性能。目前華為雲已經為Pangu、DeepSeek、Qwen等業界主流大模型提供了極致的推理Token服務。在線上、近線和離線等不同時延要求的推理場景中,CloudMatrix384平均單卡的推理性能是中國特供版GPU H20的3到4倍。360集團旗下的奈米AI,也毫不猶豫地選擇了華為雲。作為全球唯一的L4級智能體,奈米AI引入的“多智能體蜂群”,可實現多智能體非同步平行。但這也導致其處理複雜任務可多達1000步,消耗Token高達500萬至3000萬。但基於CloudMatrix384超級“AI伺服器”,華為雲為奈米AI提供了高品質穩定的Tokens服務;基於EMS彈性記憶體儲存,足以打破AI記憶體牆,應對“蜂群”毫無壓力。周鴻禕說,華為雲充當了輝達+亞馬遜的角色,華為的Token性價比是非常好的,華為雲算力架構能完美的支撐多個基座大模型的共同工作。如果說算力是“燃料”,那麼大模型就是“引擎”。作為華為雲堅定不移的投入方向,“盤古大模型”的核心價值,就在於跳出了“模型空轉”的陷阱,使AI能力與行業Know-how融合,破解了企業“不會用、用不好”的難題,把 AI真正落到企業生產系統中去。在這方面,雲南交投是另一個典型案例。作為雲南綜合交通建設、經營的主力軍,2024年,雲南交投管養的高速公路高達6300公里。用AI驅動這麼龐大的交通資產,本身就是一個超級難題。為此,華為雲不僅為其打造了“雲、邊、端”混合雲算力基礎設施架構、行業高品質資料集,還建構了一個融合自然語言、視覺、多模態於一體的交通行業大模型“集”。大模型“集”的能力,就在於面對各類場景,無往不利。雲南交投使用DataArts,把自己的6.3萬個文件、620億條業務資料和上百萬的現場圖片打造成了一套高品質的AI資料集。經過盤古大模型的4輪訓練迭代,打造出雲南交投自己的綠美通道·交通大模型。讓問答精準率較開源大模型提升 20%以上,車流預測精度提升約 10%。目前,盤古已在政務、金融、製造等30多個行業落地,覆蓋500多個場景。張平安強調,華為也將繼續加大盤古大模型的投入,持續深耕行業,支援各行各業的客戶做好自己的大模型,加速千行萬業智能化。除了大模型,在“算力黑土地”之上,華為雲還在將智能體(Agent)嵌入企業業務流程,實現從“單點能力輸出”向“場景自主服務”的跨越。不同於個人輕量化Agent,企業級Agent要直面業務流程複雜、幻覺容忍度低、運行要求高的挑戰。為此,華為雲打造Versatile企業級智能體平台,覆蓋Agent開發、營運、維運全生命周期,希望建構易用、好用、開放的Agent開發和運行平台,幫助行業客戶快速開發出各種AI Agent。以華為雲慧通差旅為例。如果僅以常規手段來建構差旅應用的AI Agent,不得不直面資料工程建構難、模型協同管理難、持續最佳化閉環難等一系列難題。僅建構資料,就面臨“兩難”:內部經驗難挖掘,外部資料風險高。這導致理解使用者意圖、生成出行規劃的“第一步”,就舉步維艱。而資料的邊界與質量,決定著Al的能力上限。為此,慧通差旅基於Versatile,打造出智能體“通寶”,涵蓋出差提醒、路徑規劃、智能問答等。利用“通寶”,企業的資料層通過內部積累、迭代,與行業資料集整合,實現了高品質、高智能。通過對酒店推薦Agent、行程規劃Agent、知識問答Agent等Agent多模混編,加上專業的“差旅垂域大模型”,則進一步消減了Al推薦的不確定性。這使得路徑規劃上,目前“通寶”的採用率已超50%,差旅人員2分鐘即可完成預訂。而在Versatile平台上,Agent開發效率提升3倍,資料與演算法迭代由“周”縮短至“天”。這不僅重塑了企業差旅出行的體驗和效率,也加速企業差旅管理由“成本中心”向“價值中心”飛躍。從CloudMatrix384超節點算力底座,到盤古大模型沉澱的行業智慧,再到Versatile智能體打通業務鏈路……所有這一切,都是為了“把簡單留給客戶”,以便讓企業專注於核心業務創新;“把複雜留給自己”,讓企業海量的資料、模型、Agent應用,都平穩、高效、安全地跑在華為雲上。這一連串的“黑土地”上的新碩果,驅動著全行業不斷走向價值高地。華為全聯接大會2025上,國際化的面孔和比例非常高,並且有大量來自海外的案例。華為高級副總裁、華為雲全球Marketing與銷售服務總裁楊友桂,公開了一些資料:在全球,華為雲覆蓋34個地理區域、101個可用區,建構起一張國內時延30ms、海外時延50ms的“全球一張網”。這張“全球存算網”不僅能提供極致彈性的雲基礎設施,還能通過 “資料使能”服務釋放資料價值,並提供了一站式AI開發平台,讓企業能夠建構AI原生應用,實現智能升級。覆蓋47國500余家門店、電商觸達100多國的土耳其TOP快時尚品牌Defacto,曾被兩大難題困擾:一是大促的10倍流量扛不住,二是線上線下兩套CRM系統導致資料割裂,影響收益。華為雲介入後,直接擊中痛點:一是用容器服務,30秒自動擴容4000個Pods,流量潮湧被瞬間化解;依託“全球一張網”,土耳其業務接入時延低於25ms,埃及市場響應時延低於50ms,購物頁面載入時間從1.5秒縮至260毫秒。自 2023 年上線至今,Defacto已實現連續659天穩定0事故運行。二是引入中國夥伴Techsun,打通線上與線下資料。從此,線上、線下拉新促活、行為分析、客戶分群等,都有了巨量資料支撐,實現精準行銷。對此,Defacto CIO Abdurrahman Kılınç直言:“在全球業務擴張過程中,華為雲的強力支援對我們至關重要,其價值無法估量。”如果說“全球一張網”能讓企業“跑更快”,那麼華為雲的資料使能服務,則能讓企業“跑得更智能”。巴西Top資料智能技術公司Neogrid,每天要處理200萬活躍商品資訊、50萬POS機即時交易資料。以前,由於資料分散在多家雲廠商,企業第二天才能拿到資料,決策始終“慢半拍”。華為雲資料倉儲服務DWS介入後,改變了這一狀況:通過多平台分散資料的搬遷與整合,Neogrid資料整合效率提升40%、資料分析效率提升50%,下班前就能拿到當天資料,為決策搶佔先機。而華為雲一站式AI開發平台,更是將算力、模型與工具鏈全端創新融為一體。在萬華化學,基於華為雲盤古預測大模型,2000多台關鍵裝置實現從“事後維修”到“預測性維護”的跨越,模型預測準確率從70%提至90%,異常識別效率提升10%。華為雲還將預測與推理大模型結合,幫助萬華建構了故障診斷系統,並打通萬華故障知識庫,生成包含根因分析和處置建議的精準報告,極大加速了維運閉環過程,人工巡檢時間下降20%。而借助Versatile Agent開發平台,萬華打造出標準作業程序文件SOP稽核Agent,文件智能稽核效率提升50%以上。在長安汽車,華為雲CodeArts軟體開發工具鏈賦能研發模式從“瀑布流”轉向“統一平台”,研發效率提升30%。同時,華為雲聯合中國聯通打造的“一雲一網一平台”,以5G+IoT聯接1.2萬台裝置,打破資料孤島,實現資料驅動的柔性製造,將訂單交付周期從21天縮至15天。這一連串的實踐證明,企業AI應用的核心,不在於演算法、工具是否炫酷,而在於能否紮根行業場景,成為解決實際問題的利器。技術的創新與場景的落地,讓華為雲收穫了市場與行業的雙重認可:在容器、資料庫等領域突破入圍9個Gartner魔力象限,在17個產品和解決方案維度位居領導者象限,斬獲30+細分領域第一。行業領域,華為雲在政務、工業、金融、汽車四大行業市場份額均居第一,躋身醫療、藥物、氣象、汽車四個領導者象限。規模上,華為雲AI算力規模較去年暴增268%,昇騰AI雲客戶從321家增至1805家,且覆蓋央國企、智駕、大模型、網際網路等多個行業。楊友桂表示,“把簡單留給使用者,把複雜留給自己一直是華為的關鍵價值之一。無論是算力基礎設施的突破性建構、盤古大模型對千行萬業的持續賦能,還是資料治理領域的創新實踐——我們通過技術攻堅將複雜性內化於解決方案,最終為客戶呈現極簡體驗。”楊友桂在訪談中坦言:“人工智慧是面向未來 30 年的一個產業,應該說現在剛剛開始。面向未來30年,我們需要全產業鏈所有的客戶,所有的夥伴,所有的雲廠家共同努力,這樣才能打造一個面向未來,造福全人類的人工智慧和跟數位化轉型的時代。華為有這樣的信心,也有這樣的能力,更有這樣的意願跟全球的客戶夥伴和其他的廠家一起合作,然後為人工智慧時代的到來做出我們應有的貢獻。”這種“簡單”與“複雜”的深刻轉換,恰恰構成了華為雲“爭”與“不爭”的關鍵抉擇。“不爭” 的,是對短期利益的追逐和對單一市場的執念;“大爭” 的,則是對未來技術的深度佈局,以及對全球AI產業的責任擔當。而這份佈局未來的“大爭”,不僅為中國的AI產業積蓄力量,更將為全球的數智化貢獻中國智慧和中國方案。 (華商韜略)
首發自研HBM記憶體!華為昇騰950/960/970晶片全公佈,全球最強超節點來了
在今日舉辦的華為全聯接大會2025上,華為輪值董事長徐直軍表示超節點成為AI基礎設施建設新常態,目前CloudMatrix 384超節點累計部署300+套,服務20+客戶。華為將推出全球最強超節點Atlas 950 SuperPoD,算力規模8192卡,預計於今年四季度上市。此外新一代產品Atlas 960 SuperPoD ,算力規模15488卡,預計2027年四季度上市。會上,徐直軍還發佈了全球首個通算超節點TaiShan950 SuperPoD,計畫2026年一季度上市。徐直軍稱,其將成為大型機、小型機終結者。此外,他還表示,算力過去是,未來也將繼續是,人工智慧的關鍵,更是中國人工智慧的關鍵。徐直軍還首次公佈了昇騰晶片演進和目標。他表示,未來三年,華為已經規劃了昇騰多款晶片,包括昇騰950PR、950DT以及昇騰960、970。其中昇騰950PR 2026年第一季度對外推出,該晶片採用了華為自研HBM。根據現場公佈的資訊,昇騰950PR晶片架構新增支援低精度資料格式,其中FP8/MXFP8/HIF8: 1 PFLOPS,MXFP4: 2 PFLOPS,重點提升向量算力,提升互聯寬頻2.5倍,支援華為自研HBM高頻寬記憶體,分為HiBL 1.0和HiZQ 2.0兩個版本。規格方面,HiBL 1.0容量128GB,頻寬1.6TB/s;HiZQ 2.0容量144GB,頻寬4TB/s。其中,昇騰950PR晶片採用950核心+HiBL 1.0記憶體,可提升推理Prefill(預填充)性能,提升推薦業務性能。昇騰950DT採用HiZQ 2.0記憶體,可提升推理Decode(解碼)性能,提升訓練性能,提升記憶體容量和頻寬。延伸閱讀:在大模型推理中,Prefill階段負責接收完整輸入資料(如文字或圖像),並計算快取。這一過程需要強大的算力支援,通常由高性能晶片完成。 該階段強調算力而非記憶體頻寬,因此更適合在HBM(高頻寬記憶體)晶片上運行。相比之下,後續的Decode階段更依賴高速記憶體傳輸和互聯方案。HBM(High Bandwidth Memory,高頻寬記憶體)是一種基於3D堆疊技術的先進DRAM解決方案,多層DRAM晶片垂直整合,顯著提升資料傳輸效率。具有超高頻寬與低延遲、高容量密度、高能效比等優勢,能協助快速處理資料密集型的AI任務。美國國際戰略研究中心(CSIS)AI專家艾倫(Gregory Allen)解釋,HBM對於製造先進AI晶片至關重要,價值約佔整體晶片的一半。AI推理需頻繁呼叫海量模型參數(如千億級權重)和即時輸入資料。HBM的高頻寬和大容量允許GPU直接訪問完整模型,可避免傳統DDR記憶體因頻寬不足導致的算力閒置。對於千億參數以上的大模型,HBM可顯著提升響應速度。當下,HBM已成為高端AI晶片的標配,訓練側滲透率接近100%,推理側隨模型複雜化加速普及。 (快科技)