#華為雲
華為的算力突圍 :一手大國重器、一手化繁為簡
01 大爭之世現重器9月18日,“華為全聯接大會2025”上,華為副董事長、輪值董事長徐直軍,一口氣官宣了未來三年多款晶片、超節點的演進路線。在智算領域,以昇騰950建構的新型超節點,將打造出“全球最強超節點”——不止比輝達2027年推出的NVL576系統更強,甚至在未來很多年內或許都將是全球最強算力的超節點。以昇騰960為基礎的超節點,則將在2027年四季度上市。“昇騰芯”、“超節點”,有望成為AI基礎設施建設的新常態。在通算領域,鯤鵬950、鯤鵬960系列處理器,也將在超節點上大顯身手。華為常務董事、華為雲端運算CEO張平安介紹,依託華為剛剛發佈的最新AI伺服器規劃,CloudMatrix雲上超節點規格將從384卡升級到未來的8192卡,實現50~100萬卡的超大叢集,為智能時代提供更澎湃的AI算力。華為雲CloudMatrix384 AI Token服務也全面上線,可直接為使用者提供最終的AI計算結果。“把簡單留給客戶,把複雜留給自己。”這一輪“上新”,華為雲為什麼這麼猛?關鍵的變數在於“系統級創新”,關鍵的路徑在於,全面走向千行萬業,而這兩個“關鍵”的背後是華為雲的戰略性聚焦。大爭之世,華為雲這一AI的戰略性聚焦,其實也是對行業趨勢的預判。02全球AI的競爭,正聚焦為算力的競爭。據華為《智能世界2035》報告預測:到2035年,全社會算力總量將增長10萬倍。而美國,正試圖從AI晶片的源頭,掐斷中國的算力。但中國企業,選擇了主動破局。“華為全聯接大會2025”上,華為雲發佈CloudMatrix超節點的新升級,成為國產AI算力最強有力的答案。半年前,超越輝達NVL72的CloudMatrix384,可以支援384顆昇騰NPU和192顆鯤鵬CPU,組成超16萬卡的叢集,同時支援1300個千億參數大模型訓練或上萬個模型的推理。如今,根據華為雲的最新規劃,CloudMatrix超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,可組成50~100萬卡的超大叢集。這堪比“算力大爆炸”。CloudMatrix384絕非簡單的晶片堆疊,而是架構上的全面創新:將資源全面池化,形成算力池、記憶體池、視訊記憶體池等。這樣就可以把計算型任務、儲存型任務、AI專家系統解耦開來,將序列任務儘可能地變成分佈式平行任務,極大地提升了系統的推理性能。目前華為雲已經為Pangu、DeepSeek、Qwen等業界主流大模型提供了極致的推理Token服務。在線上、近線和離線等不同時延要求的推理場景中,CloudMatrix384平均單卡的推理性能是中國特供版GPU H20的3到4倍。360集團旗下的奈米AI,也毫不猶豫地選擇了華為雲。作為全球唯一的L4級智能體,奈米AI引入的“多智能體蜂群”,可實現多智能體非同步平行。但這也導致其處理複雜任務可多達1000步,消耗Token高達500萬至3000萬。但基於CloudMatrix384超級“AI伺服器”,華為雲為奈米AI提供了高品質穩定的Tokens服務;基於EMS彈性記憶體儲存,足以打破AI記憶體牆,應對“蜂群”毫無壓力。周鴻禕說,華為雲充當了輝達+亞馬遜的角色,華為的Token性價比是非常好的,華為雲算力架構能完美的支撐多個基座大模型的共同工作。如果說算力是“燃料”,那麼大模型就是“引擎”。作為華為雲堅定不移的投入方向,“盤古大模型”的核心價值,就在於跳出了“模型空轉”的陷阱,使AI能力與行業Know-how融合,破解了企業“不會用、用不好”的難題,把 AI真正落到企業生產系統中去。在這方面,雲南交投是另一個典型案例。作為雲南綜合交通建設、經營的主力軍,2024年,雲南交投管養的高速公路高達6300公里。用AI驅動這麼龐大的交通資產,本身就是一個超級難題。為此,華為雲不僅為其打造了“雲、邊、端”混合雲算力基礎設施架構、行業高品質資料集,還建構了一個融合自然語言、視覺、多模態於一體的交通行業大模型“集”。大模型“集”的能力,就在於面對各類場景,無往不利。雲南交投使用DataArts,把自己的6.3萬個文件、620億條業務資料和上百萬的現場圖片打造成了一套高品質的AI資料集。經過盤古大模型的4輪訓練迭代,打造出雲南交投自己的綠美通道·交通大模型。讓問答精準率較開源大模型提升 20%以上,車流預測精度提升約 10%。目前,盤古已在政務、金融、製造等30多個行業落地,覆蓋500多個場景。張平安強調,華為也將繼續加大盤古大模型的投入,持續深耕行業,支援各行各業的客戶做好自己的大模型,加速千行萬業智能化。除了大模型,在“算力黑土地”之上,華為雲還在將智能體(Agent)嵌入企業業務流程,實現從“單點能力輸出”向“場景自主服務”的跨越。不同於個人輕量化Agent,企業級Agent要直面業務流程複雜、幻覺容忍度低、運行要求高的挑戰。為此,華為雲打造Versatile企業級智能體平台,覆蓋Agent開發、營運、維運全生命周期,希望建構易用、好用、開放的Agent開發和運行平台,幫助行業客戶快速開發出各種AI Agent。以華為雲慧通差旅為例。如果僅以常規手段來建構差旅應用的AI Agent,不得不直面資料工程建構難、模型協同管理難、持續最佳化閉環難等一系列難題。僅建構資料,就面臨“兩難”:內部經驗難挖掘,外部資料風險高。這導致理解使用者意圖、生成出行規劃的“第一步”,就舉步維艱。而資料的邊界與質量,決定著Al的能力上限。為此,慧通差旅基於Versatile,打造出智能體“通寶”,涵蓋出差提醒、路徑規劃、智能問答等。利用“通寶”,企業的資料層通過內部積累、迭代,與行業資料集整合,實現了高品質、高智能。通過對酒店推薦Agent、行程規劃Agent、知識問答Agent等Agent多模混編,加上專業的“差旅垂域大模型”,則進一步消減了Al推薦的不確定性。這使得路徑規劃上,目前“通寶”的採用率已超50%,差旅人員2分鐘即可完成預訂。而在Versatile平台上,Agent開發效率提升3倍,資料與演算法迭代由“周”縮短至“天”。這不僅重塑了企業差旅出行的體驗和效率,也加速企業差旅管理由“成本中心”向“價值中心”飛躍。從CloudMatrix384超節點算力底座,到盤古大模型沉澱的行業智慧,再到Versatile智能體打通業務鏈路……所有這一切,都是為了“把簡單留給客戶”,以便讓企業專注於核心業務創新;“把複雜留給自己”,讓企業海量的資料、模型、Agent應用,都平穩、高效、安全地跑在華為雲上。這一連串的“黑土地”上的新碩果,驅動著全行業不斷走向價值高地。03華為全聯接大會2025上,國際化的面孔和比例非常高,並且有大量來自海外的案例。華為高級副總裁、華為雲全球Marketing與銷售服務總裁楊友桂,公開了一些資料:在全球,華為雲覆蓋34個地理區域、101個可用區,建構起一張國內時延30ms、海外時延50ms的“全球一張網”。這張“全球存算網”不僅能提供極致彈性的雲基礎設施,還能通過 “資料使能”服務釋放資料價值,並提供了一站式AI開發平台,讓企業能夠建構AI原生應用,實現智能升級。覆蓋47國500余家門店、電商觸達100多國的土耳其TOP快時尚品牌Defacto,曾被兩大難題困擾:一是大促的10倍流量扛不住,二是線上線下兩套CRM系統導致資料割裂,影響收益。華為雲介入後,直接擊中痛點:一是用容器服務,30秒自動擴容4000個Pods,流量潮湧被瞬間化解;依託“全球一張網”,土耳其業務接入時延低於25ms,埃及市場響應時延低於50ms,購物頁面載入時間從1.5秒縮至260毫秒。自 2023 年上線至今,Defacto已實現連續659天穩定0事故運行。二是引入中國夥伴Techsun,打通線上與線下資料。從此,線上、線下拉新促活、行為分析、客戶分群等,都有了巨量資料支撐,實現精準行銷。對此,Defacto CIO Abdurrahman Kılınç直言:“在全球業務擴張過程中,華為雲的強力支援對我們至關重要,其價值無法估量。”如果說“全球一張網”能讓企業“跑更快”,那麼華為雲的資料使能服務,則能讓企業“跑得更智能”。巴西Top資料智能技術公司Neogrid,每天要處理200萬活躍商品資訊、50萬POS機即時交易資料。以前,由於資料分散在多家雲廠商,企業第二天才能拿到資料,決策始終“慢半拍”。華為雲資料倉儲服務DWS介入後,改變了這一狀況:通過多平台分散資料的搬遷與整合,Neogrid資料整合效率提升40%、資料分析效率提升50%,下班前就能拿到當天資料,為決策搶佔先機。而華為雲一站式AI開發平台,更是將算力、模型與工具鏈全端創新融為一體。在萬華化學,基於華為雲盤古預測大模型,2000多台關鍵裝置實現從“事後維修”到“預測性維護”的跨越,模型預測準確率從70%提至90%,異常識別效率提升10%。華為雲還將預測與推理大模型結合,幫助萬華建構了故障診斷系統,並打通萬華故障知識庫,生成包含根因分析和處置建議的精準報告,極大加速了維運閉環過程,人工巡檢時間下降20%。而借助Versatile Agent開發平台,萬華打造出標準作業程序文件SOP稽核Agent,文件智能稽核效率提升50%以上。在長安汽車,華為雲CodeArts軟體開發工具鏈賦能研發模式從“瀑布流”轉向“統一平台”,研發效率提升30%。同時,華為雲聯合中國聯通打造的“一雲一網一平台”,以5G+IoT聯接1.2萬台裝置,打破資料孤島,實現資料驅動的柔性製造,將訂單交付周期從21天縮至15天。這一連串的實踐證明,企業AI應用的核心,不在於演算法、工具是否炫酷,而在於能否紮根行業場景,成為解決實際問題的利器。技術的創新與場景的落地,讓華為雲收穫了市場與行業的雙重認可:在容器、資料庫等領域突破入圍9個Gartner魔力象限,在17個產品和解決方案維度位居領導者象限,斬獲30+細分領域第一。行業領域,華為雲在政務、工業、金融、汽車四大行業市場份額均居第一,躋身醫療、藥物、氣象、汽車四個領導者象限。規模上,華為雲AI算力規模較去年暴增268%,昇騰AI雲客戶從321家增至1805家,且覆蓋央國企、智駕、大模型、網際網路等多個行業。楊友桂表示,“把簡單留給使用者,把複雜留給自己一直是華為的關鍵價值之一。無論是算力基礎設施的突破性建構、盤古大模型對千行萬業的持續賦能,還是資料治理領域的創新實踐——我們通過技術攻堅將複雜性內化於解決方案,最終為客戶呈現極簡體驗。”楊友桂在訪談中坦言:“人工智慧是面向未來 30 年的一個產業,應該說現在剛剛開始。面向未來30年,我們需要全產業鏈所有的客戶,所有的夥伴,所有的雲廠家共同努力,這樣才能打造一個面向未來,造福全人類的人工智慧和跟數位化轉型的時代。華為有這樣的信心,也有這樣的能力,更有這樣的意願跟全球的客戶夥伴和其他的廠家一起合作,然後為人工智慧時代的到來做出我們應有的貢獻。”這種“簡單”與“複雜”的深刻轉換,恰恰構成了華為雲“爭”與“不爭”的關鍵抉擇。“不爭” 的,是對短期利益的追逐和對單一市場的執念;“大爭” 的,則是對未來技術的深度佈局,以及對全球AI產業的責任擔當。而這份佈局未來的“大爭”,不僅為中國的AI產業積蓄力量,更將為全球的數智化貢獻中國智慧和中國方案。 (EDA365電子論壇)
華為雲再掀算力風暴:CloudMatrix384超節點將升級,Tokens服務性能最大可超H20四倍
華為雲算力再迎重大突破!剛剛落幕的華為全聯接大會2025,一系列新進展發佈——AI算力雲服務升級,基於華為雲剛剛發佈的最新AI伺服器規劃,CloudMatrix的雲上超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,實現百萬卡的超大叢集,為智能時代提供更澎湃的AI算力。首創EMS彈性記憶體儲存服務,大幅降低多輪對話時延。華為雲Tokens服務正式接入CloudMatrix384超節點,打造極致性能的Tokens服務體驗。這距離CloudMatrix384超節點2025年4月正式發佈僅半年,期間其能力持續進化:2025年4月,CloudMatrix384超節點發佈並商用,在蕪湖資料中心規模化上線;2025年6月,基於CloudMatrix384超節點的新一代昇騰AI雲服務全面上線;2025年9月,Tokens服務全面接入CloudMatrix384超節點,有效遮蔽複雜的底層技術實現,直接為使用者提供最終的AI計算結果。現階段,AI行業內依舊被算力焦慮籠罩。矽谷大廠近期在算力、晶片領域動作頻頻:OpenAI一邊和博通自研AI晶片,一邊向甲骨文拋出3000億美元買算力;馬斯克百天建成萬卡超算叢集,還計畫向百萬卡規模衝擊,同時悄悄佈局晶片;Meta、AWS等企業也在積極獲取更多算力資源……但算力的發展並非一蹴而就,它需要在單點技術上極致突破,還涉及晶片、硬體、架構、軟體、網路、能源乃至整個產業生態的協同演進。放眼全球,能夠輸出澎湃算力的供應商,都離不開十數年、數十年的沉澱積累。華為雲作為其中一員,探索路徑因所處產業階段而顯得尤為深刻:不僅需要在技術“無人區”重新定義算力運行規則;還需把握AI發展時機,通過快速迭代響應產業海量需求。一步步成長為今天的“算力黑土地”。黑土地是極其適合農業的土質,天然含有大量腐植質,在此耕種的莊稼產量高,能夠茁壯成長。華為雲“算力黑土地”理念核心是,華為雲向行業提供一塊肥沃且精心開墾的“土壤”,企業、開發者可根據自身需求,在這片“土壤”上開展AI創新實踐。同時,華為雲通過框架創新、軟硬協同等一系列能力積累作為養料,讓這片黑土地越來越肥沃。正因如此,在大模型浪潮爆發的當下,華為雲才能持續向產業輸送澎湃算力,做最堅實的底座。其背後的研發、行動、理念與認知,也成為中國算力產業發展的重要參考。智算+通算,覆蓋全產業算力需求想要快速前進,綱領是第一要務。華為雲的策略是智算(智能計算)+通算(通用計算)協同推進:智算:聚焦AI前沿,提供極致性能與彈性服務,助力AI更快更好落地千行百業。通算:依託鯤鵬雲服務,從核心到邊緣全場景賦能,提供安全可信的雲上通用算力。智算部分的核心服務模式是Tokens服務,同時也可以提供HCS混合雲、華為雲液冷雲資料中心以及昇騰專屬雲服務。開頭提到的CloudMatrix384超節點能力升級和首創EMS彈性記憶體儲存服務,就屬於智算領域成果。△圖片為AI生成通算部分主要是鯤鵬雲業務,基於華為雲自研的鯤鵬處理器(ARM架構),提供一系列面向通用計算場景的雲服務產品,推動產業智能創新。鯤鵬雲實現了軟硬協同的全面創新,從多核高並行的晶片設計、軟硬一體的“擎天”架構,到華為雲智能調度平台與作業系統的深度最佳化,鯤鵬雲服務釋放出“開箱即用”的強勁算力。目前雲上鯤鵬核數從900多萬核增長到1500萬核,增幅達到67%。同時全面相容主流應用軟體,已適配超過25000個應用,為ARM生態繁榮提供堅實支撐。以上就是華為雲“算力黑土地”的大致架構。在這一體系下,大模型時代中的華為雲能夠更清晰、更針對性根據AI落地需求進行升級,為產業提供更高效、易用、可靠的算力。AI時代,用Tokens定義計算針對AI時代需求,華為雲今年正式推出基於CloudMatrix384超節點的Tokens服務。這是一種面向AI大模型推理場景、按實際Token消耗量計費的雲服務模式,與傳統雲端運算計費方式不同,可顯著降低AI推理成本。這種模式調整背後,是對大模型落地的細緻洞察。Token是將文字分割轉換成數字向量,大模型吞吐內容的規模以Tokens計算,它是大模型時代天然的計量單位。隨著AI落地處理程序推進,Tokens消耗量呈爆發式增長。資料顯示,2024年初中國日均Token消耗量為1000億,截至今年6月底,日均Token消耗量已突破30兆,一年半的時間增長300多倍。顯然,Token不再只是技術領域的計算單位,更是大模型消耗的實際體現,是衡量大模型落地情況的關鍵參考,也能直接反映背後GPU算力、記憶體、計算時間的使用量。用Tokens作為計費單位逐漸成為行業共識:一方面,能更精準計算企業使用的資源,讓使用者僅為實際消耗付費,同時通過實際消耗瞭解費用構成,進一步最佳化成本;另一方面,可解決不同場景Tokens消耗量差距大導致的收費不公問題,為雲廠商動態調節計算資源提供參考。比如我們常遇到的線上、近線、離線等場景:長文字生成任務適用於日常辦公等場景,白天呼叫量大、夜間幾乎靜默,按量計費比按時/按卡計費更合理;智能客服、AI助手等場景中,不同細分情況的會話輪次和深度不確定,Tokens服務模式可以更精準計算每次互動成本。另一方面,Token服務可以有效遮蔽複雜的底層技術實現,使用者不必關心晶片的工藝、伺服器的代次等複雜的硬體技術堆疊,也不必關心推理框架、模型部署等複雜的軟體技術堆疊,可以高效地直接獲得“AI的最終結果”。在本次HC2025上,華為雲宣佈CloudMatrix384 AI Token推理服務全面上線。這意味著AI算力進入以“極致性能、極致效率”為特徵的新階段,性能超越輝達H20 3-4倍。其底層技術主要依託CloudMatrix384超節點及xDeepServe分佈式推理框架等。第一,CloudMatrix384超節點使用全對等互聯架構與高速通訊技術,在計算通訊等方面優勢顯著,能釋放更極致算力。CloudMatrix384超節點通過華為雲自研的MatrixLink高速對等網際網路絡,將384顆昇騰NPU和192顆鯤鵬CPU緊密耦合,形成邏輯統一的超級“AI伺服器”。通過Scale Out方式,還可以組成一個超16萬卡的AI叢集,同時支援1300個千億參數大模型訓練或者上萬個模型的推理。未來,基於華為剛剛發佈的最新AI伺服器規劃,CloudMatrix超節點的規格將進一步升級到8192顆,組成百萬卡的AI叢集。第二,基於“一切可池化”理念,華為雲通過首創的EMS彈性記憶體儲存服務將NPU視訊記憶體、CPU記憶體和儲存資源解耦,形成統一資源池。NPU可直接遠端訪問池化記憶體,實現視訊記憶體獨立擴容,多輪對話Token時延大幅降低。同時,計算、儲存和網路資源可根據負載需求動態組合,提升資源利用率。這一技術對多輪次問答場景提升顯著。大模型進行多輪問答時,通常響應會隨輪次增加而變慢,原因是大模型需“記住”之前每一輪產生的資料以保證回答連貫性,當問答輪次增加,計算量成倍增長,導致響應延遲。而EMS服務能有效解決這一問題。第三,PDC分離及動態PD:PDC( Prefill-Decode-Caching)分離是將Prefill、Decode固化在各自叢集、同時利用MatrixLink高速對等網際網路絡可以全域定址的特點而另設立獨立的KV快取叢集,這樣不論是Prefill叢集還是Decode叢集的NPU都能夠直接訪問獨立KV快取叢集的共用記憶體快取,突破資料的物理位置限制,顯著提高負載平衡、NPU利用率以及記憶體利用率,同時提供更大的彈性。同時,系統能夠準確即時地分析或預測推理業務負載。第四,CloudMatrix384超節點專為主流MoE架構設計,支援“一卡一專家”的分佈式推理模式,將MoE模型的專家模組分佈到不同NPU卡上平行處理,如256個專家對應256張卡,減少通訊延遲導致的算力浪費,減少每張卡權重載入的時延,同時減少權重的視訊記憶體佔用,顯著提升單卡平行的路數。當Tokens服務全面接入CloudMatrix384超節點後,企業使用者能以優的性能、好的服務、高的質量,獲得各行各業所需的“最終AI計算結果”,更專注於應用和業務創新。千行百業AI底座:支撐網際網路應用、高精尖科研任務360推出的奈米AI是全球唯一已經進化到L4等級的多智能體蜂群平台。 (量子位)