#Tokens
華為雲再掀算力風暴:CloudMatrix384超節點將升級,Tokens服務性能最大可超H20四倍
華為雲算力再迎重大突破!剛剛落幕的華為全聯接大會2025,一系列新進展發佈——AI算力雲服務升級,基於華為雲剛剛發佈的最新AI伺服器規劃,CloudMatrix的雲上超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,實現百萬卡的超大叢集,為智能時代提供更澎湃的AI算力。首創EMS彈性記憶體儲存服務,大幅降低多輪對話時延。華為雲Tokens服務正式接入CloudMatrix384超節點,打造極致性能的Tokens服務體驗。這距離CloudMatrix384超節點2025年4月正式發佈僅半年,期間其能力持續進化:2025年4月,CloudMatrix384超節點發佈並商用,在蕪湖資料中心規模化上線;2025年6月,基於CloudMatrix384超節點的新一代昇騰AI雲服務全面上線;2025年9月,Tokens服務全面接入CloudMatrix384超節點,有效遮蔽複雜的底層技術實現,直接為使用者提供最終的AI計算結果。現階段,AI行業內依舊被算力焦慮籠罩。矽谷大廠近期在算力、晶片領域動作頻頻:OpenAI一邊和博通自研AI晶片,一邊向甲骨文拋出3000億美元買算力;馬斯克百天建成萬卡超算叢集,還計畫向百萬卡規模衝擊,同時悄悄佈局晶片;Meta、AWS等企業也在積極獲取更多算力資源……但算力的發展並非一蹴而就,它需要在單點技術上極致突破,還涉及晶片、硬體、架構、軟體、網路、能源乃至整個產業生態的協同演進。放眼全球,能夠輸出澎湃算力的供應商,都離不開十數年、數十年的沉澱積累。華為雲作為其中一員,探索路徑因所處產業階段而顯得尤為深刻:不僅需要在技術“無人區”重新定義算力運行規則;還需把握AI發展時機,通過快速迭代響應產業海量需求。一步步成長為今天的“算力黑土地”。黑土地是極其適合農業的土質,天然含有大量腐植質,在此耕種的莊稼產量高,能夠茁壯成長。華為雲“算力黑土地”理念核心是,華為雲向行業提供一塊肥沃且精心開墾的“土壤”,企業、開發者可根據自身需求,在這片“土壤”上開展AI創新實踐。同時,華為雲通過框架創新、軟硬協同等一系列能力積累作為養料,讓這片黑土地越來越肥沃。正因如此,在大模型浪潮爆發的當下,華為雲才能持續向產業輸送澎湃算力,做最堅實的底座。其背後的研發、行動、理念與認知,也成為中國算力產業發展的重要參考。智算+通算,覆蓋全產業算力需求想要快速前進,綱領是第一要務。華為雲的策略是智算(智能計算)+通算(通用計算)協同推進:智算:聚焦AI前沿,提供極致性能與彈性服務,助力AI更快更好落地千行百業。通算:依託鯤鵬雲服務,從核心到邊緣全場景賦能,提供安全可信的雲上通用算力。智算部分的核心服務模式是Tokens服務,同時也可以提供HCS混合雲、華為雲液冷雲資料中心以及昇騰專屬雲服務。開頭提到的CloudMatrix384超節點能力升級和首創EMS彈性記憶體儲存服務,就屬於智算領域成果。△圖片為AI生成通算部分主要是鯤鵬雲業務,基於華為雲自研的鯤鵬處理器(ARM架構),提供一系列面向通用計算場景的雲服務產品,推動產業智能創新。鯤鵬雲實現了軟硬協同的全面創新,從多核高並行的晶片設計、軟硬一體的“擎天”架構,到華為雲智能調度平台與作業系統的深度最佳化,鯤鵬雲服務釋放出“開箱即用”的強勁算力。目前雲上鯤鵬核數從900多萬核增長到1500萬核,增幅達到67%。同時全面相容主流應用軟體,已適配超過25000個應用,為ARM生態繁榮提供堅實支撐。以上就是華為雲“算力黑土地”的大致架構。在這一體系下,大模型時代中的華為雲能夠更清晰、更針對性根據AI落地需求進行升級,為產業提供更高效、易用、可靠的算力。AI時代,用Tokens定義計算針對AI時代需求,華為雲今年正式推出基於CloudMatrix384超節點的Tokens服務。這是一種面向AI大模型推理場景、按實際Token消耗量計費的雲服務模式,與傳統雲端運算計費方式不同,可顯著降低AI推理成本。這種模式調整背後,是對大模型落地的細緻洞察。Token是將文字分割轉換成數字向量,大模型吞吐內容的規模以Tokens計算,它是大模型時代天然的計量單位。隨著AI落地處理程序推進,Tokens消耗量呈爆發式增長。資料顯示,2024年初中國日均Token消耗量為1000億,截至今年6月底,日均Token消耗量已突破30兆,一年半的時間增長300多倍。顯然,Token不再只是技術領域的計算單位,更是大模型消耗的實際體現,是衡量大模型落地情況的關鍵參考,也能直接反映背後GPU算力、記憶體、計算時間的使用量。用Tokens作為計費單位逐漸成為行業共識:一方面,能更精準計算企業使用的資源,讓使用者僅為實際消耗付費,同時通過實際消耗瞭解費用構成,進一步最佳化成本;另一方面,可解決不同場景Tokens消耗量差距大導致的收費不公問題,為雲廠商動態調節計算資源提供參考。比如我們常遇到的線上、近線、離線等場景:長文字生成任務適用於日常辦公等場景,白天呼叫量大、夜間幾乎靜默,按量計費比按時/按卡計費更合理;智能客服、AI助手等場景中,不同細分情況的會話輪次和深度不確定,Tokens服務模式可以更精準計算每次互動成本。另一方面,Token服務可以有效遮蔽複雜的底層技術實現,使用者不必關心晶片的工藝、伺服器的代次等複雜的硬體技術堆疊,也不必關心推理框架、模型部署等複雜的軟體技術堆疊,可以高效地直接獲得“AI的最終結果”。在本次HC2025上,華為雲宣佈CloudMatrix384 AI Token推理服務全面上線。這意味著AI算力進入以“極致性能、極致效率”為特徵的新階段,性能超越輝達H20 3-4倍。其底層技術主要依託CloudMatrix384超節點及xDeepServe分佈式推理框架等。第一,CloudMatrix384超節點使用全對等互聯架構與高速通訊技術,在計算通訊等方面優勢顯著,能釋放更極致算力。CloudMatrix384超節點通過華為雲自研的MatrixLink高速對等網際網路絡,將384顆昇騰NPU和192顆鯤鵬CPU緊密耦合,形成邏輯統一的超級“AI伺服器”。通過Scale Out方式,還可以組成一個超16萬卡的AI叢集,同時支援1300個千億參數大模型訓練或者上萬個模型的推理。未來,基於華為剛剛發佈的最新AI伺服器規劃,CloudMatrix超節點的規格將進一步升級到8192顆,組成百萬卡的AI叢集。第二,基於“一切可池化”理念,華為雲通過首創的EMS彈性記憶體儲存服務將NPU視訊記憶體、CPU記憶體和儲存資源解耦,形成統一資源池。NPU可直接遠端訪問池化記憶體,實現視訊記憶體獨立擴容,多輪對話Token時延大幅降低。同時,計算、儲存和網路資源可根據負載需求動態組合,提升資源利用率。這一技術對多輪次問答場景提升顯著。大模型進行多輪問答時,通常響應會隨輪次增加而變慢,原因是大模型需“記住”之前每一輪產生的資料以保證回答連貫性,當問答輪次增加,計算量成倍增長,導致響應延遲。而EMS服務能有效解決這一問題。第三,PDC分離及動態PD:PDC( Prefill-Decode-Caching)分離是將Prefill、Decode固化在各自叢集、同時利用MatrixLink高速對等網際網路絡可以全域定址的特點而另設立獨立的KV快取叢集,這樣不論是Prefill叢集還是Decode叢集的NPU都能夠直接訪問獨立KV快取叢集的共用記憶體快取,突破資料的物理位置限制,顯著提高負載平衡、NPU利用率以及記憶體利用率,同時提供更大的彈性。同時,系統能夠準確即時地分析或預測推理業務負載。第四,CloudMatrix384超節點專為主流MoE架構設計,支援“一卡一專家”的分佈式推理模式,將MoE模型的專家模組分佈到不同NPU卡上平行處理,如256個專家對應256張卡,減少通訊延遲導致的算力浪費,減少每張卡權重載入的時延,同時減少權重的視訊記憶體佔用,顯著提升單卡平行的路數。當Tokens服務全面接入CloudMatrix384超節點後,企業使用者能以優的性能、好的服務、高的質量,獲得各行各業所需的“最終AI計算結果”,更專注於應用和業務創新。千行百業AI底座:支撐網際網路應用、高精尖科研任務360推出的奈米AI是全球唯一已經進化到L4等級的多智能體蜂群平台。 (量子位)