中國團隊突破瓶頸!不加GPU,萬卡叢集算力暴漲15%

【新智元導讀】GPU一塊沒加,程式碼一行沒改,僅靠重構組網架構就讓推理叢集多擠出15%的算力!中美大模型廠商不約而同押注同一個判斷:網路,才是AI基礎設施的下一個主戰場。

Vibe Coding太火了!

幾乎所有人都一夜之間進入了「說人話就寫程式碼」的新紀元。

問題來了,如何打造更極致的算力支援?

有人開始對網路動刀了。

就在本月,OpenAI聯合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨頭髮布了MRC(Multipath Reliable Connection)網路協議,已部署在其最大規模的GB200超算叢集上。

國內這邊,智譜聯合馭馴網路與清華大學,在GLM-5.1線上生產叢集中完成了新一代組網架構ZCube的規模化落地——GPU一塊沒加,伺服器一台沒換,程式碼一行沒改,推理吞吐直接多了15%!

更加誇張的是,交換機和光模組的硬體成本還砍掉了三分之一。

而且叢集規模越大,這個優勢越猛。萬卡等級的叢集,光網路硬體就能省下2.1億到6.4億元。

提出並在真實生產環境中驗證這項技術的,是中國團隊。

ZCube架構發表於網路領域最頂級學術會議ACM SIGCOMM 2025,被評價為「significantly change the way we think about and understand networking」——顯著改變整個行業對網路的認知方式。

一月之間,國內外一個在協議層發力,一個在架構層動刀。殊途同歸,指向同一個判斷:網路,已經成為超大規模AI基礎設施的下一個主戰場。

ZCube:推翻二十年的

「堆交換機」邏輯

過去幾年,AI基礎設施的軍備競賽只有一個維度:堆GPU。

更多、更快、更猛。

但當推理叢集規模突破千卡、萬卡,一個反直覺的現象開始出現——GPU的利用率不升反降。

原因很簡單:大模型推理不是單兵作戰,是協同打仗。

每處理一個使用者請求,叢集中的GPU需要高頻、大量地互相傳遞中間資料(尤其是KV Cache)。

隨著Prefill(處理輸入)與Decode(生成輸出)分離部署成為主流,資料在GPU之間的流向變得高度動態、不對稱——有的鏈路擠滿資料,有的鏈路空空如也。

智譜的線上實測資料給出了量化證據:在一個32卡規模的推理服務上做控制變數實驗,僅把網路頻寬從100Gbps提升到200Gbps,推理吞吐就提升了約19%,首Token響應時延下降了約22%。

而且這個規律隨著叢集規模擴大,會越來越顯著——GPU的性能天花板,其實是被網路「鎖住」的。

過去二十多年,全球資料中心普遍採用Fat-Tree / Clos架構組網。

這套方案的核心思路非常樸素:多層交換機一層一層堆上去,規模不夠就加層。

網際網路流量時代,這套邏輯運行良好。AI訓練叢集裡,也基本夠用。

但大模型推理是一種全新的流量模式。

在PD分離部署場景中,Prefill節點和Decode節點之間需要頻繁傳遞KV Cache,不同請求的長度千變萬化,資料流向毫無規律。

傳統Clos架構面對這種流量時,一個結構性的死穴暴露了出來:流量會被拓撲關係天然地推向同幾台交換機和同幾條鏈路,形成熱點堆積、佇列反壓、鏈路擁塞。

ROFT架構中,Leaf交換機之間容易出現流量負載不均

這是路網設計本身的問題。

ZCube的做法,簡單說就是三個字:拆掉它。

設計的精妙之處在於:全網任意兩張GPU之間,有且僅有一條最優路徑。沒有多路徑選路的衝突,沒有「車流擠到同一個路口」的結構性隱患。

擁塞不是被控制了,而是從架構層面大幅降低了結構性擁塞產生的機率。

打個比方:傳統Clos是給一座已經堵死的城市裝更多紅綠燈;ZCube是重新規劃了整張路網,讓每輛車都有自己專屬的最優路線——從源頭上大幅減少了堵車的可能。

更值得關注的是網路直徑。

ZCube的網路直徑僅為2跳,全網GPU經過兩台交換機即可互達,介於一層組網(1跳,規模受限)和傳統二層組網(3跳,延遲高)之間——兼顧了低延遲與高擴展性。

硬體不換,程式碼不改,吞吐多15%

理論再漂亮,要看真刀真槍的生產資料。

智譜在運行GLM-5.1 Coding推理服務的千卡叢集中,將原本部署的ROFT(Rail Optimized Fat-Tree)網路架構直接升級為ZCube。

這次改造並不是簡單的「換根網線」——ZCube取消了傳統Clos的Spine層,原有的布線模式、IP編址策略、路由策略和交換機配置全部無法復用,需要從頭設計。

馭馴網路團隊為此開發了ZCube控製器、機房佈局設計工具和連線正確性檢測程序等一整套自動化工具,才在極短時間內完成了大規模生產叢集的改造。

控制變數極其乾淨:GPU型號不變、軟體棧不變、業務程式碼一行不改,唯一的區別就是組網架構。

結果是這樣的:

  • GPU平均推理吞吐提升15%以上——同樣的硬體,每秒多服務15%的使用者請求
  • TTFT P99(首Token尾延遲)下降40.6%——使用者等待的「」最壞情況「」大幅改善
  • 交換機與光模組硬體成本減少三分之一——花更少的錢,反而跑得更快

在當前算力緊缺、推理需求持續暴增的背景下,同樣一堆硬體憑空多擠出15%的產能,這那裡是「最佳化」,這是「存量資產的效率重估」!

目前,該ZCube叢集已在GLM-5.1 coding推理服務中穩定運行超過兩周。

MRC vs ZCube

回到開頭提到的MRC。

OpenAI聯合五大晶片與雲端運算巨頭髮布的這套協議,本質上是一種多路徑並行傳輸方案。

MRC和ZCube的關係,可以用一個比喻說清楚:

MRC最佳化的是「交通規則」——車已經上路了,通過更聰明的調度讓車流更均勻,遇到事故能瞬間繞行。它在協議層發力,解決的是「已經出現擁塞後怎麼辦」。

ZCube重新規劃的是「路網本身」——從拓撲設計上降低擁塞產生的機率,讓每輛車都有唯一最優路線,從源頭減少擁塞出現的機會。它在架構層動刀,解決的是「為什麼會出現擁塞」。

前者是治病,後者是防病。技術路線不同,但雙方同時在這個月發力,傳遞的訊號高度一致:算力軍備競賽的下半場,不再只是比誰的GPU多,而是比誰能讓這些GPU真正跑起來。

值得一提的是,MRC的發佈還推動了另一個行業趨勢:乙太網路正在加速替代InfiniBand成為AI叢集的主流網路選擇。

分析機構Dell'Oro Group的資料顯示,2025年乙太網路在AI後端網路中的銷售額和出貨量已經全面超越InfiniBand。

MRC作為開放協議通過OCP發佈,NVIDIA、AMD、Broadcom等廠商的800Gb/s網路卡均已原生支援。

這意味著整個AI網路生態正在從封閉走向開放,從單一供應商走向多元競爭。

對於資本市場而言,這兩大事件密集釋放的訊號同樣值得關注:未來超大規模AI叢集的組網採購邏輯將發生結構性變化——對高端交換機的需求將向「更少層級、更大連接埠密度」演進,對光模組的需求將向更高速率集中。

800G光模組、高密度乙太網路交換機相關產業鏈,有望迎來新一輪需求釋放。

ZCube的擴展能力:一層交換機,連線萬GPU

ZCube還有一個被低估的特性:擴展性。

以當前主流配置計算(一層容量51.2T的交換機,128個400Gbps連接埠),ZCube僅用一層Leaf交換機就能建構連接16384塊400Gbps網路卡的完全連線到網路。

如果使用更高容量的交換機,或者將ZCube網路劃分為更多平面,可支援數萬甚至數十萬塊GPU互聯——仍然只需要一層交換機。

規模越大,ZCube相比傳統架構省下的交換機和光模組就越多,性能優勢也越明顯——這是一條規模越大、越划算的曲線。

從「堆算力」到「挖效率」

過去幾年,大模型行業最大的共識是Scaling Law——堆更多資料、更多算力、更大參數,模型就會更強。這個邏輯催生了萬卡叢集的軍備競賽。

但在2026年,一個新的共識正在浮現:與其無限堆GPU,不如讓現有的GPU跑得更順。

ZCube的實踐證明,僅僅通過網路架構層面的系統性創新,就能在不增加任何GPU的前提下,撬動15%的推理吞吐提升。

隨著推理規模繼續向十萬卡邁進,網路瓶頸只會隨叢集規模指數級加劇,而扁平化架構的優勢也將同步放大。

更深層的變化在於:網路設計正在從「通用互聯」走向「模型流量驅動的系統協同」。

網路不再只是連接GPU的底層管道,而正在升級為提升Token生產效率、系統穩定性和成本效率的核心能力。

智譜表示,未來將繼續面向更大規模推理與訓練叢集探索新型智算網路架構。OpenAI的MRC也在持續迭代,其規格已通過OCP開放,正在成為行業基礎標準。

一場關於AI基礎設施底層架構的重構,正在全球範圍內同步展開。 (新智元)