中國團隊突破瓶頸！不加GPU，萬卡叢集算力暴漲15%

2026/05/21

•

【新智元導讀】GPU一塊沒加，程式碼一行沒改，僅靠重構組網架構就讓推理叢集多擠出15%的算力！中美大模型廠商不約而同押注同一個判斷：網路，才是AI基礎設施的下一個主戰場。

Vibe Coding太火了！

幾乎所有人都一夜之間進入了「說人話就寫程式碼」的新紀元。

問題來了，如何打造更極致的算力支援？

有人開始對網路動刀了。

就在本月，OpenAI聯合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨頭髮布了MRC（Multipath Reliable Connection）網路協議，已部署在其最大規模的GB200超算叢集上。

國內這邊，智譜聯合馭馴網路與清華大學，在GLM-5.1線上生產叢集中完成了新一代組網架構ZCube的規模化落地——GPU一塊沒加，伺服器一台沒換，程式碼一行沒改，推理吞吐直接多了15%！

更加誇張的是，交換機和光模組的硬體成本還砍掉了三分之一。

而且叢集規模越大，這個優勢越猛。萬卡等級的叢集，光網路硬體就能省下2.1億到6.4億元。

提出並在真實生產環境中驗證這項技術的，是中國團隊。

ZCube架構發表於網路領域最頂級學術會議ACM SIGCOMM 2025，被評價為「significantly change the way we think about and understand networking」——顯著改變整個行業對網路的認知方式。

一月之間，國內外一個在協議層發力，一個在架構層動刀。殊途同歸，指向同一個判斷：網路，已經成為超大規模AI基礎設施的下一個主戰場。

ZCube：推翻二十年的

「堆交換機」邏輯

過去幾年，AI基礎設施的軍備競賽只有一個維度：堆GPU。

更多、更快、更猛。

但當推理叢集規模突破千卡、萬卡，一個反直覺的現象開始出現——GPU的利用率不升反降。

原因很簡單：大模型推理不是單兵作戰，是協同打仗。

每處理一個使用者請求，叢集中的GPU需要高頻、大量地互相傳遞中間資料（尤其是KV Cache）。

隨著Prefill（處理輸入）與Decode（生成輸出）分離部署成為主流，資料在GPU之間的流向變得高度動態、不對稱——有的鏈路擠滿資料，有的鏈路空空如也。

智譜的線上實測資料給出了量化證據：在一個32卡規模的推理服務上做控制變數實驗，僅把網路頻寬從100Gbps提升到200Gbps，推理吞吐就提升了約19%，首Token響應時延下降了約22%。

而且這個規律隨著叢集規模擴大，會越來越顯著——GPU的性能天花板，其實是被網路「鎖住」的。

過去二十多年，全球資料中心普遍採用Fat-Tree / Clos架構組網。

這套方案的核心思路非常樸素：多層交換機一層一層堆上去，規模不夠就加層。

網際網路流量時代，這套邏輯運行良好。AI訓練叢集裡，也基本夠用。

但大模型推理是一種全新的流量模式。

在PD分離部署場景中，Prefill節點和Decode節點之間需要頻繁傳遞KV Cache，不同請求的長度千變萬化，資料流向毫無規律。

傳統Clos架構面對這種流量時，一個結構性的死穴暴露了出來：流量會被拓撲關係天然地推向同幾台交換機和同幾條鏈路，形成熱點堆積、佇列反壓、鏈路擁塞。

ROFT架構中，Leaf交換機之間容易出現流量負載不均

這是路網設計本身的問題。

ZCube的做法，簡單說就是三個字：拆掉它。

設計的精妙之處在於：全網任意兩張GPU之間，有且僅有一條最優路徑。沒有多路徑選路的衝突，沒有「車流擠到同一個路口」的結構性隱患。

擁塞不是被控制了，而是從架構層面大幅降低了結構性擁塞產生的機率。

打個比方：傳統Clos是給一座已經堵死的城市裝更多紅綠燈；ZCube是重新規劃了整張路網，讓每輛車都有自己專屬的最優路線——從源頭上大幅減少了堵車的可能。

更值得關注的是網路直徑。

ZCube的網路直徑僅為2跳，全網GPU經過兩台交換機即可互達，介於一層組網（1跳，規模受限）和傳統二層組網（3跳，延遲高）之間——兼顧了低延遲與高擴展性。

硬體不換，程式碼不改，吞吐多15%

理論再漂亮，要看真刀真槍的生產資料。

智譜在運行GLM-5.1 Coding推理服務的千卡叢集中，將原本部署的ROFT（Rail Optimized Fat-Tree）網路架構直接升級為ZCube。

這次改造並不是簡單的「換根網線」——ZCube取消了傳統Clos的Spine層，原有的布線模式、IP編址策略、路由策略和交換機配置全部無法復用，需要從頭設計。

馭馴網路團隊為此開發了ZCube控製器、機房佈局設計工具和連線正確性檢測程序等一整套自動化工具，才在極短時間內完成了大規模生產叢集的改造。

控制變數極其乾淨：GPU型號不變、軟體棧不變、業務程式碼一行不改，唯一的區別就是組網架構。

結果是這樣的：

GPU平均推理吞吐提升15%以上——同樣的硬體，每秒多服務15%的使用者請求
TTFT P99（首Token尾延遲）下降40.6%——使用者等待的「」最壞情況「」大幅改善
交換機與光模組硬體成本減少三分之一——花更少的錢，反而跑得更快

在當前算力緊缺、推理需求持續暴增的背景下，同樣一堆硬體憑空多擠出15%的產能，這那裡是「最佳化」，這是「存量資產的效率重估」！

目前，該ZCube叢集已在GLM-5.1 coding推理服務中穩定運行超過兩周。

MRC vs ZCube

回到開頭提到的MRC。

OpenAI聯合五大晶片與雲端運算巨頭髮布的這套協議，本質上是一種多路徑並行傳輸方案。

MRC和ZCube的關係，可以用一個比喻說清楚：

MRC最佳化的是「交通規則」——車已經上路了，通過更聰明的調度讓車流更均勻，遇到事故能瞬間繞行。它在協議層發力，解決的是「已經出現擁塞後怎麼辦」。

ZCube重新規劃的是「路網本身」——從拓撲設計上降低擁塞產生的機率，讓每輛車都有唯一最優路線，從源頭減少擁塞出現的機會。它在架構層動刀，解決的是「為什麼會出現擁塞」。

前者是治病，後者是防病。技術路線不同，但雙方同時在這個月發力，傳遞的訊號高度一致：算力軍備競賽的下半場，不再只是比誰的GPU多，而是比誰能讓這些GPU真正跑起來。

值得一提的是，MRC的發佈還推動了另一個行業趨勢：乙太網路正在加速替代InfiniBand成為AI叢集的主流網路選擇。

分析機構Dell'Oro Group的資料顯示，2025年乙太網路在AI後端網路中的銷售額和出貨量已經全面超越InfiniBand。

MRC作為開放協議通過OCP發佈，NVIDIA、AMD、Broadcom等廠商的800Gb/s網路卡均已原生支援。

這意味著整個AI網路生態正在從封閉走向開放，從單一供應商走向多元競爭。

對於資本市場而言，這兩大事件密集釋放的訊號同樣值得關注：未來超大規模AI叢集的組網採購邏輯將發生結構性變化——對高端交換機的需求將向「更少層級、更大連接埠密度」演進，對光模組的需求將向更高速率集中。

800G光模組、高密度乙太網路交換機相關產業鏈，有望迎來新一輪需求釋放。

ZCube的擴展能力：一層交換機，連線萬GPU

ZCube還有一個被低估的特性：擴展性。

以當前主流配置計算（一層容量51.2T的交換機，128個400Gbps連接埠），ZCube僅用一層Leaf交換機就能建構連接16384塊400Gbps網路卡的完全連線到網路。

如果使用更高容量的交換機，或者將ZCube網路劃分為更多平面，可支援數萬甚至數十萬塊GPU互聯——仍然只需要一層交換機。

規模越大，ZCube相比傳統架構省下的交換機和光模組就越多，性能優勢也越明顯——這是一條規模越大、越划算的曲線。

從「堆算力」到「挖效率」

過去幾年，大模型行業最大的共識是Scaling Law——堆更多資料、更多算力、更大參數，模型就會更強。這個邏輯催生了萬卡叢集的軍備競賽。

但在2026年，一個新的共識正在浮現：與其無限堆GPU，不如讓現有的GPU跑得更順。

ZCube的實踐證明，僅僅通過網路架構層面的系統性創新，就能在不增加任何GPU的前提下，撬動15%的推理吞吐提升。

隨著推理規模繼續向十萬卡邁進，網路瓶頸只會隨叢集規模指數級加劇，而扁平化架構的優勢也將同步放大。

更深層的變化在於：網路設計正在從「通用互聯」走向「模型流量驅動的系統協同」。

網路不再只是連接GPU的底層管道，而正在升級為提升Token生產效率、系統穩定性和成本效率的核心能力。

智譜表示，未來將繼續面向更大規模推理與訓練叢集探索新型智算網路架構。OpenAI的MRC也在持續迭代，其規格已通過OCP開放，正在成為行業基礎標準。

一場關於AI基礎設施底層架構的重構，正在全球範圍內同步展開。 (新智元)

科技