過去二十年,資料中心的效能進步主要依賴運算晶片——CPU、GPU、FPGA 不斷演進,但進入生成式AI 時代後,整個算力系統開始被網路重新定義。在大模型訓練中,GPU 間的通訊延遲與頻寬瓶頸,已成為訓練效率的關鍵限制。尤其當模型參數突破兆級,單一GPU已難以承擔任務,必須透過數千、數萬張GPU 的平行協同來完成訓練。在這過程中,網路的重要性愈發凸顯,近日,業界的一則大消息是:Meta/Oracle兩大科技巨頭選擇了NVIDIA Spectrum-X乙太網路交換器與相關技術。此舉被業界視為乙太網路向AI專用互連邁出的重要一步。同時也反映出輝達正在加速開放乙太網路生態滲透,綁定雲端巨頭與企業客戶。輝達已經憑藉InfiniBand控制了封閉的高端網絡,如今又正在「開放」的乙太網路生態中設下第二道圍牆。Spectrum-X,乙太網路AI化過去幾十年,乙太網路是資料中心採用最廣泛的網路。但在AI為核心的時代,AI 的核心挑戰不在單一節點的算力,而在分散式架構下的協同效率。訓練一個基礎模型(如GPT、BERT、DALL-E),需要跨節點同步海量梯度參數。整個訓練過程的速度,取決於最慢的那一個節點-這正是「尾延遲(Tail Latency)」 問題的根源。因此,AI 網路的設計目標不是“平均性能”,而是要確保極端情況下也不拖後腿。這對網路延遲、丟包率、流量調度、擁塞控制乃至快取架構,都提出了遠超越傳統乙太網路的要求。為此,輝達推出了Spectrum-X,首個專為AI優化的乙太網路解決方案。那麼,Spectrum-X具體做了那些改進呢?在NVIDIA最新白皮書《Networking for the Era of AI: The Network Defines the Data Center》中,輝達對此有著詳細的介紹。第一、打造無損乙太網路。在傳統乙太網路中,丟包與重傳被視為「可接受成本」。但在AI訓練中,任何丟包都可能導致GPU空閒、同步失敗或能耗激增。Spectrum-X 透過:RoCE(RDMA over Converged Ethernet)技術實現CPU旁路通訊;PFC(Priority Flow Control) + DDP(Direct Data Placement) 確保端對端無損傳輸;再與Spectrum-X SuperNIC連動,實現硬體級擁塞偵測與動態流量調度。GPU-to-GPU通訊的RDMA實作圖(資料來源:輝達)這使得乙太網路第一次具備了接近InfiniBand的傳輸確定性。第二、自適應路由與分包調度。 AI 工作負載與傳統雲端運算最大的不同在於,它產生的是少量但極龐大的「象流(Elephant Flows)」。這些流量極易在網路中形成熱點,造成嚴重擁塞。Spectrum-X採用包級自適應路由(Packet-level Adaptive Routing)與分包噴射(Packet Spraying)技術,透過即時監控鏈路負載,動態選擇最佳路徑,並在SuperNIC 層完成亂序重排。這種機制打破了乙太網路靜態雜湊路由(ECMP)的限制,使AI 叢集在流量不均時仍能保持線性擴展能力。VIDIA Spectrum-X 乙太網路自適應路由實現圖示(資料來源:輝達)第三、解決擁塞控制問題。傳統ECN擁塞控制的最大問題是響應延遲太高。當交換器偵測到擁塞並發出ECN 標記時,緩衝區往往已被填滿,GPU已出現空轉。Spectrum-X透過硬體級In-band Telemetry(帶內遙測) 即時上報網路狀態,SuperNIC 據此立即執行Flow Metering(流量節流),實現亞微秒級回授閉環。輝達聲稱,其技術已展現出創紀錄的效率,其擁塞控制技術實現了95% 的資料吞吐量,而現成的大規模乙太網路吞吐量約為60%。第四、性能隔離與安全。 AI雲往往需要在同一基礎架構上執行來自不同使用者或部門的訓練任務。 Spectrum-X透過共享快取架構(Universal Shared Buffer) 確保不同連接埠公平存取緩存,防止「吵鬧鄰居」任務影響他人。同時配合BlueField-3 DPU,在網路與儲存層提供:MACsec/IPsec 加密(資料在途安全);AES-XTS 256/512 加密(資料靜態安全);Root-of-Trust 與Secure Boot(硬體安全啟動)。這使得AI雲具備了類似私有叢集的安全隔離能力。可以說,Spectrum-X讓乙太網路有了「AI 基因」。因此,這也贏得了Meta和Oracle的青睞,不過兩家在採用Spectrum-X上選擇了不同的落地策略,各自圍繞自身業務訴求做出優化。Meta的路線更著重「開放可編排的網路平台」-將Spectrum 系列與FBOSS 結合、並在Minipack3N 這類開源交換器設計上實現落地,體現了Meta在軟硬分離、可程式控製麵方面的持續投入。對Meta而言,目標是以開放規範支援其面向數十億用戶的生成式AI 服務,既要高效也要可控。Oracle則將Vera Rubin 作為加速器架構、以Spectrum-X 做為互聯骨幹,目標是把分散的資料中心、成千上萬的節點聚合為統一的可編排超算平台,從而為企業級客戶提供端到端的訓練與推理服務。 Oracle 管理層將此類部署稱為“Giga-Scale AI 工廠”,並將其作為雲端競爭的差異化基石。無論路線如何不同,二者的共同點十分明顯:當算力持續呈指數級增長時,網絡層決定了這些「理論上的算力」能否轉化為「實際可用的吞吐與業務價值」。Spectrum-X的殺傷力幾何?從產業鏈競爭格局的角度來分析,NVIDIA Spectrum-X 的推出,確實是一場對乙太網路產業結構的「降維打擊」。首先要理解,Spectrum-X 不是一款單獨的交換器產品,而是一種系統策略。它將以下三個組件綁定為一個“軟硬一體”生態:Spectrum-X 交換器ASIC(實現無損乙太網路與自適應路由);Spectrum-X SuperNIC(負責包級重排、壅塞控制與遙測回授);BlueField-3 DPU(提供安全隔離與RoCE 最佳化)。也就是說,NVIDIA 把原本屬於獨立廠商的三層網路生態(交換器、網卡、加速器)一口吞下,讓“網路成為GPU 的延伸模組”,實現了Compute–Network–Storage 的垂直閉環。因此,這項策略幾乎撼動了整個乙太網路生態。這意味著過去依靠乙太網路標準生存的網路公司——無論是賣晶片的、賣交換器的、賣優化軟體的——都被迫進入一場新的博弈:要麼融入NVIDIA的AI網路體系,要麼被邊緣化。直接被波及的企業當中,首當其衝的是資料中心乙太網路晶片廠商,例如Broadcom(Trident/Tomahawk 系列)、Marvell(Teralynx、Prestera)。 Spectrum-X 的RDMA over Ethernet 能力本質上在挑戰所有高階乙太網路晶片的價值。這些廠商長期壟斷「交換晶片+NIC」雙生態,以往他們的賣點是「開放+ 性價比」。但當NVIDIA 把AI 優化特性(如DDP、Telemetry、Lossless Routing)內嵌到GPU/DPU 協同體系中後,這意味著Spectrum-X 實際上撕開了以太網的“算力黑箱”,勢必會一定程度上波及到這些廠商。再一個可能受到影響是傳統網路設備供應商,例如Cisco(思科)、Arista Networks(艾睿思塔)、Juniper Networks(瞻博),這些公司在超大規模雲端資料中心中一直是「乙太網路標準派」的代表。他們的高階產品主要賣點是:支援400/800 GbE;提供豐富的可程式特性;軟體定義網路(SDN)管理能力。但在Spectrum-X 架構下,輝達透過「GPU + SuperNIC + Switch + DPU」形成封閉但極致的性能鏈條,客戶無需再依賴Cisco/Arista 的傳統優化方案,尤其在AI 工廠這種「單租戶+極端性能」的環境中,輝達可以逐漸取代他們的角色。 Arista的市值已經有一半來自AI 網路預期,但Spectrum-X 若被Meta、Oracle、AWS 等大客戶全面採用,Arista 的成長模式可能會被削弱。第三個群體是,專注互連的新創晶片企業。如Astera Labs、Cornelis Networks、Liqid、和Rockport Networks、Lightmatter、Celestial AI等——正在開發具備低延遲、高拓撲可擴展性的客製化互連方案。首先讓我們簡單分析下這些廠商存在的意義,在輝達的世界裡,互連是垂直整合的:GPU → NVLink → Spectrum-X/InfiniBand → BlueField。但對於其他廠商(AMD、Intel、Google TPU),他們沒有控制整個堆疊的能力,因此急需這些「中立型互連供應商」 提供可替代方案。例如:Astera Labs 的Leo/Cosmos系列控製器,已經被用在AMD MI300與Intel Gaudi 平台上,用來管理GPU與記憶體池的互連。 Cornelis Networks 則與歐洲超算中心合作,推出Omni-Path 200G 網絡,以替代InfiniBand;Liqid 的Composable Fabric 方案被戴爾和HPE 整合,用於「AI 基礎設施即服務(AI IaaS)」。 Lightmatter 與Celestial AI 則瞄準更遠的未來——當光互連取代電互連時,整個AI 計算叢集的架構都將被重寫。一旦大型雲端廠選擇Spectrum-X 架構,就意味著其整個叢集在驅動、遙測、QoS 控制層面都依賴NVIDIA。新創廠商的開放Fabric 難以相容。在短期內,Spectrum-X 的整合速度與客戶綁定深度,確實讓這些獨立創新者的市場空間被明顯壓縮。InfiniBand穩坐高效能運算的王座如果說Spectrum-X是乙太網路的AI化,那麼輝達Quantum InfiniBand則是AI原生的超級網路。從一開始,乙太網路追求的是開放性與普適性——它容忍一定丟包與延遲,以換取成本與相容性。而InfiniBand的設計哲學則相反:它追求極致的確定性與零損傳輸(Lossless Determinism)。早在1999 年,它就作為HPC(高效能運算)領域的資料互連標準登場,如今已成為全球超級運算中心的事實標準。憑藉著三大特性,InfiniBand在過去二十餘年間始終穩居性能巔峰:無損傳輸(Lossless Networking):確保訓練過程中無一字節資料遺失;超低延遲(Ultra-Low Latency):通訊延遲以微秒計,遠低於傳統乙太網路;原生RDMA 與網路內運算(In-Network Computing):在網路層執行運算聚合,釋放主機負載。這些能力讓InfiniBand 成為AI 訓練時代的“通訊主幹”,尤其是在大模型動輒上萬GPU 節點的架構下,它依然能維持線性擴展與穩定的同步性能。輝達在2019年以近70億美元收購Mellanox後,掌握了InfiniBand的全端生態。最新的Quantum-2是輝達InfiniBand架構的第七代產品,被業界視為目前最具代表性的高效能網路平台。它為每個連接埠提供高達400 Gb/s 的頻寬,是前代產品的兩倍;其交換晶片的連接埠密度更是提升了三倍,可在三跳Dragonfly+ 拓撲內連接超過一百萬個節點。更重要的是,Quantum-2 引入了第三代NVIDIA SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 技術——這是一種將運算能力「嵌入網路」的聚合機制,使網路本身成為「協處理器」。在這一架構下,AI 模型訓練的加速能力較上一代提升32 倍,並支援多個租戶與平行應用共享相同基礎設施而不犧牲效能,真正實現了「網路級虛擬化」的算力資源池化。然而,InfiniBand的輝煌背後,也潛藏著結構性的挑戰。一方面,它由NVIDIA 主導並保持著較強的生態封閉性——這種「垂直一體化」的架構雖然帶來效能優勢,但也引發了雲端服務商與OEM 廠商的擔憂:成本高、生態受限、相容性有限、議價空間有限。正因如此,乙太網路陣營正在加速反擊。包括Meta、Oracle、Broadcom、AMD 在內的多家企業,正透過Ultra Ethernet Consortium(超乙太網路聯盟) 推動新一代開放標準,希望在開放乙太網路架構下重建InfiniBand 級的確定性與效能。這也是為何輝達為何選擇推出Spectrum-X的一個原因,主動把自家優勢演算法、遙測和擁塞控制機制「嫁接」到乙太網路標準體系中,以便在乙太網路生態中保持網路層的話語權。超乙太網路聯盟的指導成員結語從InfiniBand 到Spectrum-X,輝達正在完成一場看似開放、實則更深層的「壟斷重構」。它在封閉與開放之間搭建雙軌系統-一條面向HPC 與超算(InfiniBand),一條面向雲與企業AI(Spectrum-X)。最後,就用輝達白皮書中的一句話結束吧:「The network defines the data center.」——AI時代的算力,不再在晶片之間,而在連接之中。 (半導體產業觀察)