「反輝達聯盟」背後，是AI的第三場戰爭

2024/04/25

•

人類社會正悄悄從網路時代切換到算力網時代。

鮮少有人感知到的是，時代轉折序曲中，遇到的第一批實體障礙，除了GPU、HBM，還有交換機——此前市場鮮有關注的交換機，正在扼住AI算力的咽喉。

全面出擊的輝達VS蓄勢反擊的聯盟，是GPU、HBM之後AI的第三場戰爭：一場科技史上圍繞交換機的精彩對決即將上演。

01 思科後遺症

如果用人體結構來類比AI算力，可以做如下理解：AI晶片（由GPU+HBM+CoWoS組成）是心臟，CUDA等加速軟體是大腦，光模組是關節，線纜光纖是血管，以交換器為代表的網路設備是咽喉。不同的設備合集，最終呈現的是整個伺服器叢集。

其中AI晶片、CUDA、光模組、線纜，都已經被翻來覆去的討論過無數回，成為陽謀。但令人詫異的是，為什麼交換器作為核心的網路設備之一，卻一直備受冷落，只能充當AI暗器。

根據定義，交換器（Switch），工作於OSI網路模型中的資料鏈路層，智慧地決定將資料幀從哪個連接埠轉送出去，從而實現網路中的資料交換和流量管理。因此，交換器的核心作用是提高網路的效能和效率，並支援網路的擴展和管理。通俗理解，交換器就是「網路效應」的硬體載體。

而且從市場規模來看，交換器也相當重要。根據IDC《2023年網路市場追蹤報告》的最新數據，2023年全球網路設備市場規模為714億美元，其中交換器超過400億美元，是僅次於AI晶片、伺服器的核心算力組件，規模甚至要遠大於近期被火熱討論的光模組和高速儲存HBM。

黃教主其實在公開場合也表達過交換器的核心地位。老黃曾透露，在AI整個集群投資中，InfiniBand網路（以下均簡稱IB）約佔總成本的20%。這裡簡單科普一下，IB網絡是輝達在子公司Mellanox的幫助下，自己搭建的用在伺服器之間的算力通訊網絡，其中所使用的核心交換機為自產的IB交換機。

既然從技術角度來看如此重要、從市場規模看也不小，那麼怎麼交換機就始終不被大家重視呢？

筆者認為，最主要的原因在於交換器被成見式的認為是網路架構中配角的存在，畢竟HBM、CoWoS這些新名詞一聽就是十倍空間起跳的宏大故事。而一提交換機，大家條件反射式的想到：這不就是2000年網路泡沫時的思科的產品麼，還能炒嗎？

20多年前思科作為全球網路設備的絕對龍頭，與現今的輝達所享受的是一樣的地位。在2000年，思科的網路交換器市佔率超過6成，路由器市佔率超過8成，可以說沒有思科的網路設備，就不會有後來的網際網路蓬勃發展，當年思科被譽為網際網路賣鏟人。

後來的故事大家想必大家都知道了，隨著網路泡沫的破滅，思科的股價遭受了重創，從高點下跌了超過70%。公司後來花了20年，才勉強填平當年估值帶來的狂熱泡沫。科技業天然“喜新厭舊”，交換機這個老面孔自然被繞著走，何況當年被深套的恐懼還深深刻在每個投資人的反射弧裡。

但成見已經是過去式，當下時點，勢必要重新審視對交換器、尤其是AI交換器的理解了。原因無他，各方面的訊號已經非常明顯，隨便舉出兩例：

全球龍頭企業，已經開始在新型交換器和網路架構上正面激烈交鋒。除了上述的輝達，其實超乙太網路聯盟的動作也非常大，後文會具體分析。
美股投資人也開始追捧交換器標的。在最新的AI交換器中，龍頭毫無疑問是輝達的子公司Mellanox，但是由於不單獨上市和披露財務數據，看不到太多細節；第三方AI交換機的龍頭不是前文提到的思科而是後期之秀Arista，其股價在2023年上半年第一輪AI浪潮中沒有跑贏納斯達克，但是自2023年底開始加速上漲，這顯示美國投資人正在重新審視它的重要性。

02 第三面牆

今天再度重新認識交換器必要性，就緣自交換產品的本身發生了重大變化，而且交換機在網路中的重要性也在明顯提升，甚至已經成為AI基礎設施中的三堵高牆之一。

1.AI催生算力網革命

似乎網路架構已經停滯很久了。如果深究網路架構的變遷史，不難發現OSI網路模型上一次大的變革，還要追溯到十多年前雲端運算爆發時期的「網隨雲動」。在停滯十多年後，我們觀察到，AI將催生互聯網絡設備的最新革命，將促使網路架構從互聯網時代切換到算力網時代。

算力網該如何理解？首先說以前互聯網中網路設備的核心任務，是完成即時通信，所以交換機本質上是一個通信設備；而現在AI算力中心中網絡設備的構建邏輯，在於集中力量辦大事，即集合越來越強大的算力，交換器不再只是通訊設備，而變成了算力設備本身。

想必有很多人在這裡會持反對態度。不用急，請繼續看後面的解釋。

眾所周知，這一輪AI能夠成功是大力出奇蹟的工程學突破，背後的指導法則是“scaling law”，scaling law描述的模型性能與模型規模之間的冪律關係，這一法則表明，當模型的規模（例如參數數量、資料集大小和計算資源）增加時，模型的效能將會提高。

換句話說，為了得到AI大模型智能的湧現，scaling law告訴你要不停的堆算力和數據。這也是為什麼，在2024年3月初，黃仁勳史丹佛大學演講時提到，在未來的10年裡，輝達會把深度學習的運算能力再提高100萬倍。這並不是泡沫時期的大放異彩衛星，而是AI智能出現的必要條件。

算力要達到如此恐怖的提升幅度來滿足scaling law，從硬體的角度來分析，路上有三面牆：

1）算力牆：核心圍繞GPU，也是大家在AI算力硬體中關注度最高的產品。破除算力牆最關鍵的技術手段是製程和晶片架構的升級。但製程帶來的單晶片算力提升面對著黑洞般的AI需求，已顯得蒼白無力。畢竟現在的蘋果最新的3nm的A17晶片，升級的效果已經微乎其微。實際上，輝達的GPU，採用的只是4nm製程，甚至下一代產品B100，也不會升級到3nm。每一代際算力倍增可能已經是單晶片算力提升的極限了。

2）儲存牆：核心圍繞HBM。單晶片算力跟不上，可以靠HBM來大大緩解，在《AI國力戰爭：GPU是明線，HBM是暗線》一文中有詳細討論，可以移步於此。 HBM反倒成為一個快速進步的環節，海力士和美光最近股價飆升便是市場開始認知到這一方向的重要性。

3）通訊牆：算力和HBM結合在一起解決單卡的問題，但單卡再強也遠遠跟不上下游的算力需求。進一步的解決方法是堆料，拋開複雜的技術名詞，其實原理就是簡單粗暴的大力出奇蹟，把盡量多的優質的算力卡連起來組成算力集群，這與獵鷹火箭裝27台發動機本質上是一個道理，其中的關鍵技術就在於資料中心的網路技術，因此，交換器的地位今時不同往日。

從最新的輝達GB200運算叢集網路架構中，我們能夠非常清晰的看到多處堆料組網的技術：1）GPU卡與GPU卡之間，基於NVLink協定的卡間互聯，這部分配套的switch晶片，由於被輝達壟斷，沒有太多產業鏈探討的意義，因此不再展開。 2）再往上一層，就是IB交換機，它連接起多個GPU卡群，構成一個完整的機櫃Rack。 3）多個機櫃再透過交換機互聯，形成強力的AI算力中心。後面兩個環節，都離不開AI交換器的支援。

這種架構就能非常清楚的看到，為了突破通訊牆打造強大的算力基座，交換器不僅僅是充當算力網路中的通訊設備，而自身也變成算力設備的本身。正是這產業鏈環節定義的變化，給了整個交換機產業鏈拔估值的基礎。

在這一輪算力網革命中，交換機正式與GPU、HBM、先進封裝、光模組一道，站到了產業鏈的C位。

2.初聽不識曲中意，再聽已是曲中人

其實，產業鏈的這項變化不是2024年輝達透過GB200才向全世界攤牌的，最早的訊號發端於5年前。

2019年，輝達豪擲69億美元，擊敗英特爾和微軟收購了彼時絕大部分都還比較陌生的Mellanox。筆者當年也是不懂一個晶片廠玩什麼交換機，只是覺得這對於財大氣粗的輝達來說，算一個不大不小的收購，自然也是沒有仔細分析產業鏈上的協同效應。

但隨著AI算力爆發，Mellanox的重要性飆升，成為輝達IB交換機、Spectrum-X乙太網路交換的御用供應商，佔據了AI網路設備中的最高份額。毫不誇張的說，現在Arista市值接近1000億美元，Mellanox可以輕鬆給到3000億美元，較當年看似極其溢價的69億美元升值43倍，遠超這5年輝達的市值上漲幅度。

老黃當時就對這筆收購非常得意，曾說這是兩家全球領先高效能運算公司的結合，早在5年前就已經把Mellanox放在與輝達同等重要的位置上，回頭來看不得不感嘆老黃的眼光確實毒辣。

Mellanox，憑什麼能跟輝達平起平坐？ Mellanox提供的主要產品是資料中心內的通訊互聯解決方案，而其中最為核心的又是基於IB協定開發的一些列網路設備產品，這兒有必要展開說一下IB協定。

1999年，北美電腦巨頭們牽頭組織IB聯盟，目的是為了取代PCIe匯流排協議，成為智慧型裝置之間互聯的新的協議標準，IB內嵌了RDMA（Remote Direct Memory Access）功能，能將伺服器間內存、GPU記憶體直連；例如在AI的GPU叢集中，RDMA技術能加速卡片之間的交互，大幅節省時延。

但IB後來聲音日漸變小，而智慧型裝置之間的互聯，仍然是由性價比更高的PCIe協定牢牢佔據了核心位置。這是由於IB協定需要專門的網路卡和交換器來支持，導致了居高不下的硬體成本，因此在跟乙太網路的方案中競爭中敗下陣來。頭等艙是好，但沒有幾個人坐得起。

後來連IB首發者英特爾都選擇了退出，最後只有Mellanox苦苦的在這條「錯誤」的路線上堅持。 Mellanox公司成立後不久，便加入了IB聯盟並推出相關產品，到2015年，Mellanox在全球IB市場上的佔有率達到80%，雖然領先但在這一小眾市場不被人注意。 2019年被輝達收入囊中，而這之後，IB基本上從一個公開協議變成了輝達的私有協議，更不為人關注了。

直到2023年這個算力為王的時代，IB協議才一飛沖天被廣為人知。 AI大模型的橫空出世，算力的缺口一下子被放大到無限大，而作為平行運算中關鍵加速器的IB協議，成了最優解決方案，這項協議的硬體載體，正是IB交換器。

在輝達及旗下Mellanox的強勢帶領下，市場紛紛上調高速交換器的出貨量，IDC預計2023-2024年，市場高速交換機成長速度分別為54%及60%，2024年甚至還呈現加速的跡象。由於Mellanox是輝達的子公司沒辦法直接投資，美股投資人轉而追捧最純正的交換機標的Arsita，畢竟它雖然不如Mellanox優秀，但也是各大雲廠商高速交換機的最大供應商。

以點帶面，透過高速交換機這個紐帶，我們不難發現，資訊革命已經從網路進入到算力網的時代。如果在今年，你還只在聊互聯網，顯然已經被時代甩下了車；同樣，如果聊算力還只在聊GPU，顯然三大重點你只抓住了一個。

03 “失意者聯盟”

1.輝達+mellanox在幹嘛：意欲吃乾抹淨

從交換器的產品譜系圖，我們更能讀懂輝達的佈局。這張圖其實資訊含量極大，建議重複觀看。

首先說，輝達的野心很大，它從來都不是只想做一個賣卡的晶片公司，而是想做AI時代的算力方案解決商。或者說輝達商業模式的改變：從來不只是想賣鏟子，是賣給你整個礦山，別再用「賣鏟人」來形容輝達了。

輝達2021-2025年的產品路線圖，昭昭然的將這個野心公佈全球。其中標粗的是其核心的GPU產品，從A100迭代到H100，然後到今年的B100，再到2025年的X100，路線非常清晰，也是AI產業鏈的焦點。

但經常被忽略的是圖表的下半部分，輝達同時標註出了配套的交換器型號變化，分為兩個IB和以太網兩個系列方向：

選用輝達IB協議的，配套的是由Mellanox提供的Quantum系列交換機，將依次對應從400G升級到今年的800G，再到明年的1.6T。值得一提的是，在這個過程中，光模組也需要對應從800G升級到1.6T然後到3.2T，Mellanox也可以部分提供。
現在許多客戶由於只能購買輝達的GPU，已經非常被動了，因此許多企業並不情願購買IB方案，仍堅持乙太網路方案。對於這種客戶，輝達也可配套提供Spectrum-X系列的乙太網路交換機，同樣也是將依序對應從400G升級到今年的800G，再到明年的1.6T，只不過互聯效率要弱於IB方案；這幾款交換器也是由Mellanox提供。

所以，在老黃的構想裡，如果一個超算中心是專門為AI建的，那就用最快的IB交換機方案；對於存量的以太網算力中心，如果客戶扭扭捏捏，輝達也能匹配提供乙太網路方案，就用Spectrum-X交換器。簡單來說，就是面向現在和未來的生意輝達給你包圓了。

從圖中也能看到，輝達不只是想同時賣晶片和交換機，它的野心遠超於此。

如果客戶同時選購了輝達的晶片、交換機，就離採購輝達AI算力集群方案不遠了（圖表的上半部）。在整體方案中，輝達為下游客戶推自有GPU+自有網路設備+自有CUDA搭建的整個AI算力集群。這就是AI工廠的模式，價值量將是只賣GPU卡的數倍以上。

更重要的是，如果整個圖實現，這一輪的AI大潮將被輝達實現新版的軟硬體解構，軟體企業如雲端廠商負責瘋狂氪金和試誤商業模式，硬體企業輝達負責建AI全算力和旱澇保收。

有必要提的一句題外話是，這張圖也能看出輝達並不準備染指HBM和先進製程，台積電和海力士目前來看還是非常安全的。

2、輝達恐懼症：反擊者聯盟

別看各大廠的老闆，求著老黃買卡是對輝達態度非常好；但實際上，對輝達恐懼在矽谷正與日俱增，大佬們都在牌桌底下熱議如何擺脫。面對輝達如此凌厲的明牌攻勢，此前一盤散沙的非輝達陣營也展現出了空前的團結。

GPU晶片和CUDA網絡，似乎壁壘過高，儘管比如穀歌已經死磕TPU多年，但收效甚微，更多人是選擇了躺平接受了輝達在GPU上壟斷的現實，所以輝達的GPU才能毛利率高達90%以上，堪稱有史以來最暴力的硬體。

而交換協議和交換機，由於技術壁壘相對低，且處於產業變革的早期，成為眾人攻破輝達堡壘最優的一致選擇。

至此，交換機這長久以來不被重視的網路設備，一下子躍升為AI算力基礎中的暗戰高地。為了追趕輝達IB方案，2023年7月，「超乙太網路聯盟」（Ultra Ethernet Consortium）正式成立，這項聯盟迅速成為各大廠的救命稻草。英特爾、微軟、Meta、博通、AMD、思科、Arista、Eviden、HP等陸續加入。

超以太聯盟成立後，便馬上推出了RoCEv2（RDMA over Converged Ethernet）方案，在軟體層吸收了前文提到的關鍵技術RDMA，劍指的方向非常明確，那就是力爭對標IB性能。

乙太網路的後發優勢目前看有兩個：

根據產業鏈調研，輝達的IB方案比乙太網路方案貴20-30%。乙太網路方案可以透過主打價比來扳回一局。
人多勢眾。傳統的資料中心，基本上都是以太網協議，對於升級到超以太，相容性要好得多，畢竟協議就是硬體對話的語言，用的人多自然就成了主流。

在超以太聯盟中的GPU全球老二AMD，把這兩點說得更加清晰：以太網將成為AMD構建算力集群的基礎協議，因為以太網擁有更好的性能、更強大的大規模集群能力，以及最核心的開放性，希望與頭部交換機廠商一起，降低組網成本，打造更具性價比的網路。

也正是基於這兩點原因，不少人對於超乙太網路聯盟還是很有信心的。到底是乙太網路勝出，還是IB一統天下，最終答案只能留給時間來驗證。但不管怎麼樣，輝達與超以太聯盟的這輪對壘應該是非常精彩的，必將成為科技史上日後被人反覆提及的經典橋段。

但筆者傾向認為超乙太網路的勝算還是被高估了。因為Scaling Law的指導之下，AI算力網絡比拼是速度不是價格，人多如果不是最優方案，那可能也只是烏合之眾。這就像自行車肯定是更經濟的出行方式、騎的人也多，但是沒有人會用它來上高速，留給以太網聯盟的時間其實不多。

3.國產還落後乙太網路聯盟半個身位

本來行文至此就可以收筆了，但估計還有不少人關注國產算力網絡中交換機的進展，在此再贅述一二。

在網路時代的算力基礎設施投資中，得益於營運商的超前投資，中國的基礎網路速度、滲透率在全球都處於領先地位，這也在後面直接催生了中國的行動互聯網繁榮，中國的網路公司，也因此具備全球競爭力。

不少人認為，我們在AI時代，也可以依葫蘆畫瓢，上演後來者居上的戲碼。

但不得不直面的遺憾現實是，而在算力網路時代，我們的算力基礎設施處於全面落後狀態。我們不只在GPU、HBM、先進封裝方面有不少課要補，代表著算力集群能力的交換機我們也並沒有什麼優勢可言。一方面我們沒有IB交換機，只能做乙太網路交換機，而乙太網路交換器的世代更迭上也落後於海外1代，也就是落後超乙太網路聯盟半個身位。

還好和其他網路設備一樣，中國在交換器上其實一直具備很強的競爭力，這還要得益於華為20多年前的努力，以及孵化了後來的新華三。時至今日，國內的AI算力網路中的交換器仍然沿襲了骨幹網路和資料中心網路中的格局，新華三和華為依舊是主要的玩家。

種一棵樹最好的時間是十年前，其次是現在。雖然在AI交換機上我們落後了不少，但依靠歷史積累和集體的力量，如果從現在開始追趕，這一場對弈，我們未必不能上桌。 (芯師爺)

科技