互聯戰爭：被群毆的輝達

2024/06/28

•

今年早些時候，外媒曝光了微軟與OpenAI的一項「瘋狂計畫」：斥資千億美金，客製化一個史無前例的資料中心。然而，面對這一重大利多，輝達卻心情複雜：

爆料顯示，OpenAI拒絕使用輝達的InfiniBand網路設備，轉而投奔乙太網路的陣營[1]。

眾所周知，一個資料中心往往有數千個甚至上萬台伺服器；而連通這些伺服器的，正是以InfiniBand和乙太網路為代表的網路互聯技術。

輝達是InfiniBand路線的主要玩家，獨家提供了相關的交換器、電纜等硬體設備；其餘的科技公司，則扎堆在乙太網路賽道。

OpenAI的“反水”，對輝達而言是個巨大噩耗。

要知道，InfiniBand與以太網，彼此已互相競爭多年。 InfiniBand曾一度遙遙領先：2015年時，超級電腦Top500榜單中，超半數的上榜者都在使用InfiniBand。但在當下，隨著大客戶陸續倒戈，InfiniBand正在輸掉比賽。

去年7月，AMD、微軟等9家矽谷大廠聯手成立了超乙太網路聯盟（UEC），準備徹底擊敗InfiniBand。今年一季度，輝達的InfiniBand網路設備收入，出現了季減[2]。與資料中心等一路狂飆的業務相比，顯得格外突出。

那麼問題來了：

1.輝達的「親兒子」InfiniBand ，為何處於劣勢？

2.對於輝達而言，互聯為何是場不能失敗的競賽？

派別之爭

InfiniBand的初衷，是為了解決目前算力最大的瓶頸－傳輸速度。

兩台伺服器連接在一起，“1+1”所實現的算力必定會“小於2”，因為資料傳輸速度遠小於伺服器的算力。可以把每台伺服器，想像成一座擁有一萬輛卡車的小鎮；受制於客觀環境，每天只能往隔壁城鎮運輸200卡車的貨物。

資料中心則是由上千個小鎮所構成的王國。小鎮與小鎮之間的運輸問題，會嚴重拖累整個王國的發展。

而限制傳輸速度的罪魁禍首，是落後的網路協定。

所謂網路協議，可以簡單理解為一種「交通規則」。電腦之間的資訊傳輸，都沿著這「交通規則」有序進行。最初的交通規則，是一種名為TCP/IP的網路協定。

這項交通規則，有個明顯缺陷：資料在傳輸時，需要經過CPU，極度佔用CPU資源，導致延遲特別高。

相當於卡車運貨的公路上，設有大量人工收費站。車子每開一段路，都要停下來掏出錢包繳費，造成了嚴重擁堵，運作效率可想而知。

在這一大背景下，全新的RDMA網路協定（遠端直接記憶體存取）應運而生。顧名思義，它可以繞過CPU，直接存取另一台伺服器的記憶體。換句話說，新的交通規則，將高速公路上的人工收費站全撤走了，改設成ETC。

但基於RDMA網路協議，業界卻衍生出了兩個不同的實現方向：

一是「外部革新派」。

基於RDMA全部推翻重來，重新建構一套網路協議，以實現極致的效能。其成果，正是輝達的InfiniBand。全新的交通規則，使得資料傳輸可以同時繞過CPU與內存，相當於把ETC也撤了，直接透過GPU進行資料互動。

InfiniBand（無限頻寬）這個名字，正是其極致理念的一種體現。

二是「內部改良派」。

一個熱知識，乙太網路是最普及的區域網路技術，幾乎所有電腦系統都支援乙太網路設備。改良派的做法，正是利用RDMA網路協議，去改造乙太網路。

由此可見，InfiniBand與乙太網路的競爭，本質是同一技術路線的派系之爭。

在算力供應嚴重不足的當下，大刀闊斧革新的InfiniBand，本應更受到市場青睞。然而，各大矽谷巨頭卻「十動然拒」。不只微軟，Meta也選擇全面擁抱乙太網路。

InfiniBand之所以如此不受待見，問題恰恰出在革新過於激進了。

激進的代價

2019年，圍繞以色列公司Mellanox，微軟、英特爾、輝達三家巨頭展開了激烈的競購。

Mellanox是InfiniBand方案的唯一供應商，市值為22億美金。為此，英特爾特別預留了60億美金的現金流，本以為勝券在握；沒想到輝達更狠，以69億美金的高價將Mellanox收入囊中[7]。

這是輝達有史以來最昂貴的一筆收購案。然而，老黃的梭哈，為輝達帶來了不斐的經濟回報。

前文曾提到，InfiniBand只是一種「交通規則」；想要使用這項技術，還得搭配硬體。

然而，由於InfiniBand的革新過於激進，重新設計了物理鏈路層、網路層、傳輸層，並不適配傳統的硬件，需要更換整套基礎設施，包括專門的交換器、網卡、電纜。

這些配套網路設備，全部由輝達獨家提供。

相當於InfiniBand重新定義了一套更有效率的交通規則，但並不適用於小鎮原本的燃油卡車；為了提升送貨效率，小鎮還得向輝達採購一批新能源卡車。

由此可見，InfiniBand其實是一套「專用」方案。透過推廣此方案，輝達可以大搞捆綁銷售，向客戶兜售專用的配套網路設施。

因此，InfiniBand的使用成本一直很高。科技公司在建置資料中心時，需要掏出20%的開支用於InfiniBand；如果改成通用的乙太網路方案，只需要一半甚至更少的費用[8]。

為了讓科技公司用InfiniBand，老黃可謂用盡套路：

例如輝達同時販售InfiniBand與乙太網路的網路卡，兩者的電路板設計完全相同，但乙太網路的交貨時間明顯較長[9]。

輝達的小算盤在於，雖然咱貴，但性能強啊。 InfiniBand方案可以大大改善AI訓練，早點把模型做出來投入市場，這錢不就賺回來了嗎？

然而，令輝達尷尬的是，隨著「內部改良派」陣營不斷壯大，InfiniBand與乙太網路的性能差距被縮小了。

2014年時，改良派的最新成果RoCE v2網路協定問世，改變了InfiniBand一枝獨秀的局面。去年，輝達面向InfiniBand與以太網，分別推出了一款交換器。儘管兩者定位有所不同，但均能實現800Gb/s的端對端吞吐量。

當通用方案也能做到85分時，專用方案就開始失去魅力。 5-10分的領先，很難讓科技公司多付一倍的價格。

而去年7月成立的超以太網聯盟，則打算在RoCE v2網路協議的基礎上，面向大模型這一場景，開發一套新的乙太網路協議，全面超越InfiniBand。

新的「反輝達聯盟」一呼百應。截至今年3月，包括字節跳動、阿里雲、百度等國內科技公司，也加入了其中。

面對超以太網聯盟的“正義群毆”，輝達沒有再負隅頑抗。

過去一年，黃仁勳越來越少在公開場合提及InfiniBand。將來，InfiniBand與乙太網路之爭或將漸漸劃上句號。然而，輝達並沒有放棄互聯這塊蛋糕，轉而將籌碼押注到自家的Spectrum X乙太網路平台上。

因為，互聯正日漸成為大模型時代的兵家必爭之地。

下一個戰場

今年1月，美國顧問公司Dell'Oro Group發布了一份報告，當中提到：隨著人工智慧爆發，科技公司對通訊互聯的需求激增，從而帶動交換機市場擴大50%[10]。

科技公司之所以對連結這麼熱情，是因為在過去一年的野蠻擴張中，漸漸碰到了天花板。而以InfiniBand和乙太網路為代表的互聯技術，正是打破瓶頸的關鍵。

科技公司遇到的第一個問題，是算力開支過於昂貴。

輝達的AI晶片，一向以昂貴著稱：最新的B200晶片，單塊起售價達到了3-4萬美金。眾所周知，大模型是一隻餵不飽的「算力吞金獸」。為了滿足日常使用，科技公司通常需要購買至少數千塊AI晶片，這筆錢燒得比直接碎鈔都快。

如果自研晶片，同樣也會遇到類似的問題。由於晶片製程迭代放緩，提升晶片算力上限，需要付出更多的成本。

然而，由於傳輸速度的限制，資料中心並沒有發揮出晶片全部的算力。相較於硬著頭皮堆晶片，提升資料傳輸速度，提高算力利用率，相對更具性價比一些。

第二個問題是功耗。

隨著資料中心越做越大，功耗也在直線上升。祖克柏曾在訪談中提到，近幾年新建的資料中心，功耗已經達到了50-100兆瓦，稍大一點的已經達到了150兆瓦。照這個趨勢下去，300、500甚至1000兆瓦，都只是時間問題[11]。

然而，根據美國能源資訊署的數據，在2022年夏天，矽谷所在的加州，總發電量為85,981兆瓦[12]。面對越來越多的“電力怪獸”，電網實在有些滿頭大汗。

為了訓練GPT-6，微軟與OpenAI曾經搭建了一個由10萬張H100組成的伺服器集群，測試了一下發現當地電網直接罷工。

目前，微軟與OpenAI的解決方案，是「跨地區的分散式超大規模叢集訓練」。

翻譯成人話就是，將幾十甚至上百萬塊AI晶片，分散在多個城市或地區，再藉助InfiniBand或以太網，連成一個整體－互聯又一次發揮了至關重要的作用[13] 。

如果說，大模型世界的準則，是大力出奇蹟；那麼互聯的價值，就在於拔高大力出奇蹟的物理上限，讓scaling law的飛輪再轉得久一些。

在人工智慧時代，互聯註定將會是最重要的議題之一；而對輝達，以及其他科技公司而言，這都是一場輸不起的比賽。

尾聲

在矽谷，輝達越來越像只「惡龍」。在互聯的領域，大半科技公司都站在了輝達的對立面。至於GPU就更不必說，大廠自研晶片擺脫輝達，早已是個公開的秘密。

老黃這麼不受待見，很大一個原因，是因為錢基本上都被他賺去了。

不論是InfiniBand，還是AI晶片，輝達都幾乎做到了壟斷，擁有很強的議價權。相較之下，科技公司們扎堆大煉AI，卻苦於沒有成熟的商業模式。大家回頭一看，發現只有一個皮衣男子賺得盆滿缽滿，難免心有不快。

所以，也不怪矽谷大廠都開始「自力更生」了。畢竟，「窮」才是推動進步的原動力。(遠川科技評論)