悄悄崛起的輝達新對手

輝達都有哪些對手?

首選當然是AMD和英特爾,前者本身就有AI加速卡的業務,集CPU和GPU設計能力與一身,而後者呢,作為x86架構的奠基人,如今也涉足AI加速卡領域,可以見到它們所推出的產品不僅在參數上對標輝達,還在定位與售價等方面發動了一輪又一輪的攻勢。

而輝達的客戶與博通和Marvell組成統一戰線後,也成了它的對手,不斷推陳出新的自研定制芯片,開始取代傳統的通用AI加速卡,讓輝達感受到了另一種壓力。

而在網路領域,輝達也迎來了自己的對手。


輝達獨佔AI網絡

進入21世紀以來,隨著雲端運算、大數據的日益普及,資料中心也得到了快速發展。而InfiniBand在其中發揮了很大的作用,尤其是從2023年開始,以ChatGPT為代表的大型AI模型依賴InfiniBand,讓這項網路技術的關注度進一步提升。

眾所周知,現代數位計算機自誕生以來就一直採用馮諾依曼體系結構,該體系結構中有CPU(算術邏輯單元和控制單元)、記憶體(RAM、硬碟)和I/O(輸入/輸出)設備。 1990年代初,為了支援越來越多的外部設備,Intel率先在標準PC架構中引入了外圍組件互連(PCI)匯流排設計。

隨後,互聯網進入快速發展階段,線上業務和用戶規模的不斷增長對IT系統容量提出了巨大挑戰。在摩爾定律的支援下,CPU、記憶體、硬碟等零件都在快速進步,而PCI匯流排的更新換代速度卻比較慢,大大限制了I/O效能,成為了整個系統的瓶頸。

為了解決這個問題,Intel、微軟和SUN牽頭制定了“下一代I/O(NGIO)”技術標準,而IBM、康柏和惠普則牽頭制定了“未來I/O(FIO)”,並於1998年聯合製訂了PCI-X標準。

1999 年,FIO 開發者論壇和NGIO 論壇合併成立了InfiniBand 貿易協會(IBTA)。很快,在2000年,InfiniBand架構規範1.0版本正式發表。 InfiniBand誕生的目的是為了取代PCI匯流排,它引入了RDMA協議,提供更低的延遲、更高的頻寬、更高的可靠性,從而實現更強大的I/O效能。

同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的晶片公司, Mellanox 成立後加入了NGIO,後來NGIO 與FIO 合併,Mellanox 也加入了InfiniBand陣營,並於2001 年推出了第一款InfiniBand 產品。

而隨著英特爾轉向PCI Express(PCIe),以及微軟退出InfiniBand,該網路技術開始轉向電腦叢集互聯的應用領域,而新成立的Mellanox開始走上舞台,逐漸成為InfiniBand發展過程中的中堅力量。

InfiniBand雖然同時被英特爾和微軟放棄,但它在新的領域中找到了成長點。 2012年後,隨著高效能運算(HPC)需求的不斷增長,InfiniBand技術不斷取得長足進步,市佔率不斷提升。 2015年,InfiniBand技術在TOP500名單中的份額首次突破50%,達到51.4%(257個系統)。這標誌著InfiniBand技術首次成功挑戰乙太網路技術,成為超級電腦首選的內部互連技術。


而Mellanox也不斷成長:2010年,Mellanox與Voltaire合併,Mellanox和QLogic成為InfiniBand的主要供應商;2013年,Mellanox 進一步進軍網路領域,收購矽光技術公司Kotura 和平行光互連晶片製造商IPtronics,進一步鞏固其產業地位;到2015 年,Mellanox 已佔據全球InfiniBand 市場80% 的份額。業務範圍從晶片擴展到網路卡、交換器/網關、遠端通訊系統、線纜和模組,成為世界級網路供應商。

隨著AI的持續發展,InfiniBand的價值也日益顯現,Mellanox也因其在該技術上近乎壟斷的地位而成為廠商眼中的香餑餑。

為什麼InfiniBand對於AI如此重要?對於AI超級電腦來說,我們可以把它看作一個由許多圖形處理單元(GPUs)組成的集群,這些單元進行大量複雜的計算。此外,還有一些中央處理單元(CPUs)負責指揮電腦的操作,再加上一些DRAM晶片和NAND晶片,成本大約分配為:50-60%用於GPUs,10-15%用於CPUs和DRAM晶片,5-10%用於NAND晶片。

但上述所有的晶片需要互相連接,這可以透過InfiniBand或乙太網路電纜來實現,也就是所謂的“網路”,它們佔硬體成本的10-15%,而目的就是提供盡可能高的頻寬,讓數據能快速傳輸,倘若無法實現更高的頻寬,那麼無論在GPUs上花費多少成本,最後都會變得毫無意義。

輝達作為AI領域最早的探索者之一,很敏銳地察覺到了這一點,同時決定將其焦點從遊戲轉向AI。 2019 年,輝達以69 億美元收購Mellanox,超過了競爭對手英特爾和微軟的出價,後兩者的出價分別為60 億美元和55 億美元,這筆數額龐大的收購,為輝達進入網絡技術市場鋪平了道路。

當時輝達的CEO黃仁勳解釋稱,收購Mellanox的原因是:“這是兩家全球領先的高效能運算公司的合併,我們專注於加速運算,而Mellanox則專注於互連和儲存。”

GPU和網路技術捆綁銷售,聽起來有點像強買強賣,但令許多人都未預料到的是,由黃仁勳所打造的這一模式迅速取得了成功。截至今年1月,輝達的年收入翻了一番多,達到609億美元,計算和網路部門的銷售額成長了215%,佔輝達業務的78%。雖然輝達的GPU部分引起了大量關注,但其網路業務也是成功的關鍵。在該公司的最後一次財報電話會議上,黃仁勳表示,InfiniBand的營收年增了五倍,意味著其成長速度約為整個運算和網路業務的兩倍。

輝達將自身的GPU 算力與Mellanox 的網路技術相結合,打造出了一個強大的“計算引擎”,在計算基礎設施方面,輝達無疑佔據著領先優勢,


輝達的大威脅

過去,業界一直在使用輝達配套的InfiniBand 網路解決方案來部署人工智慧和機器學習技術,原因很簡單,它是目前最成熟的支援大規模部署的網路技術,但InfiniBand並非完美​​,一方面由於收購,它變成了輝達的獨家產品,另一方面,它的成本昂貴,絕非普通企業可以輕鬆負擔得起的。

輝達的CEO黃仁勳曾調侃道,InfiniBand只佔集群成本的20%,而它能將人工智慧訓練的性能提高20%,某種程度上已經收回了成本,因而InfiniBand實際上是免費的。但這樣的論點顯然是有失偏頗的,客戶必須先拿出集群成本的20%,才能真正榨取出集群的性能,這意味著用120%的成本創造120%的性能。

相對比之下,基於乙太網路的集群通常只需要額外的10% 甚至更低的成本,儘管後者在性能上往往難以與InfiniBand匹敵,但它憑著自己的低廉價格也爭取到了一部分用戶。事實上,現今高效能網路的競爭,是InfiniBand與高速乙太網路的較量,資源充足的廠商會更傾向選擇InfiniBand,而注重性價比的廠商則可能傾向高速乙太網路。

但這樣的情況並非一成不變,即便是那些具備雄厚財力的大企業,也在尋找更廉價更合適的網路方案,輝達與InfiniBand正不斷受到挑戰。

2023年7月,Linux基金會宣布,將監督成立一個超級乙太網路聯盟,該聯盟的創始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支持下,超乙太網路聯盟表示將致力於改進以太網,以滿足高效能運算和人工智慧系統所需的低延遲和可擴展性要求。

該聯盟創立的首要任務是定義和開發他們所稱的超以太網傳輸(UET)協議,這是一種新的乙太網路傳輸層協議,能更好地滿足人工智慧和HPC 工作負載的需求。

在高層次上,超以太網聯盟希望以外科手術的方式完善以太網,只對實現目標所需的部分進行改進和改動。從一開始,該聯盟就著眼於改進乙太網路技術的軟體層和實體層,但不改變其基本結構,以確保成本效益和互通性。

聯盟的技術目標包括開發規格、應用程式介面和原始程式碼,以定義超乙太網路通訊的協定、介面和資料結構。此外,聯盟也致力於更新現有的連結和傳輸協議,創建新的遙測、訊號、安全性和擁塞機制,以更好地滿足大型人工智慧和高效能運算叢集的需求。同時,由於人工智慧和高效能運算工作負載有許多不同之處,UET 將為適當的部署提供單獨的設定檔。

由於這個超級乙太網路聯盟,過去乙太網路運行AI 工作負載的幾個問題正在解決,也推動了乙太網路在傳統HPC 工作負載中更廣泛的採用,這也讓乙太網路公司找到了反攻InfiniBand的機會。


超級乙太網路聯盟成員之一,乙太網路公司Arista Networks在今年2月的財報電話會議中,其執行長Jayshree Ullal解釋了InfiniBand和乙太網路之間的區別:「如你所知,從歷史上看,當單獨考慮InfiniBand和乙太網路時各有優勢。並查看所有資料包大小上的任務完成時間一致性時,資料——包括來自博通的第三方資料——顯示在現實環境中比較這些技術,乙太網路的任務完成時間大約快10%。可以孤立地看待這些技術,也可以在實際集群中看待它們。乙太網路聯盟和一些改進,例如資料包噴灑、動態負載平衡和擁塞控制,我相信這些數字會變得更好。

「Arista聲稱其乙太網路在任務完成速度上比InfiniBand快約10%,這一點令我們感到意外,特別是考慮到InfiniBand在當前GPU集群中的深度滲透。」Jefferies分析師George Notter在會議後表示

他指出,輝達將GPUs與InfiniBand簡單捆綁銷售是該技術成功的關鍵原因,換句話說,InfiniBand受歡迎的部分原因是因為它與輝達的GPU一起銷售,但這現在GPU的積壓訂單減少了,使用InfiniBand的動機也可能減少,這對Arista以及另一家乙太網路公司博通來說是個好消息。

「我們在四個主要的AI以太網集群中取得了進展,這些集群都是我們戰勝InfiniBand的案例。在所有四個案例中,我們現在正從試驗轉向試點,每年連接數千個GPU,」Arista執行長Jayshree Ullal解釋。

Arista在上季業績表現也非常不錯,截至3月的三個月中,Arista的營收年增了16%,每股收益成長了44%,分析師預計隨著AI基礎設施支出的增加,這一成長將會加速。 Arista約40%的業務來自微軟和Meta,這兩家公司都宣布明年將再次增加資本支出。 Jefferies分析師George Notter最近也將Arista的評級從持有上調至買入,他表示:“現在,部署基於GPU的基礎設施(包括以太網)的熱潮將會持久。”

Arista並不是唯一一家受益於「部署熱潮」的網路公司。博通截至2月4日的三個月營收年增了34%,達到120億美元,其中網路收入成長了46%,達到33億美元。 「這主要是由於我們的兩個超大規模客戶對AI加速器的強勁需求,」博通執行長Hock Tan在財報電話會議上解釋道。

網路硬體的需求比博通預期的還要快,「超大規模客戶以及部署AI資料中心的大型企業的強勁需求」推動了這一成長。因此,博通將其網路業務的全年成長預期從30%上調至35%。整體而言,博通今年的營收預計為500億美元,比去年成長40%。

國外媒體nextplatform提出了一個有趣的數學問題:Arista Networks 在AI 集群互連銷售中每賺取7.5 億美元,輝達可能會損失15 億至22.5 億美元。在過去的12 個月中,粗略估計輝達在InfiniBand 網路方面的銷售額為64.7 億美元,而資料中心的GPU 計算銷售額為397.8 億美元,在四比一的分紅率和穩定的市場條件下,輝達可以保留約13 億美元,而超級乙太網路聯盟可以保留17 億至26 億美元,如果一切保持不變,InfiniBand 的銷售目標將達到120 億美元。

該媒體指出,超級乙太網路聯盟的成員可以搶佔的市場份額很大,但他們將透過從系統中移除收入來搶佔,就像Linux 對Unix 所做的那樣,而不是將收入從一種技術轉換為另一種技術,其中節省下來的資金將重新投入GPU 中。

挑戰輝達

輝達不只在網路領域受到挑戰,正如我們前文中提到的,它的最大依仗——GPU正在受到AMD、英特爾、博通等公司的圍剿,儘管它坐擁3兆美元市值,但依然會倍感壓力。

在網路市場,Arista現在無疑還是非常弱小的一家公司,相較於輝達InfiniBand動輒數十億美元的營收,短期內它還難以挑戰,但巨頭們對於AI集群網絡壟斷的不滿,讓Arista獲得快速發展的寶貴機會,假以時日,它很有可能成為輝達新的心腹大患。(半導體產業觀察)