輝達還能走多遠

輝達是對算力追求有執著,而不是對人工智慧有執著。算力與人工智慧之間的強繫結,過去從學術界的角度來看,是一個偶然事件,但之後從產業界商業化兌現的角度來看,卻是一個必然事件。輝達自2020年收購邁洛思Mellanox,進而部署晶片算力的同時,也前瞻性佈局叢集算力,如其所願等來了人工智慧需求的崛起。


1

博通:手握大量Serdes IP,恰逢AI網路時機來臨

2024年,全球商用乙太網路交換機晶片的市場格局,博通一家佔據了接近70%的市場份額,Marvell則佔據了約20%,輝達等其他公司則佔剩餘的部分。究其緣由,是因為博通擁有大量近乎市場壟斷的Serdes IP,進而是資料中心網路領域的絕對領導者,其得益於博通在過往數十年之中對乙太網路生態的技術經驗積累。

此次定製晶片ASIC市場需求的崛起很大程度上有反應在博通的股價增長層面上,市場對AI時代的預期增長點,已從對晶片算力單純追求的同時,開始轉向對網路連線重要性的預期提升。此次第三財季的博通營收方面,AI相關的業務同比增長2倍,其中AI定製加速器同比增長3.5倍,乙太網路交換機晶片(主力產品是Tomahawk5 與 Jericho3-AI)則同比增長4倍,AI網路連線的價值貢獻正式開始上升。

這種變化主要是由於超大規模AI叢集對網路頻寬和低延遲的需求增加,進而行業叢集規模持續擴大的趨勢之下,網路連線成為釋放AI叢集性能潛力的關鍵因素。具體進一步分析來看,網路連線的價值量佔比在規模較小的AI叢集中,如10萬個XPU,其價值佔比大約為XPU總價值5%-10%。與此同時,當AI叢集規模擴大到50萬到100萬個XPU時,這一比例會顯著上升至15%-20%的價值佔比。2025年北美四大超級雲廠商資本開支預計提升1000億美元至3150億美元,同比增加46%,同比增速保持高位運行,算力需求市場保持樂觀,進而建立更大規模的AI叢集也是目前海外超級雲廠商共同的佈局趨勢。

現階段輝達的專有網路連線NVLink+InfiniBand,已成為軟體生態護城河CUDA之外的硬體護城河。目前行業尋求突破輝達晶片算力的壟斷,也正是從其硬體護城河開始,疊加此次全球推理業務需求的首次崛起,定製晶片ASIC份額持續擴大的加持之下,為行業突圍輝達壟斷提供了極佳的時間窗口。

2024年第三季度,UALink 1.0技術標準發佈,該技術已實現在單個叢集中連接多達1024個AI加速器。UALink聯盟的創始成員包括博通、AMD、思科、Google、英特爾、Meta和微軟等,該聯盟的成立是為了挑戰輝達的專有NVLink技術,為可擴展的AI加速器互連建立一個全行業的開放標準,使不同廠商的加速器能夠無縫整合。UALink聯盟的成立標誌著行業對高性能、低延遲互連技術需求的增加,聯盟匯聚的力量有望打破輝達在該市場的主導地位。

在此之前,行業曾推出CXL協議,旨在挑戰NVLink技術,只是目前仍未能完全達到NVLink在GPU間直接連接的性能水平,但其開放性和多功能性使其在異構計算和大規模資料中心環境中具有廣闊的應用前景,市場空間超百億美元,特別是在記憶體擴展、資源池化方面的應用。

此次輝達GB200 NVL72的極大創新之處在於,相對於上一代H系列的經典8 GPU NVLink互聯方案而言,很大程度上擴展了NVLink所支援的平行計算規模,進而提供36個CPU+72個Blackwell GPU的整套互聯方案,算力直達1EFLOPS,即便數台也足以支撐GPT4等超一兆參數量的大語言模型訓練。

很顯然,在NVLink的助力之下,輝達的超節點算力現階段已經遙遙領先於全行業。具體進一步分析來看,與相同數量的H100 GPU相比,GB200 NVL72可為超兆參數量大型語言模型提供4倍的訓練性能,30倍的推理性能。一方面實現了NVL72在無論是訓練端還是推理端所表現出來的性價比,皆創有史以來最佳水平的同時,其推理性能現階段的表現甚至是其訓練性能的七倍以上,更加完美地契合了2025年起算力推理端需求的崛起。

究其緣由,出現推理性能如此大幅度領先於訓練性能的主要分析還是在於,NVLink的存在,繞過了傳統PCIe匯流排的頻寬限制和延遲問題,進而實現了GPU之間雙向頻寬高達1.8TB/s。這樣一對比速率,本質上就是1.8TB/s,與PCIe 6.0協議的128GB/s的巨大區別,而這些領先參數正是基於NVLink架構所實現的。與此同時,疊加輝達專有的CPU與GPU互連技術,即,NVLink Chip-2-Chip,旨在實現記憶體一致性的資料傳輸,進而得益於此,應用程式可以一致地訪問巨大的統一記憶體空間,而這是前所未有的技術實現。相對於訓練端而言,推理端更受益於記憶體頻寬GB/s的大幅度提升,進而輝達的推理場景性能才有了如此巨大幅度的提升。

博通擁有大量的Serdes IP,進而行業之中只要涉及網路傳輸領域相關的晶片,皆是博通的市場份額。從乙太網路交換機晶片開始、網路卡晶片、光模組晶片、甚至是基於Serdes IP再造任何一款網路協議晶片也是完全可以做到的,而這些網路連線技術的積累,正好是接下來挑戰輝達專有網路的基礎。

輝達的網路連線NVLink,以及其通訊匯流排InfiniBand,其底層高速資料傳輸也同樣是受益於Serdes技術的發展,目前行業發展階段已來到了224G Serdes節點。此次定製晶片ASIC市場需求預期的崛起,主因是全球人工智慧演算法發展的現階段,行業對基於Transformer架構及其演算法變種的認可度已經成為主流,底層計算中由張量運算為主的演算法確定性逐漸增強,進而推高了行業面向張量運算ASIC體系發展的價值量。

未來三年,推理業務需求崛起所帶來的定製晶片ASIC價值增量,將會是數倍於博通現階段半導體業務的全年營收,進而預計會逐步滲透至輝達GPU的市場份額。

從技術擴散的角度看晶片,硬體層面的技術壁壘的逐漸消除是技術迭代的必然結果,晶片的真正壁壘來源於其背後的軟體生態。例如,高通、英特爾、AMD等公司在伺服器和手機晶片市場的競爭力大部分歸功於它們所建構的軟體生態。這正是為什麼儘管輝達曾努力顛覆X86系統,但受限於大量軟體基於X86架構,其努力並未成功。

因此,晶片的競爭實際上是軟體生態的競爭,這也正是目前行業選擇從網路硬體NVLink+InfiniBand突圍輝達壟斷的核心原因。不難發現,現階段行業的兩大聯盟,UALink、超乙太網路聯盟UEC,其突圍方向分別對標NVLink、InfiniBand,而這兩大聯盟的領頭羊正是博通。

在差不多20年前,晶片發展史上就曾出現過,產品技術的迭代成功突圍了硬體層面的技術壁壘,即,定製晶片ASIC取代通用晶片GPU的過程。

早年行業算力較低,平行計算較弱的 CPU 得以也能夠參與早期的比特幣挖礦,進而成為當時最主要的算力來源。2010年起,隨著比特幣持續走高,挖礦算力需求快速提升,同時由於比特幣採用 SHA256 雜湊演算法適合併行計算,因此在2010年至2012年期間,GPU算力逐漸取代晶片CPU,進而成為當時最主要的算力來源。2012年後期比特幣繼續全球暴漲,挖礦算力需求進一步增長,高性價比定製晶片ASIC開始出現在市場。

我們認為雜湊演算法的確定性以及行業對下游算力需求的樂觀預期,共同造就了挖礦行業ASIC晶片快速取代通用晶片GPU的歷史處理程序,至此全球挖礦算力需求絕大部分市場皆由定製晶片ASIC所佔領。從挖礦時代定製晶片ASIC的異軍突起,進而取代通用晶片GPU成為挖礦主力,再到如今AI算力晶片ASIC的重出江湖,博通帶頭行業聯盟率先從網路硬體NVLink+InfiniBand突圍輝達壟斷,歷史似乎又準備開始重演。



與此同時,通訊匯流排是整個AI叢集的靈魂,InfiniBand與乙太網路的匯流排之爭,其實也正是人工智慧的生態之爭。目前AI產業的發展路線正在從以訓練為主轉向訓推並重,乙太網路高適配性及經濟性優勢預測將隨著推理業務側的需求崛起被進一步放大。

從不同市場來看,目前InfiniBand在全球超算TOP100市場佔據60%以上份額,主要是由於InfiniBand的技術優勢非常適用於超大規模的高性能智算中心,同時InfiniBand架構有先發優勢,其早在2000年就發佈了InfiniBand架構規範,領先於RoCE乙太網路長達十年之久。

2014年,RoCE v2面世,RoCE乙太網路與InfiniBand的性能差距開始縮小,進而乙太網路憑藉著成熟且開放的生態鏈,在智算中心市場開始迎來反攻。目前在全球超算TOP500市場中,RoCE乙太網路佔據近50%市場份額,並於2016年超過InfiniBand。很顯然,RoCE乙太網路在中低端市場更佔優勢,主要是得益於其具備成本優勢和高相容性的生態優勢。

未來趨勢上來看,RoCE乙太網路、InfiniBand,兩者將逐步分化形成互補格局,但2025年起推理業務側的需求崛起,AI後端網路基於乙太網路部署預計將開始成為行業首選。根據博通方面2024年的相關表態,目前全球部署的8個最大的AI叢集之中,有7個使用博通的乙太網路解決方案,預計2025年開始所有超大規模的GPU叢集,將大機率基於乙太網路部署,進而RoCE乙太網路在中高端市場的份額將進一步滲透。

目前10萬卡叢集正在成為北美超級雲廠商的標配,此規模的AI叢集用FP8訓練GPT4超兆參數量的大模型,時間上只需要四天。行業建構一個包含10萬張H100加速卡的叢集,目前使用InfiniBand組網的總成本約為40億美元,乙太網路成本相較InfiniBand降低約5億美元,主要是由於InfiniBand的網路技術體系是封閉的,其網路裝置並不相容現有乙太網路的網路裝置,需要專用的InfiniBand網路卡、InfiniBand交換機,進而組網成本最高。同時輝達自2020年收購邁洛思Mellanox,目前幾乎佔據了整個InfiniBand市場。


2

三年後的AI算力,ASIC與GPU平分天下

此次博通方面的相關表態,其預測到2027年AI相關業務收入將達到600-900億美元的服務可觸及市場SAM,這一預測是基於博通現有的三大客戶,即,Google、Meta、字節跳動的收入機會。這一數字遠高於市場預期,其意味著從2024年到2027年,博通的AI收入預計將實現每年翻倍。在此之前,博通的AI業務收入,就已經從2023財年的38億美元,增長到2024財年的122億美元,特別是其從GoogleTPU項目中獲得了顯著的收入增長,2024財年中所貢獻的收入將達到80億美元。

博通作為GoogleTPU的核心合作夥伴,自2016年起便參與了TPU的設計與製造工作,還提供晶片封裝、記憶體、連通性和光學等關鍵技術,幫助Google實現了TPU的持續迭代。正如上述所分析,定製晶片ASIC需求的崛起,其實最關鍵的不僅是博通有出色的晶片設計基礎,而是博通具備基於Serdes IP再造任何一款優秀的網路協議晶片進而實現媲美輝達專有網路的能力預期。具體進一步分析來看,Google要從目前80億美元的收入貢獻,進而增長至2027年的300億美元TPU採購,可行性預期還是非常高的。首先預計在2025年,GoogleTPU採購將超120億美元,主要是即將推出的TPU v6晶片相關。2026年起,TPU v7晶片計畫開始量產,TPU v7晶片預計將有兩個版本:v7p、v7e。在這其中,v7p版本仍交由博通負責設計,而v7e版本則由Google內部團隊負責設計ASIC die,同時聯發科負責設計I/O die。產能方面,v7e版本的全生命周期預計會有約200萬顆產量,這表明其在市場上的應用規模較大,預計將會給聯發科帶來超60億美元的收入貢獻。

博通作為Meta自研AI晶片的核心合作夥伴,與Meta在MTIA晶片方面的合作主要集中在定製化ASIC晶片的設計與開發上。目前已共同設計了Meta的第一代和第二代AI訓練加速處理器,並預計將在2024年下半年至2025年加快研發Meta下一代AI晶片MTIA 3。具體進一步分析來看,博通在與Meta的合作中不僅提供晶片設計,還參與了晶片的製造、測試和封裝等環節。這種深度合作使得博通有望在未來三年內從Meta的訂單中獲得顯著的收入增長。預計在2025年,Meta的MTIA晶片將為博通帶來20-30億美元的收入貢獻。同時博通CEO預計Meta的MTIA晶片需求將在未來三年增長10倍,這將進一步顯著提升博通的收入。目前Meta的訓練任務主要依賴GPU算力叢集,擁有等效60萬卡H100的算力。

字節跳動與博通合作開發定製化的AI晶片,旨在確保高端AI晶片的穩定供應,預計將在2026年上市。目前在美國晶片制裁壓力之下,為應對美國的出口管制,通過定製晶片ASIC合作開發的方式符合美國的出口規定,並交由台積電5nm製程工藝製造。字節跳動在2022年美國出台限制政策前後採購了大量輝達晶片,同時字節跳動也採購了大量博通的Tomahawk 5nm高性能交換晶片以及專為AI計算叢集設計的Bailly交換機,進而能夠極大推動現階段的超大規模AI叢集的建設。值得關注的是,字節跳動預計將在2026年給博通帶來超200億美元的收入貢獻,屆時合作的定製晶片ASIC出貨量預計將高達百萬卡。這與博通CEO此次的表態相謀和,即,計畫到2027年在單一網路架構上部署每個客戶高達100萬卡XPU叢集,自此博通網路連線領域的行業優勢,屆時將大放異彩。 (新財富)