黃仁勳台北“煩心事”：他們“組團”來給我添堵！

2024/06/02

•

笑傲江湖、一騎絕塵、與蘋果市值只有一步之遙的輝達儼然已成為“全民公敵”，在其固若金湯的護城河內，各方陣營都伺機而動群起攻之。

除英特爾、AMD等半導體廠商以及眾多雲廠商、初創公司在GPU這一大本營不斷衝鋒之外，圍繞輝達的CUDA生態、InfiniBand網路不同勢力也在著力反攻之外，這不，又著眼於輝達的互聯技術NVLink發起新一輪圍攻，似乎要在台北電腦展前，給黃教主施加壓力。

包括AMD、博通、思科、Google、惠普、英特爾、Meta和微軟在內的八家公司宣告，將為AI資料中心的網路制定新的互聯技術UALink（Ultra Accelerator Link），建立一個新的開放互連標準，以打破輝達的壟斷。

進階到第五代的NVLink會被撕開一道口子嗎？

NVLink積十年之功

無論是CUDA，還是NVlink，無疑都體現了輝達的高瞻遠矚和強大的執行力。

隨著人工智慧、巨量資料等技術的快速發展，傳統的計算架構已經難以滿足日益增長的計算需求。特別是在多GPU系統內部，GPU間通訊的頻寬成為制約系統性能的關鍵因素。傳統的PCIe匯流排雖在一定程度上滿足了資料傳輸的需求，但在高頻寬、低延遲的要求下，其性能逐漸顯得捉襟見肘。

為解決這一問題，輝達排兵佈陣十年之久：於2014年推出了NVLink技術這一專門用於連接輝達 GPU的高速互聯技術，NVLink旨在為GPU互連提供簡化、高速、點對點的網路，以提升GPU算力的可擴展性，形成強大的叢集算力。

從誕生至今，已經歷了五個代際的演進，每一代NVLink都在連接方式、頻寬和性能不斷提升，以應對日益增長的計算需求。2024年，隨著輝達全新Blackwell架構的發佈，NVLink 5.0也隨之而來。NVLink 5.0以每秒100 GB的速度在處理器之間傳輸資料，每塊GPU擁有18個NVLink連接，Blackwell GPU的總頻寬可達到1.8TB/s，是NVLink 4.0的兩倍，也是行業標準PCIe Gen5匯流排頻寬的14倍。

此外，輝達自研的NVLink-C2C技術，還支援定製裸片與輝達GPU、CPU、DPU、NIC和SOC之間的互聯，其GB200超級晶片中CPU與GPU的連接即採用了該技術。

NVLink技術的核心包括NVSwitch晶片，類似於交換機ASIC，可通過高速的NVLink介面連接多個GPU，提高伺服器內的通訊和頻寬。第三代NVSwitch具有64個NVLink4連接埠，可支援以900 GB/s的速率互連每對GPU。而NVLink交換機內建NVSwitch3晶片，負責在多個GPU之間建立通訊鏈路，實現高速的資料傳輸和共享。這種架構使得NVLink能夠靈活地適應不同的系統組態和需求。通過採用NVLink和NVSwitch技術連接GPU，輝達也推出了DGX系列伺服器或具有類似架構的OEM HGX伺服器，提供出色的GPU互聯性、可擴展性和高性能計算能力。NVLink伺服器在科學計算、人工智慧、巨量資料處理和資料中心等關鍵領域已變得不可或缺，持續推動這些領域的創新和發展。

可以說，過去十年間，NVLink已成為輝達GPU的核心技術及其生態系統的重要組成部分。隨著先進計算領域的不斷髮展，NVLink的重要性和影響力也在不斷擴大。

持續的圍攻

如果說持續迭代的GPU是輝達縱橫馳騁的利器，那麼CUDA、NVLink和InfiniBand則是其不可或缺的三大護法。CUDA的重要性自不待言，而NVLink和InfiniBand也協同創造了一個強大的計算生態系統，NVLink實現GPU高速連接，而InfiniBand則處理跨節點資料傳輸，無縫支援高要求平行計算和機器學習任務。

這三者的結合讓輝達在生成式AI、高性能計算等市場無出其右，不僅確立了其作為行業標準制定者的角色，還進一步擴大了其在技術前沿的壟斷地位。

輝達2025財年第一財報顯示，第一季度總營收260億美元，創歷史新高。其中，資料中心業務貢獻了輝達的絕大部分營收，收入達226億美元，同比增長427%，環比增長23%。輝達超越蘋果成為全球第二大市值的公司已指日可待。

對於輝達風頭無兩的“創世紀”，其他巨頭們早就大寫的“不服”，除了在GPU陣地持續深耕之外，在CUDA生態層面也在合縱連橫意圖開創新生態來分庭抗禮。此次集體組團成立UALink以定義新的行業標準既不是首次，看來也不會是最後一次。

之前科技巨頭們就已在挖InfiniBand的牆角。

早在2023年7月，Linux基金會就聯合博通、思科等多家公司成立了一個“超級乙太網路聯盟”，著力為高性能網路建構基於乙太網路的完整通訊棧架構，意圖實現比InfiniBand網路更高效、更具可擴展性的網際網路絡，從而打破Inifiband的江湖地位。

目前在高速互聯技術領域，除了輝達的NVLink，AMD的Infinity Fabric技術是唯二之選。

而且，不同於輝達NVLink“獨美”，AMD已開始向新合作夥伴開放其Infinity Fabric生態系統。在去年年末AMD MI3000的發佈會上，博通宣佈其下一代PCIe交換機將支援XGMI/Infinity Fabric。

不僅如此，AMD還希望Arista、博通、思科等合作夥伴能推出適用於Infinity Fabric等產品的交換機，能夠方便MI3000在單一系統外實現晶片間通訊，這類似於輝達的NVSwitch交換機。

此番巨頭們合力要在輝達的NVLink重圍中開創新的自由王國，真正的問題是UALink能走多遠？

UALink能走多遠？

值得注意的是，Ultra Accelerator Link聯盟的核心於去年12月就已建立，目前UALink發起人工作組已經成立了UALink聯盟，預計將在2024年第三季度正式成立。

UALink聯盟意圖以開放來瓦解輝達封閉互聯技術的力量，讓多個不同供應商的GPU連接到一個機箱內，或者是連接到一個Pod（艙）內成為UALink聯盟的宏願。

設想一下，使用UALink可以將一個帶有AMD GPU的Pod，一個帶有Intel GPU的Pod和另一個帶有若干AI晶片的其他品牌供應商的艙連接在一起。如同Meta和微軟發布的開放加速器模組 (OAM) 規範允許系統板上加速器插槽的通用性一樣，UALink將在互連層面上實現伺服器設計的通用性。

據悉，聯盟正在著手制定UALink V1.0 規範，1.0版規範預計將於2024年第三季度推出，並向參加超級加速器鏈（UALink）聯盟的公司開放。1.0版規範將允許在AI容器組中連接不超過1024個加速器，支援在容器組中載入到GPU的記憶體之間進行直接載入和儲存。

一名行業人士指出，高速互聯技術市場是剛需，猶如蘋果iOS系統和Android系統的對決，在輝達的封閉生態之外，市場需要有第二選項，這也意味著博通、英特爾和AMD在聯盟中至關重要。

對於AMD和英特爾等公司來說，UALink為其提供了一條複製NVLink和NVSwitch、並與其他公司共享開發成果的途徑。此外， UALink也讓博通這樣的公司製造UALink交換機來助力其他公司擴大規模。

“行業需要一種能夠快速推進的開放標準，這種開放標準允許多家公司為整個生態系統增加價值。”在外媒TechCrunch的採訪中，AMD資料中心解決方案總經理Forrest Norrod也表示，“這種標準需要允許創新不受任何一家公司的束縛，可快速推進。”

有消息稱AMD為UALink項目貢獻了範圍更廣的Infinity Fabric共用記憶體協議以及功能特定於GPU的xGMI，而所有其他參與者都同意使用Infinity Fabric作為加速器互連的標準協議。但聯盟內部人士指出，PCI-Express不是UALink唯一的互聯，xGMI也不是唯一的協議。

上述行業人士分析，聯盟有可能採用AMD的方案，這可快速推向市場。但具體挑戰在於互相之間要協調，各家都有想法，很可能周期比較長，這裡需要有絕對實力的玩家來推動產業的發展。

北京半導體行業協會副秘書長、北京國際工程諮詢有限公司高級經濟師朱晶對此不太樂觀，發文表示，UALink的目的是做一個NVlink的平替，但八王之中沒有AWS沒有Arm沒有OAI……而且看起來沒有太大的戲，NVlink之所以強大是因為它自由，不受任何通用協議的限制，輝達獨寵。而UALink一下子出來8個爸爸，各個都有自己的盤算，怎麼比？

光互聯成下一個戰場

誠然，上述互聯技術經過長期演進，在互聯層面實現了新的高度。但一個不爭的事實是，隨著計算資料的爆炸式增長、神經網路的複雜性不斷增加，以及新的人工智慧和圖形工作負載和工作流程以及傳統科學模擬的出現，對更高頻寬的需求仍在繼續增長。

這些互聯技術將不可避免地存在性能瓶頸。例如輝達的 NVLink 雖然速度很快，但是功耗偏高；而 AMD的Infinity Fabric則適合於晶片內部的連接，對於晶片之間的互聯效率還待提升。

業內也認為，隨著光互聯的不斷髮展，憑藉高頻寬、低功耗等優勢將成為未來AI互聯技術的新範式。

有分析稱，隨著AI不斷加速網路互聯迭代，光互聯的市場需求將大幅提升。2023年作為AI元年，AI互聯速度由過去的4年兩倍變為2年兩倍，由400G向著1.6T、3.2T等更高速發展。而且，大模型的快速發展拉動叢集、光互聯增長，5層網路架構或將出現。GPT-3需要1000個叢集和2000個光互聯，GPT-4需要2.5萬個叢集和7.5萬個光互聯。隨著AI模型越來越大，未來10萬個叢集將很快被採用，從而需要5層網路架構和50萬個光互聯。XPU與光互聯配比關係未來有望提升至1:10。

從訓練側和推理側來看，互聯需求也只多不少。訓練側每單個叢集中XPU卡數量多，但叢集數量少；推理側每單個叢集中XPU卡數量少，但叢集數量多，但這兩者都將驅動大量的光互聯。

半導體業界推出的解決方案是將硅光子光學元件及交換器ASIC，通過CPO封裝技術整合為單一模組，此方案已開始獲得微軟、Meta等大廠認證並採用在新一代網路架構。諮詢機構LightCounting認為，到2026年，HPC和AI預計成為CPO光器件最大的市場。CPO出貨量預計將從800G和1.6T連接埠開始，於2024至2025年開始商用，2026至2027年開始規模上量。據其預測，全球CPO連接埠的銷售量將從2023年的5萬增長到2027年的450萬，4年時間將提升90倍。

輝達資料中心產品首席平台架構師Rob Ober也曾在媒體諮詢中表示：“在過去的十年中，輝達加速計算在人工智慧方面實現了數百萬倍的加速。下一個百萬將需要光學I/O等新的先進技術來支援未來AI和ML工作負載和系統架構的頻寬、功率和規模要求。”

作為CPO不可或缺主力，台積電已頻頻傳出佈局硅光及CPO的動向。2023年末有消息稱，台積電正與博通、輝達等大客戶聯手開發硅光及CPO光學元件等新品，最快2024年下半年開始迎來大單，2025年有望邁入放量產出階段。

目前，輝達提出的光互連方案使用OIO的OE方案實現，以降低功耗和提高性能。此外，輝達也在呼籲光互聯的生態鏈合作，期望對Switch和GPU介面進行重大的變革。

隨著英特爾、AMD與輝達等均已在硅光互聯領域發力，看起來，新的光互聯敘事將漸次展開，只是不知此次的故事脈絡與以往會有不同嗎？ (天天IC)