在2023年10月的投資者會議上,Nvidia展示了其全新的GPU發展藍圖 。與以往兩年一次的更新節奏不同,這次的路線圖將演進週期縮短至一年。預計2024年,Nvidia將推出H200和B100 GPU;到2025年,X100 GPU也將問世。
其AI晶片規劃的戰略核心是「One Architecture」統一架構,支援在任何地方進行模型訓練和部署,無論是資料中心還是邊緣設備,無論是x86架構還是Arm架構。其解決方案適用於超大規模資料中心的訓練任務,也可滿足企業級使用者的邊緣運算需求。
AI晶片從兩年一次的更新周期轉變為一年一次的更新周期,反映了其產品開發速度的加快和對市場變化的快速響應。其AI晶片佈局涵蓋了訓練和推理兩個人工智慧關鍵應用,訓練推理融合,並專注於推理。
同時支援x86和Arm兩種不同硬體生態。在市場定位方面,同時針對超大規模雲端運算和企業級用戶,以滿足不同需求。 Nvidia旨在透過統一的架構、廣泛的硬體支援、快速的產品更新周期以及面向不同市場提供全面的差異化的AI解決方案,從而在人工智慧領域保持技術和市場的領先地位。
Nvidia是一家同時擁有GPU、CPU和DPU的運算晶片和系統公司。 Nvidia透過NVLink、NVSwitch和NVLink C2C技術將CPU、GPU進行靈活連接組合形成統一的硬體架構,並於CUDA一起形成完整的軟硬體生態。
在AI運算晶片架構方面,著重訓練和推理功能的整合,著重推理。圍繞GPU打造ARM和X86兩條技術路線。在Nvidia的AI路線圖中,並沒有顯示提及Grace CPU的技術路線,而是將其納入Grace+GPU的SuperChip超級晶片路標中。
Nvidia Grace CPU會跟隨GPU的演進節奏並與其組合成新一代超級晶片;而其自身也可能根據市場競爭的需求組合成CPU超級晶片,實現「二打一」的差異化競爭力。從需求角度來看,CPU的技術演進速度並不像GPU那麼緊迫,且CPU對於成本更加敏感。 CPU只需以“摩爾”或“系統摩爾”,以每兩年效能增加一倍的速度進行演進即可。而GPU算力需要不到一年就要達到效能翻倍,維持每年約2.5倍的速率成長。這種差異催生了超級晶片和超節點的出現。
Nvidia將延用SuperChip超級晶片架構,NVLink-C2C和NVLink互聯技術在Nvidia未來的AI晶片架構中將持續發揮關鍵作用。其利用NVLink-C2C互聯技術建構GH200、GB200和GX200超級晶片。更進一步,透過NVLink互聯技術,兩顆GH200、GB200和GX200可以背對背連接,形成GH200NVL、GB200NVL和GX200NVL模組。 Nvidia可以透過NVLink網路組成超節點,透過InfiniBand或Ethernet網路組成更大規模的AI叢集。
在交換晶片方面,仍堅持InfiniBand和Ethernet兩條開放路線,瞄準不同市場,前者瞄準AI Factory,後者瞄準AIGC Cloud。但其並未給出NVLink和NVSwitch自有生態的明確計畫。 224G世代的速度提升,可能率先NVLink和NVSwitch上落地。以InfiniBand為基礎的Quantum系列和以Ethernet基礎的Spectrum-X系列持續升級。預計到2024年,將商用基於100G SerDes的800G介面的交換晶片;而到2025年,將迎來基於200G SerDes的1.6T介面的交換晶片。其中800G對應51.2T交換容量的Spectrum-4晶片,而1.6T則對應下一代Spectrum-5,其交換容量可能高達102.4T。從演進速度來看,224G世代略有提速,但從長時間週期上看,其仍遵循著SerDes速率大約3到4年翻倍、交換晶片容量約2年翻倍的規律。雖然有提到2024年Quantum將會升級到800G,但目前我們只能看到2021年發布的基於7nm工藝,400G接口的25.6T Quantum-2交換晶片。路線圖中並未包含NVSwitch 4.0和NVLink 5.0的相關計畫。有預測指出Nvidia可能會先在NVSwitch和NVLink中應用224G SerDes技術。NVLink和NVSwitch作為Nvidia自有生態,不會受到標準生態的掣肘,在推出時間和技術路線選擇上更靈活,從而實現差異化競爭力。
SmartNIC智慧網卡/DPU資料處理引擎的下一跳ConnectX-8/BlueField-4目標速率為800G,與1.6T Quantum和Spectrum-X配對的SmartNIC和DPU的路標仍不明晰,NVLink5.0和NVSwitch4.0可能提前發力。Nvidia ConnectX系列SmartNIC智慧網卡與InfiniBand技術結合,可在基於NVLink網路的超節點基礎上建構更大規模的AI叢集。而BlueField DPU則主要面向雲端資料中心場景,與Ethernet技術結合,提供更強大的網路基礎架構能力。相較於NVLink匯流排域網絡,InfiniBand和Ethernet屬於傳統網路技術,兩種網路頻寬比例約為1比9。例如,H00 GPU用於連接SmartNIC和DPU的PCIE頻寬為128GB/s,考慮到PCIE到Ethernet的轉換,其最大可以支援400G InfiniBand或Ethernet接口,而NVLink雙向頻寬為900GB/s或3.6Tbps,因此傳統網路和總線域網路的頻寬比為1比9。雖然SmartNIC和DPU的速率增長需求沒有總線域網路的增速快,但它們與大容量交換晶片需要保持同步的演進速度。它們也受到由IBTA (InfiniBand) 和IEEE802.3 (Ethernet) 定義互通標準的產業生態成熟度的限制。
互聯技術在未來的計算系統的擴展中起著至關重要的作用。 Nvidia同步佈局的還有LinkX系列光電連網技術。包括傳統帶oDSP引擎的可插拔光互聯(Pluggable Optics),線性直驅光互連LPO (Linear Pluggable Optics),傳統DAC電纜、重驅動電纜(Redrived Active Copper Cable)、晶片出光(Co-Packaged Optics)等一系列光電互聯技術。隨著超節點和叢集網路的規模不斷擴大,互聯技術將在未來的AI運算系統中發揮至關重要的作用,需要解決頻寬、延遲、功耗、可靠性、成本等一系列難題。
對Nvidia而言,來自Google、Meta、AMD、Microsoft和Amazon等公司的競爭壓力正在增加。這些公司在軟體和硬體方面都在積極發展,試圖挑戰Nvidia在該領域的主導地位,這或許是Nvidia提出相對激進技術路線圖的原因。Nvidia為了維持其市場地位和利潤率,採取了一種大膽且風險重重的多管齊下的策略。他們的目標是超越傳統的競爭對手如Intel和AMD,成為科技巨頭,與Google、Microsoft、Amazon、Meta和Apple等公司並駕齊驅。 Nvidia的計畫包括推出H200、B100和「X100」GPU,以及進行每年度更新的AI GPU。此外,他們還計劃推出HBM3E高速記憶體、PCIE 6.0和PCIE 7.0、以及NVLink、224G SerDes、1.6T介面等先進技術,如果計畫成功,Nvidia將超越所有潛在的競爭對手 [2]。
儘管硬體和晶片領域的創新不斷突破,但其發展仍受到第一原理的限制,存在天然物理邊界的約束。透過深入了解製程製程、先進封裝、記憶體和互聯等多個技術路線,可以推斷出未來Nvidia可能採用的技術路徑。儘管基於第一原理的推演成功率高,但仍需考慮非技術因素的影響。例如,透過供應鏈控制,在一定時間內壟斷核心零件或技術的產能,如HBM、TSMC CoWoS先進封裝製程等,可以影響技術演進的節奏。根據Nvidia 2023年Q4財報,該公司季度營收達76.4億美元,年增53%,創下歷史新高。全年營收更是成長61%,達到269.1億美元的紀錄。資料中心業務在第四季度貢獻了32.6億美元的收入,年增71%,較上季成長11%。財年全年資料中心營收成長58%,達到創紀錄的106.1億美元 [3]。因此Nvidia擁有足夠大的現金流可以在短時間內對供應鏈,甚至產業鏈施加影響。另外,也存在一些黑天鵝事件也可能產生影響,例如以色列和哈馬斯的戰爭就導致了Nvidia取消了原定於10月15日和16日舉行的AI SUMMIT [4]。業界原本預期,Nvidia將於峰會中展示下一代B100 GPU晶片 [5]。值得注意的是,Nvidia的網路部門前身Mellanox正位於以色列。
為了避免陷入不可知論,本文的分析主要基於物理規律的第一原理,而不考慮經濟手段(例如控制供應鏈)和其他可能出現的黑天鵝事件(例如戰爭)等不確定性因素。當然,這些因素有可能在技術鏈的某個環節產生重大影響,導致技術或產品演進節奏的放緩,或導致整個技術體系進行一定的微調,但不會對整個技術演進趨勢產生顛覆式的影響。考慮到這些潛在的變化,本文的分析將盡量採取客觀且全面的方式來評估這些可能的技術路徑。我們將以「如果A 那麼X;如果B 那麼Y;…」的形式進行思考和分析,旨在涵蓋所有可能影響技術發展的因素,以便提供更準確、更全面的分析結果。此外,本文分析是基於兩到三年各個關鍵技術的路標假設,也就是2025年以前。當相應的前提條件變化,相應的結論也應該作適當的調整,但是整體的分析思路是普適的。
Nvidia在人工智慧領域的佈局堪稱全面,其以系統和網路、硬體和軟體為三大支柱,建構起了深厚的技術護城河 [6]。有分析稱Nvidia的H100顯示卡有高達90%的毛利率。 Nvidia透過扶持像Coreweave這樣的GPU雲端服務商,利用供貨合約讓他們從銀行取得資金,然後購買更多的H100顯示卡,鎖定未來的顯示卡需求量。這種模式已經超越傳統硬體公司的商業模式,套用馬克思在資本論中所述“金銀天然不是貨幣,貨幣天然是金銀。”,有人提出了“貨幣天然不是H100,但H100天然是貨幣”的說法[7]。這一切的背後在於對於未來奇點臨近的預期 [8],在於旺盛的需求,同時更在於其深厚的技術護城河。
Nvidia 2019年3月發起對Mellanox的收購 [9],並且於2020年4月完成收購 [10],經過這次收購Nvidia取得了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯的能力。面向GPU互聯,自研NVLink互聯和NVLink網路來實現GPU算力Scale Up擴展,相較於基於InfiniBand網路和基於Ethernet的RoCE網路形成差異化競爭力。 NVLink自2014年推出以來,已經歷了四個世代的演進,從最初的2014年20G NVLink 1.0,2018年25G NVLink2.0,2020年50G NVLink 3.0 到2022年的100G NVLink 4.0 ,NVLink將進一步發展至200G NVLink 5.0。在應用情境上,NVLink 1.0至3.0主要針對PCIE板內和機框內互聯的需求,透過SerDes提速在與PCIE互聯的競爭中獲取顯著的頻寬優勢。值得注意的是,除了NVLink1.0採用了20G特殊速率點以外,NVLink2.0~4.0皆採用了與Ethernet相同或相近的頻點,這樣做的好處是可以復用成熟的Ethernet互聯生態,也為未來實現連接盒子或機框組成超節點埋下伏筆。 NVSwitch 1.0、2.0、3.0分別與NVLink2.0、3.0、4.0配合,形成了NVLink匯流排域網路的基礎。 NVLink4.0配合NVSwitch3.0組成了超節點網路的基礎,這項變更的外部特徵是NVSwitch脫離運算單板而單獨成為網路設備,而NVLink則從板級互聯技術升級成為設備間互聯技術。
在運算晶片領域,Nvidia於2020年9月發起ARM收購,期望建構人工智慧時代頂級的運算公司[11],這項收購提案因為面臨重大監管挑戰阻礙了交易的進行,於2022年2月終止[ 12]。但是,在同年3月發布了基於ARM的Grace CPU Superchip超級晶片 [13]。成為同時擁有CPU、GPU和DPU的運算晶片和系統公司。
從商業視角來看,Nvidia在系統和網路、硬體、軟體三個方面佔據了主導地位 [6]。系統和網路、硬體、軟體這三個面向是人工智慧價值鏈中許多大型參與者無法有效或快速複製的重要部分,這意味著N vidia在整個生態系統中佔據主導地位。要擊敗Nvidia就像攻擊一個多頭蛇怪。必須同時切斷所有三個頭才有可能有機會,因為它的每個「頭」都已經是各自領域的領導者,而Nvidia正在努力改進和擴大其護城河。在一群人工智慧硬體挑戰者的失敗中,可以看到,他們都提供了一種與Nvidia GPU相當或略好的硬件,但未能提供支援該硬體的軟體生態和解決可擴展問題的方案。而Nvidia成功地做到了這一切,並成功抵擋住了一次衝擊。這就是為什麼Nvidia的策略像是三頭水蛇怪,後來者必須同時擊敗他們在系統和網路、硬體以及軟體方面的技術和生態護城河。目前,進入Nvidia平台似乎能夠佔據先機。 OpenAI、微軟和Nvidia顯然處於領先地位。儘管Google和Amazon也在努力建立自己的生態系統,但Nvidia提供了更完整的硬體、軟體和系統解決方案,使其成為最具吸引力的選擇。要贏得先機,就必須進入其硬體、軟體和系統級業務生態。然而,這也意味著進一步被鎖定,未來更難撼動其地位。從Google和Amazon等公司的角度來看,如果不選擇接入Nvidia的生態系統,可能會失去先機;而如果選擇接入,可能意味著失去未來。
Nvidia佈局了兩種類型網絡,一種是傳統InfiniBand和Ethernet網絡,另一種是NVLink總線域網路。在傳統網路中,Ethernet面向AIGC Cloud多AI訓練和推理等雲端服務,而InfiniBand面向AI Factory,滿足大模型訓練和推理的應用需求。在交換晶片佈局方面,有基於開放Ethernet增強的Spectrum-X交換晶片和基於InfiniBand的封閉高性能的Quantum交換晶片。目前Ultra Ethernet Consortium (UEC) 正在嘗試定義基於Ethernet的開放、互通、高效能的全端架構,以滿足不斷增長的AI和HPC網路需求 [14],旨在與Nvidia的網路技術相抗衡。 UEC的目標是建構一個類似InfiniBand的開放協定生態,從技術層面可以理解為將Ethernet進行增強以達到InfiniBand網路的效能,或者說是實現一種InfiniBand化的Ethernet。從某種意義上說UEC在重走InfiniBand道路。總線域網路NVLink的主要特徵是要在超節點範圍內實現記憶體語義層級通訊和總線域網路內部的記憶體共享,它本質上是一個Load-Store網絡,是傳統總線網路規模擴大以後的自然演進。從NVLink介面的演進歷程可以看出,其1.0~3.0版本明顯是對標PCIE的,而4.0版本實際上對標InfiniBand和Ethernet的應用場景,但其主要目標還是實現GPU的Scale Up擴展。
從原始需求的角度來看,NVLink網路在演進過程中需要引入傳統網路的一些基本能力,例如編址尋址、路由、均衡、調度、擁塞控制、管理控制和測量等。同時,NVLink也需要保留匯流排網路基本特徵,如低時延、高可靠性、記憶體統一編址共享以及記憶體語意通訊。這些特徵是目前InfiniBand或Ethernet網路所不具備的或說欠缺的。與InfiniBand和Ethernet傳統網路相比,NVLink總線域網路的功能定位和設計概念存在著本質上的差異。我們很難說NVLink網路和傳統InfiniBand網路或增強Ethernet網路最終會殊途同歸。
Nvidia在AI叢集競爭態勢中展現出了全面佈局,涵蓋了運算(晶片、超級晶片)和網路(超節點、叢集)領域。在運算晶片方面,Nvidia擁有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的佈局;在超節點網路層面,Nvidia提供了NVLink和InfiniBand兩種客製化網路選項;在叢集網路方面,Nvidia有基於Ethernet的交換晶片和DPU晶片佈局。 AMD緊隨其後,更專注於CPU和GPU計算晶片,並採用基於先進封裝的Chiplet芯粒技術。與Nvidia不同的是,AMD目前沒有超級晶片的概念,而是採用了先進封裝將CPU和GPU Die合封在一起。 AMD使用私有的Infinity Fabric Link記憶體一致介面進行GPU、CPU、GPU和CPU間的互聯,而GPU和CPU之間的互聯仍保留傳統的PCIE連接方式。此外,AMD計劃推出XSwitch交換晶片,下一代MI450加速器將利用新的互連結構,其目的顯然是與Nvidia的NVSwitch競爭 [15]。 BRCM則專注於網路領域,在超節點網路有對標InfiniBand的Jericho3-AI+Ramon的DDC方案;在叢集網路領域有基於Ethernet的Tomahawk系列和Trident系列交換晶片。近期BRCM推出其新的軟體可程式交換Trident 5-X12整合了NetGNT神經網路引擎即時辨識網路流量訊息,並呼叫擁塞控制技術來避免網路效能下降,提高網路效率和效能 [16]。 Cerebras/Telsa Dojo則是“劍走偏鋒”,走依賴“晶圓級先進封裝”的深度定制硬體路線。
根據IRDS的樂觀預測,未來5年,邏輯元件的製造流程仍將快速演進,2025年將初步實現Logic元件的3D整合。 TSMC和Samsung將在2025年左右開始量產基於GAA (MBCFET)的2nm和3nm製程的產物 [17]。
依照TSMC給出的製程演進路標,2023~2025年基本上以3nm製程為主,2nm製程在2025年以後才會發布。 3nm技術已經進入量產階段,N3製程和N3E版本已經在2023年推出。 2024年下半年開始生產N3P版本,該版本將提供比N3E更高的速度、更低的功耗和更高的晶片密度。此外,N3X版本將專注於高效能運算應用,提供更高的時脈頻率和效能,預計將於2025年開始量產 [18]。製程演進的收益對於邏輯元件的收益小於50%,因此,未來單晶片算力提升將更依賴先進封裝技術。
TSMC的CoWoS先進封裝製程基板的尺寸在2023年為4倍Reticle面積,2025年將達到6倍Reticle面積 [19]。目前Nvidia H100 GPU的封裝基板尺寸小於2倍Reticle面積,AMD的MI300系列GPU的封裝基板尺寸約為3.5倍Reticle面積,逼近目前TSMC CoWoS-L製程的極限。
HBM記憶體的容量預計將在2024年達到24GB,並在2025年進一步成長至36GB [20]。 HBM4預計將帶來兩個重要的變化:首先,HBM介面位寬將從1024擴展到2048;其次,業界正在嘗試將HBM記憶體Die直接堆疊在邏輯Die的上方 [21][22]。這兩個變化意味著HBM記憶體的頻寬和單一封裝內能容納的容量都將持續成長。
據報道,SK海力士已經開始招募CPU和GPU等邏輯半導體的設計人員。該公司顯然正在考慮將HBM4直接堆疊在處理器上,這不僅會改變邏輯和記憶體設備的傳統互連方式,還會改變它們的製造方式。事實上,如果SK海力士成功實現這一目標,這可能會徹底改變晶片代工產業 [21][22]。
本文基於兩個前提假設來推演Nvidia未來AI晶片的架構演進。首先,每一代AI晶片的儲存、運算和互聯比例保持大致一致,且比上一代提升1.5到2倍以上;其次,工程製程演進是漸進且可預測的,不存在跳變,至少在2025年之前不會發生跳變。到2025年,製程將維持在3nm水平,但製程演進給邏輯元件帶來的收益預計不會超過50%。同時,先進封裝技術預計將在2025年達到6倍Reticle面積的水準。此外,HBM記憶體容量也將持續成長,預計在2024年將達到24GB,而在2025年將達到36GB。
互聯技術在很大程度上決定了晶片和系統的物理架構。 Nvidia利用NVLink-C2C這種低時延、高密度、低成本的互聯技術來建構SuperChip超級晶片,旨在兼顧性能和成本打造差異化競爭力。與傳統的SerDes互聯相比,NVLink C2C採用了高密度單端架構和NRZ調製,使其在實現相同互聯頻寬時能夠在時延、功耗、面積等方面達到最佳平衡點;而與Chiplet Die -to-Die互聯相比,NVLink C2C具備更強的驅動能力,並支援獨立封裝晶片間的互聯,因此可以使用標準封裝,滿足某些晶片的低成本需求。
為了確保CPU和GPU之間的記憶體一致性操作 (Cache-Coherency),對於NVLink C2C介面有極低時延的要求。H100 GPU的左側需要同時支援NVLink C2C和PCIE接口,前者H100 GPU的左側需要同時支援NVLink C2C和PCIE接口,前者用於實現與Nvidia自研Grace CPU組成Grace-Hopper SuperChip,後者用於實現與PCIE交換晶片、第三方CPU、DPU、SmartNIC對接。 NVLink C2C的互聯頻寬為900GB/s,PCIE互聯頻寬為128GB/s。而當Hopper GPU與Grace CPU組成SuperChip時,就需要支援封裝級的互聯。值得注意的是,Grace CPU之間也可以透過NVLink C2C互聯組成Grace CPU SuperChip。考慮到成本因素,Nvidia沒有選擇採用雙Die合封的方式組成Grace CPU,而是透過封裝間的C2C互聯組成SuperChip超級晶片。
從時延角度來看,NVLink C2C採用40Gbps NRZ調製,可以實現無誤碼運作 (BER<1e-12),免除FEC,介面時延可以做到小於5ns。相較之下,112G DSP架構的SerDes本身時延可以高達20ns,因為採用了PAM4調製,因此還需要引入FEC,這會額外增加百納秒量級的時延。此外,NVLink C2C採用了獨立的時脈線來傳遞時脈訊號,因此資料線上的訊號不需要維持通訊訊號直流均衡的編碼或擾碼,可以進一步將時延降低到極致。因此,引入NVLink C2C的主要動機是滿足晶片間低時延互聯需求。
從互聯密度來看,目前112G SerDes的邊密度可以達到12.8Tbps每邊長,遠大於目前H100的(900+128)GB/s * 8/2 = 4.112Tbps的邊密度需求。 NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm 2 vs. 552Gbps/mm 2 )。而目前NVLink C2C的邊密度還略低於SerDes (281Gbps/mm vs. 304Gbps/mm)。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。
從驅動能力來看,112G SerDes的驅動能力遠大於NVLink C2C。這在一定程度上會限制NVLink C2C的應用範圍,未來類似NVLink C2C的單端傳輸線技術有可能進一步演進,拓展傳輸距離,尤其是在224G 及以上SerDes時代,晶片間互聯更加依賴電纜解決方案,這對與運算系統是不友善的,會帶來諸如晶片佈局、散熱困難等一系列工程挑戰,同時也需要解決電纜方案成本過高的問題。
從功耗來看,112G SerDes的功耗效率為5.5pJ/bit,而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯頻寬下,SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨考慮晶片間互聯時,功耗降低很多,但是H100 GPU晶片整體功耗大約為700W,因此互聯功耗在整個晶片功耗中所佔比例較小。
從成本角度來看,NVLink C2C的面積和功耗優於SerDes互聯。因此,在提供相同互連頻寬的情況下,它可以節省更多的晶片面積用於計算和快取。然而,考慮到運算晶片並不是IO密集型晶片,因此這種成本節約的比例並不顯著。但是,如果將雙Chiplet芯粒拼裝成更大規模的晶片時,NVLink C2C可以在某些場景下可以避免先進封裝的使用,這對降低晶片成本有明顯的幫助,例如Grace CPU SuperChip超級晶片選擇標準封裝加上NVLink C2C互聯的方式進行擴充可以降低成本。在目前製程水準下,先進封裝的成本遠高於邏輯Die本身。
C2C互聯技術的另一個潛在的應用場景是大容量交換晶片,當其容量突破200T時,傳統架構的SerDes面積和功耗佔比過高,對晶片的設計和製造帶來困難。在這種情況下,可以利用出封裝的C2C互聯技術來實現IO的扇出,同時盡量避免使用先進的封裝技術,以降低成本。然而,目前的NVLink C2C技術並不適合這個應用場景,因為它無法與標準SerDes實現位元透明的轉換。因此,需要引入背對背的協定轉換,這會增加延遲和麵積功耗。
Grace CPU 具有上下翻轉對稱性,因此單一晶片設計可支援同構Die 組成SuperChip 超級晶片。 Hopper GPU 不具備上下和左右翻轉對稱性,未來雙Die B100 GPU 晶片可能由兩顆異構Die 組成。
NVLink 和NVLink C2C 技術提供了更靈活設計,實現了CPU 和GPU 靈活配置,可以建構滿足不同應用需求的系統架構。 NVLink C2C 可提供靈活的CPU、GPU算力配比,可組成1/0,0.5/1,0.5/2,1/4,1/8 等多種組合的硬體系統。NVLink C2C支援Grace CPU和Hopper GPU晶片間記憶體一致性操作 (Cache-Coherency),讓Grace CPU 成為Hopper GPU 的記憶體控制器和IO 擴充器,實現了4倍IO 頻寬和5倍記憶體容量的擴充。這種架構打破了HBM的瓶頸,實現了記憶體超發。對訓練影響是可以快取更大模型,利用ZeRO等技術外存快取模型,頻寬提升能減少Fetch Weight的IO開銷。對推理影響是可以快取更大模型,按需載入模型切片推理,有可能在單一CPU-GPU超級晶片內完成大模型推理 [23]。
有媒體測算Nvidia的H100利潤率達到90%。同時也給出了估算的H100的成本組成,Nvidia向台積電下訂單,用N4製程製造GPU 晶片,平均每顆成本155 美元。 Nvidia向SK 海力士(未來可能有三星、美光)採購六顆HBM3晶片,成本約2000 美元。台積電生產出來的GPU 和Nvidia採購的HBM3 晶片,一起送到台積電CoWoS 封裝產線,以性能折損最小的方式加工成H100,成本約723 美元 [24]。
先進封裝成本高,是邏輯晶片裸Die成本的3 到4倍以上, GPU記憶體的成本佔超過60%。依照DDR: 5美/GB,HBM: 15美金/GB以及參考文獻[25][26] 中給出的GPU計算Die和先進封裝的成本測算,H100 GPU HBM成本佔比為62.5%;GH200中HBM和LPDDR的成本佔比為78.2%。
雖然不同來源的資訊對各個零件的絕對成本估算略有不同,但可以得出明確的結論:內存在AI計算系統中的成本佔比可高達60%到70%以上;先進封裝的成本是計算Die成本的3到4倍以上。在接近Reticle面積極限的大晶片良率達到80%的情況下,先進封裝無法有效降低成本。因此,應該遵循非必要不使用的原則。
AMD的GPU相對於Nvidia更加依賴先進封裝技術。 MI250系列GPU採用了基於EFB矽橋的晶圓級封裝技術,而MI300系列GPU則應用了AID晶圓級主動封裝基板技術。相較之下,Nvidia並沒有用盡先進封裝的能力,一方面在當前世代的GPU中維持了相對較低的成本,另一方面也為下一代GPU保留了一部分工程製程的價值發揮空間。
Intel Ponte Vecchio GPU將Chiplet和先進封裝技術推向了極致,它涉及5個製程節點(包括TSMC和Intel兩家廠商的不同製程),47個有源的Tile,並同時採用了EMIB 2.5D和Foveros 3D封裝技術。可以說,它更像是先進封裝技術的試驗場。 Intel 的主力AI晶片是Gaudi系列AI加速晶片 [27][28][29]。值得注意的是Gaudi系列AI晶片是由TSMC代工的Gaudi 2採用的是TSMC 7nm工藝,Gaudi 3採用的是TSMC 5nm製程。
互聯技術在很大程度上塑造了晶片和系統的物理架構。從互聯技術的發展歷程出發,以晶片佈局為線索,並考慮工程製程的物理限制,可以對Nvidia未來AI晶片架構進行預測。這種推演也有助於發掘對互聯技術的新需求。
互聯技術的演進是一個漸進的過程,其基本技術要素如頻寬、調變和編碼等都遵循著其內在的發展法則。這些物理規律相對穩定,透過將這些技術進行組合併結合當前工程製程的發展趨勢以及需求,就可以大致描繪和預測出互聯技術的發展方向。這裡不深入探討晦澀難懂的互聯技術本身的發展,而是從宏觀技術邏輯和外在可觀察的指標兩個角度出發,探討NVLink和NVLink C2C的歷史演進,並對其未來發展進行預測。
從NVLink的演進看,目前其演進了四個代際,NVLink C2C目前只有一個代際,透過與當下不同協議的速率演進對比及NVLink宣傳材料,可以清晰的看到每個代際的NVLink技術的競爭對手和其要解決的痛點問題。目前介面有兩大開放的互聯生態,PCIE互聯生態與Ethernet互聯生態,CXL協定依託於PCIE互聯生態,而InfiniBand則依託與Ethernet互聯生態。 NVLink的主要目標是解決GPU之間的互聯問題,而早期的GPU一定需要保留與CPU互聯的PCIE接口,用於GPU互聯是也天然的繼承了這一技術,因此NVLink早期的競爭對手是PCIE。從PCIE、Ethernet和NVLink的發展軌跡來看,NVLink的SerDes速率介於同時期PCIE和Ethernet SerDes速率之間。這意味著NVLink利用了Ethernet生態成熟的互聯技術來對抗PCIE,實現介面速率超越PCIE。透過複用Ethernet生態的成熟互聯技術,NVLink在成本方面也具有優勢。
值得注意的是,NVLink並未完全遵循Ethernet的連網技術規範。例如,在50G NVLink3.0採用了NRZ調製,而不是Ethernet所採用的PAM4調製 [30]。這意味著NVLink3.0利用了100Gbps PAM4 SerDes代際的技術,並透過採用更低階NRZ調變來實現鏈路的無誤碼運行,免去FEC實現低時延。同樣以低時延著稱的InfiniBand在50G這一世代則完全遵從了Ethernet的PAM4調製,這在一定程度上使其在50G這一世代喪失了低時延的技術優勢,市場不得不選擇長期停留在25G代際的InfiniBand網路上。當然,InfiniBand網路也有其無奈之處,因為它需要復用Ethernet光模組互聯生態,所以它必須完全遵循Ethernet的互聯電氣規範,而與之對應的NVLink3.0則只需要解決盒子內或機框內互聯即可。同樣的事情也會在100G世代的NVLink4.0上發生,NVLink4.0完全擺脫了盒子和框子的限制,實現了跨盒子、跨框的互聯,此時為了復用Ethernet的光模組互聯生態, NVLink4.0的頻點和調變格式也需要遵從Ethernet互聯的電氣規範。以前InfiniBand遇到的問題,NVLink也同樣需要面對。在100G時代,可以觀察到Ethernet、InfiniBand和NVLink的SerDes速率在時間節奏上齊步走的情況。實際上,這三種互聯介面都採用了完全相同的SerDes互聯技術。同樣的情況在200G這一世代也會發生。與InfiniBand和Ethernet不同的是,NVLink是一個完全私有的互聯生態,不存在跨速率世代相容、同世代支援多種速率的介面和多廠商互通的問題。因此,在技術選擇上,NVLink可以完全按照具體應用場景下的需求來選擇設計甜點,在推出節奏上可以根據競爭情況自由把控,也更容易實現差異化競爭力和高品牌溢價。
NVLink的發展可以分為兩個階段。 NVLink1.0~3.0主要在盒子內、機框內實現GPU高速互聯,對標PCIE。它利用了Ethernet SerDes演進更快的優勢,採用了更高速的SerDes,同時在NVLink2.0時代開始引入NVSwitch技術,在盒子內、機框內組成總線域網絡,在頻寬指標上對PCIE形成了碾壓式的競爭優勢。 NVLink4.0以後NVLink走出盒子和機框,NVSwitch走出計算盒子和機框,獨立成為網路設備,此時對標的是InfiniBand和Ethernet網路。
雖然NVLink4.0沒有公開的技術細節,但從NVLink網路的Load-Store網路定位和滿足超節點內部記憶體共享的需求上看,一個合理的推測是,NVLink4.0很可能採用了輕量FEC加鏈路級重傳的技術支援低時延和高可靠互聯。在延遲和可靠性競爭力指標上對InfiniBand和Ethernet形成碾壓式的競爭力,這更有利於實現記憶體語義網絡,支援超節點內記憶體共享。提供傳統網路所不能提供的關鍵特性,才是NVLink作為總線域網路獨立存在的理由。
基於NVLink C2C的產品目前只有GH200這一代,但從Nvidia在該領域公開發表的論文中可以大致看出其技術發展的脈絡。從技術演進上看,它是封裝內Die間互聯的在均衡上的增強。從Nvidia SuperChip超級晶片路標來看,它將在未來的AI晶片中繼續發揮重要作用。對於這類接口,仍需保持連接兩個獨立封裝晶片的能力和極低的延遲和功耗。目前的NVLink C2C採用9*40Gbps NRZ調變方式。未來NVLink-C2C可能會向更高速率和雙向傳輸技術方向演進。而50G NRZ是C2C互聯場景下在功耗和延遲方面的設計甜點。繼續維持NRZ調製,選擇合適工作頻率,走向雙向傳輸將是實現速率翻倍的重要技術手段。雖然NVLink C2C針對晶片間互聯做了最佳化設計,但由於它與標準SerDes之間不存在速率對應關係,無法實現與標準SerDes之間位元透明的訊號轉換,因此其應用情境受限。在與標準SerDes對接時需要多引入一層協定轉換會增加延遲、面積和功耗開銷。未來可能存在一種可能性,即採用類似NVLink C2C這種高密單端傳輸技術,同時與標準SerDes實現多對一的速率匹配,這種技術一旦實現將極大擴展C2C高密單端互聯技術的應用空間,也有可能開啟SerDes面向更高速率演進的新賽道。
從NVLink和NVSwitch的演進來看,每一代速率會是上一代的1.5到2倍。下一代NVLink5.0大機率會採用200G每通道,每個GPU能夠出的NVLink介面數量從18個增加到32個,甚至更高。而NVSwitch4.0在連接埠速率達到200G以外,交換晶片的連接埠數量可能在NVSwitch3.0交換晶片64埠的基礎上翻2倍甚至4倍,總交換容量從12.8T到25.6T甚至51.2T [30] 。
以H100 GPU晶片佈局為基礎,透過先進的封裝技術將兩顆類似H100大小的裸Die進行合封,可以推演B100 GPU架構。 B100 GPU有兩種「雙Die」推演架構:IO邊縫合和HBM邊縫合[31][32]。 「HBM邊縫合」利用H100的HBM邊進行雙Die連接,此方案的優點在於,它可以使得IO可用邊長翻倍,從而有利於擴展IO頻寬。然而,它的缺點在於HBM可用邊長並沒有改變,因此無法進一步擴展HBM容量。 「IO邊縫合」利用H100的IO邊進行雙Die連接,此方案的優點在於HBM可用邊長能夠翻倍,從而有利於擴展記憶體。然而,它的缺點在於IO可用邊長並未改變,因此需要進一步提升IO密度。考慮到每代晶片與上一代相比,在記憶體、算力、互聯三個層面需要實現兩倍以上的效能提升,採用「IO 邊縫合」方案的可能性更大。採用「IO 邊縫合」的方案需要提升IO 的邊密度。
H100不具備旋轉對對稱性,而雙Die的B100仍需支援GH200 SuperChip 超級晶片,因此B100可能由兩顆異構Die組成。以不同的長寬比採用「IO邊縫合的方式」B100 的面積達到3.3到3.9倍的Reticle面積,小於目前TSMC CoWoS先進封裝所能提供的4倍Reticle面積的能力極限。計算Die 之間互聯可重複使用NVLink C2C 互聯技術,既利用NVLink C2C出封裝的連接能力覆蓋Die間互聯的場景。
為了實現計算Die的歸一化,可以將IO從計算Die中分離出來,形成獨立的IO Die。這樣,計算Die的互聯介面就實現了歸一化,使計算Die具備了旋轉對稱性。在這種情況下,仍然存在兩種架構:一種是同構計算Die與IO Die合封,另一種是計算Die與IO Die分別封裝並用C2C互聯將二者連接。計算Die的同構最大的優勢在於可以實現晶片的系列化。透過靈活組合運算Die和IO Die,可以實現不同規格的晶片以適應不同的應用場景的需求。
Nvidia B100 有“異構Die 合封”,“計算Die與IO Die分離,同構計算Die 與IO Die 合封”,“計算Die 與IO Die 分離並分別封裝,並用C2C互聯將二者連接”三種架構選項。 Nvidia B100 若採用單封裝雙Die 架構,封裝基板面積達到3.3~3.9倍Reticle面積,功耗可能超過1kW。計算Die 之間互聯可以重複使用NVLink C2C 互聯技術。將計算Die 和IO Die 分離可以實現計算Die 的同構化,降低成本。利用NVLink C2C 出封裝互聯的能力,可以將IO 扇出,降低IO 邊密度壓力。需要注意的是,目前NVLink C2C 速率與PCIE & NVLink 的SerDes 無法匹配,因此需要IO Die 上作協定轉換,無法做到協定無關。如果C2C 互聯和SerDes 速率能夠進行多對一的匹配實現位元透明的CDR,這樣可以消除協定轉換的開銷。考慮B100 2024年推出的節奏,方案一、三匹配當前先進封裝能力,但方案三需要引入額外的協議轉換;方案二超出當前先進封裝能力。
Nvidia X100如果採用單Socket封裝四Die架構,封裝基板面積將超過6倍Reticle面積,這將超出2025年的先進封裝路標的目標。而如果採用雙Socket封裝架構,則需要使用10~15cm的C2C互聯技術來實現跨封裝的運算Die間的互聯,這可能需要對目前NVLink C2C的驅動能力進一步增強。
Nvidia X100 GPU如果採用四Die架構,如果要控制封裝基板面積在6倍Reticle面積以下,匹配2025年先進封裝路標,則需要在計算Die上透過3D堆疊的方式整合HBM [21][22]。因此X100如果不採用SuperChip超級晶片的架構而是延續單封裝架構,要想在2025年推出,技術挑戰非常大。一方面需要先進封裝基板達到6倍Reticle面積,另一方面需要實現在運算Die上堆疊HBM,同時要解決HBM和計算Die堆疊帶來的晶片散熱問題。
在滿足2025年的工程限制的前提下,X100也可以採用SuperChip超級晶片架構在B100雙Die架構的基礎上進行平面擴展。在這種情況下,Nvidia X100 也有“異構Die 合封”,“同構計算Die 與IO Die 合封”,“計算Die 與IO Die 分別封裝”三種架構選項。如果採用封裝間互聯的超級晶片的擴展方式,先進封裝的基板面積約束將不再會是瓶頸,此時只需要增強NVLink C2C的驅動能力。
基於以下兩個前提:每一代AI晶片的儲存、運算和互聯比例保持大致一致,且比上一代提升1.5到2倍以上;工程製程演進是漸進且可預測的,不存在跳變,至少在2025年之前不會發生跳變。因此,可以對2023年的H100、2024年的B100和2025年的X100的架構進行推演總結。
對於工程製程的基本假設如下:到2025年,製程將保持在3nm水平,但製程演進給邏輯元件帶來的收益預計不會超過50%。同時,先進封裝技術預計將在2025年達到6倍Reticle面積的水準。此外,HBM記憶體容量也將持續成長,預計在2024年將達到24GB,而在2025年將達到36GB。
在上述前提假設條件下,針對H100/H200, B100, X100 GPU可以得到以下推論結論:
1. H200是基於H100的基礎上從HBM3升級到HBM3e,提升了記憶體的容量和頻寬。
2. B100將採用雙Die架構。若採用異構Die合封方式,封裝基板面積將小於目前先進封裝4倍Reticle面積的限制。而如果採用計算Die和IO Die分離,同構計算Die和IO Die合封的方式,封裝基板面積將超出目前先進封裝4倍Reticle面積的限制。如果採用計算Die和IO Die分離,同構計算Die和IO Die分開封裝的方式,則可以滿足目前的工程流程限制。考慮到B100 2024年推出的節奏,以及計算Die在整個GPU晶片中的成本佔比並不高,因此用異構Die合封方式的可能性較大。
3. 若X100採用單Socket封裝,四個異構Die合封裝的方式,需要在計算Die上堆疊HBM,同時需要先進封裝的基板達到6倍Reticle面積。但是,如果採用SuperChip超級晶片的方式組成雙Socket封裝模組,可以避免計算Die上堆疊HBM,並放鬆對先進封裝基板面積的要求,此時需要對NVLink C2C的驅動能力做增強。
基於B100雙Die架構,採用雙Socket板級3D擴充可以實現與X100同等的算力。類似的方法也可以應用在X100中進一步擴展算力。板級擴展可以降低對工程製程的要求,以較低的成本實現算力擴展。雖然基於人們對於先進封裝的Chiplet芯粒架構充滿了期待,但其演進速度顯然無法滿足AI運算系統「三年三個數量級」的成長需求 [33]。在AI運算領域基於先進封裝Die間互聯Chiplet芯粒架構,很可能因為無法滿足AI運算領域快速成長的需求而面臨「二世而亡」的窘境,業界需要重新尋找旨在提升AI算力的新技術路徑,例如SuperChip超級晶片和SuperPOD超節點。因此,類似NVLink C2C的低時延、高可靠、高密度的晶片間互聯技術在未來AI運算晶片的Scale Up算力擴展中將起到至關重要的作用;面向AI集群Scale Out算力擴展的互聯技術也同等重要。這兩中互聯技術,前者是AI運算晶片算力擴展的基礎,而後者則是AI計算集群算力擴展的基礎。
本文嘗試從第一原理出發,對Nvidia的AI晶片發展路線進行了深入分析和解讀,並對未來的B100和X100晶片架構進行了推演預測。並且,希望透過這種推演提取出未來AI計算系統對互聯技術的新需求。
本文以互聯技術為主線展開推演分析,同時考慮了晶片代際演進的性能提升需求和工程製程限制。最終的結論是:在AI運算領域,基於先進封裝Die間互聯的Chiplet芯粒架構無法滿足AI運算領域快速成長的需求,可能面臨「二世而亡」的窘境。低時延、高可靠、高密度的晶片間互聯技術在未來AI運算晶片的Scale Up算力擴展中將起到至關重要的作用;雖然未展開討論,同樣的結論也適用於面向AI集群Scale Out算力擴展的互聯技術。 224G以上世代中,以計算集群為基礎的互聯技術也存在著非常大的挑戰。需要明確指出的是,連網技術並不是簡單地將晶片、盒子、機框連接起來的問題,它並不是一根連線而已,它需要在需求、技術、產業生態等各個方面進行綜合考慮,需要極具系統性的創新以及長時間的、堅持不懈的投入和努力。
除了互聯技術以外,透過對Nvidia相關技術佈局的分析也引發瞭如下思考:
1. 真正的差異化競爭力源自於系統性地、全面地掌握整個價值鏈中主導無法快速複製的關鍵環節。 Nvidia在系統和網路、硬體、軟體這三個方面佔據了主導地位,而這三個方面恰恰是人工智慧價值鏈中許多大型參與者無法有效或快速複製的重要部分。然而,要在這三個方面中的任何一方面建立領導地位都離不開長時間堅持不懈的投入和努力帶來的技術沉澱和積累。指望在一個技術單點形成突破,期望形成技術壁壘或技術護城河的可能性為零。 「重要且無法快速複製」是核心特徵,其中「重要」更容易被理解,而「無法快速複製」則意味著「長時間堅持不懈的投入和努力」帶來的沉澱和積累,這是人們往往忽視的因素。
2. 開放的產業生態並不等於技術先進性和競爭力。只有深入洞察特定領域的需求,進行技術深耕,做出差異化競爭力,才能為客戶帶來高價值,為自己帶來高利潤。 Nvidia基於NVLink C2C的SuperChip超級晶片以及基於NVLink網路的SuperPOD超節點就是很好的例子。真正建構核心競爭力的技術是不會開放的,至少在有高溢價的早期不會開放,例如Nvidia的NVLink和NVLink C2C技術,例如Intel的QPI和UPI。開放生態只是後來者用來追趕強者的藉口(如UEC),同時也是強者用來鞏固自己地位的工具(如PCIE)。然而,真正的強者並不會僅僅滿足於開放生態所帶來的優勢,而是會透過細分領域和構築特定領域的封閉生態,實現差異化競爭力來維持領先地位。
3. 構築特定領域的差異化競爭力與復用開放的產業生態並不矛盾。其關鍵在於要在開放的產業生態中找到真正的結合點,並且能夠果斷地做出取捨,勇敢地拋棄不必要的負擔,只選擇開放產業生態中的精華部分,建構全新的技術體系。為了構築特定領域的差異化競爭力,更應該積極擁抱開放的產業生態,並主動引導其發展以實現這種差異化。例如,InfiniBand與Ethernet在低時延的差異化並不是天生的,而是人為建構出來的。兩者在基礎技術上是相同的。 InfiniBand在25G NRZ世代以前抓住了低時延這一核心特徵,摒棄跨速率代際兼容的需求,卸掉了技術包袱,並且在HPC領域找到了合適的戰場,因此在低時延指標上一直碾壓Ethernet,成功實現了高品牌溢價。而InfiniBand在56G PAM4這一世代承襲了Ethernet的互聯規範,因此這種低時延上的競爭力就逐漸喪失了。人為製造差異化競爭力的典型例子還有:同時相容於支援InfiniBand和Ethernet的CX系列網卡和BlueField系列DPU;內建在NVSwitch和InfiniBand交換器中的SHARP在網路運算協定和技術;Nvidia基於NVLink C2C構築SuperChip超級晶片以及基於NVLink網路構築SuperPOD超節點。
4. “天下沒有白吃的午餐”,這是恆古不變的真理和底層的商業邏輯。商業模式中的「羊毛出在狗身上,由豬買單」其實就是變相的轉移支付,羊毛終將是出在羊身上,只是更加隱蔽罷了。這項規律同樣適用於對複雜系統中的技術價值的判斷。自媒體分析H100的BOM物料成本除以售價得到90%的毛利率是片面的,因為高價值部分是H100背後的系統競爭力,而不僅僅是那顆眼鏡片大小的矽片。這裡包含了H100背後的大量的研發投入和技術累積。而隱藏在背後的其實是人才。如何為中長期賽道上耕耘的人提供既緊張又輕鬆的研究環境,使研究人員能安心與具有長期深遠影響的技術研究,是研究團隊面臨的挑戰和需要長期思考的課題。從公開發表的D2D和C2C相關文獻中可以看到,Nvidia在這一領域的研究投入超過十年,針對C2C互聯這一場景的研究工作也超過五年。在五到十年的維度上長期進行迭代研究,需要相當強的策略定力,同時也需要非常寬鬆的研究環境和持續的研究投入。
5. 在人工智慧時代,透過資訊不對稱來獲取差異化競爭力或獲得收益的可能性越來越低。這是因為製造資訊不對稱的難度和代價不斷飆升,而其所帶來的收益卻逐漸減少。在不久的未來,製造資訊不對稱的代價將會遠遠超過收益。妄圖透過壟斷資訊而達到差異化的競爭力,浪費的是時間,而失去的是機會。隨著大模型的進一步演進發展,普通人可以透過人工智慧技術輕鬆地獲取並加工大量的資訊且不會被淹沒。未來的核心競爭力是如何駕馭包括人工智慧在內的工具,對未來科技走向給予正確的判斷。
6. Nvidia並非不可戰勝,在激進的技術路標背後也隱藏著巨大的風險。如何向資本證明其在AI運算領域的能夠長期維持統治地位,維持長期的獲利能力,以維持其高股價、實現持續高速成長,極具挑戰性。一旦2025年發布的X100及其配對關鍵技術不如預期,這將直接影響投資人的信心。這是Nvidia必須面臨的資本世界的考驗,在這一點上它並沒有製度優勢。在一些基礎技術層面,業界面臨的挑戰是一樣的。以互聯技術為例,用於AI運算晶片Scale Up算力擴展的C2C互聯技術,以及面向AI集群Scale Out算力擴展的光電互聯技術都存在非常大的挑戰。誰能在未來互聯技術演進的探索中,快速試錯,最快找到最佳路徑,少犯錯誤,誰就抓住了先機。在未來的競爭中有可能實現超越。(資訊平權)
(本文作者是華為「2012年實驗室」的網路專家陸玉春博士,首發在華為內部論壇。終於認識了陸博士,這篇雄文分享給大家)