輝達這幾年很火。因為AI的帶動,它幾乎成為全球最受關注的公司。我們總是會在網上看到和輝達有關的一些名詞,例如:A100、B100、H100、GH200、GB200、NVLINK、NVSwitch、DGX、HGX、Quantum、Spectrum、BlueField、CUDA等等。這些名詞看多了,就有點暈。搞不懂到底是什麼,有什麼關係。今天這篇文章,小棗君就給大家詳細梳理一下這些名詞概念,順便普及一下相關的知識。█算力晶片——V100/A100/H100/B200等這些名詞,應該是大家最常見的。沒錯,這些都是AI算力卡,也就是GPU卡的型號。GPU卡(6塊)輝達的GPU,每隔幾年就會出一個新的架構。每個架構,都會以一個著名科學家的名字命名,如下所示:所以,基於某個架構的卡,一般就會以這個架構名稱的首字母開頭(遊戲顯示卡除外)。例如,基於Volta(伏特)架構的V100,基於Ampere(安培)架構的A100,基於Hopper(赫伯)架構的H100、H200,基於Blackwell(布萊克威爾)架構的B100、B200等。某200一般是某100的升級版。例如H200,就是H100的升級版(採用了HBM3e記憶體等升級)。L40和L40s名字稍微有點特別,兩者基於Ada Lovelace(世界上第一個女程式設計師的名字)架構,後者是前者的升級版。兩個卡都是針對資料中心市場推出的,主打低成本和性價比。還有1個型號大家應該比較熟悉——H20。這是輝達因為美國出口限制而推出的閹割版(特供版)。據說B200也會有對應的閹割版B20。輝達的下一代AI平台是Rubin(羅賓),計畫於2026年推出。大家一開始以為下一代GPU就是R100、R200。但輝達給出的路線圖,又說是X100。所以,還有待觀望。2028年,輝達會推出下下一代平台——Feynman(費曼)。█ 超級晶片——GH200、GB200等GPU是輝達的算力核心硬體單元。但他們並不是只有GPU。圍繞GPU,他們還有很多的產品和解決方案。輝達早期的時候是和IBM POWER CPU合作,後來,可能是感覺IBM不給力,於是自己開始研發CPU。例如,基於ARM架構研發的Grace CPU(Vera CPU在路上)。輝達採用NVLink技術,將GPU和CPU進行配對,就變成了所謂的超級晶片平台(Superchip)。例如GH200、GB200,以及不久前新發佈的GB300(Blackwell Ultra)。由一個Grace CPU和兩個Blackwell B200 GPU組成的平台,就是GB200(取Grace和Blackwell的首字母),據說性能是H100的7倍。GB200類似的,GH200,就是Grace CPU和Hopper GPU的組合搭配。█ 超級電腦平台——DGX/EGX/IGX等再往上一個層級,就是電腦了。其實剛才GB200,已經是個電腦了。基於剛才的各種晶片平台,輝達建構了對應的電腦平台,或者說,叫做超級電腦平台,包括DGX、EGX、IGX、HGX、MGX等。具體的區別如下,我就不多解釋了,看下表:DGX還是見得比較多。當年黃仁勳送給OpenAI的,就是第一代的DGX-1。現在的DGX,基本上都是土豪金配色,價格也很昂貴。面向桌面市場,輝達還推出了DGX Spark和DGX Station,相當於工作站。DGX Spark和DGX Station█ 節點內部連接:Scale Up(超節點)——DGX GB200 NVL72等接下來,要涉及到通訊方面的技術了。之前小棗君給大家介紹超節點的時候(最近很火的“超節點”,到底是幹啥的?),提到過NVLINK。NVLINK是輝達推出的GPU卡間互連技術,主要是取代PCIe。剛才也提到,CPU和GPU之間,也是NVLINK技術。NVLINK多節點,就不好直連了,要引入交換晶片。於是,就有了NVLink Switch,也叫NVSwitch。後來,晶片又變成了裝置。NVLINK可以把很多的GPU連起來,組成看似很多電腦,但實際上屬於一個邏輯節點(超節點)的平台。近年來,我們經常聽說DGX GB200 NVL72。DGX GB200 NVL72,採用了NVLINK5,包含了18個GB200 Compute Tray(計算托架),以及9個NVLink-network Switch Tray(網路交換托架)。如下圖所示:NVL72機櫃每個Compute Tray包括2顆GB200超級晶片。所以,就是36個Grace CPU(18×2),72個B200 GPU(18×2×2)。8個DGX GB200 NVL72,又可以組成一個576個GPU的SuperPod超節點。█ 節點外部互連:Scale Out(IB和乙太網路)單節點內,不斷加GPU,是Scale Up(縱向擴展)。單節點到了一定規模,就不好再增加了。就要增加節點數量,搞節點與節點之間的互連,那就是Scale Out(橫向擴展)。Scale Out,輝達也有解決方案,那就是InfiniBand(IB)技術。InfiniBand以前是Mellanox公司的。輝達佈局深遠,2019年把Mellanox收購了,InfiniBand就成了輝達的私有技術。InfiniBand是技術名詞,不是產品名詞。輝達基於InfiniBand推出的產品平台是NVIDIA Quantum(“量子”的意思)。例如,2024年3月,輝達發佈的Quantum-X800網路交換機平台,端到端吞吐量能夠達到800Gbps。平台包括了含Quantum Q3400交換機、ConnectX-8 SuperNIC網路卡等硬體。這些硬體,也都是有系列的。Quantum-X800的上一代,是Quantum-2。ConnectX-8的前代,有ConnectX-6、ConnectX-7等。ConnectX高速網路卡也是來自Mellanox。Scale Out的兩大解決方案,除了InfiniBand,還有乙太網路。輝達乙太網路這邊也沒放過,也有產品,就是Spectrum-X800。(Spectrum是“光譜”的意思。)Spectrum-X800包括了Spectrum SN5600交換機、BlueField-3 SuperNIC網路卡等硬體產品,吞吐量同樣高達800Gbps。BlueField是這些年很火的DPU。輝達將Mellanox的ConnectX網路卡技術與自己的已有技術相結合,於2020年正式推出了BlueField-2 DPU和BlueField-2X DPU。現在演進到了BlueField-3。對了,前段時間,輝達還發佈了CPO光電一體化封裝網路交換機Spectrum-X Photonics和Quantum-X Photonics。輝達還有一些其它的網路卡、連接器、線纜等配件,就不逐個介紹了。黃教主前段時間透露,新一代的Rubin平台發佈時,據說會帶來NVLink 6、ConnectX-9 SuperNIC和Quantum(Spectrum)-X1600。可以期待一下。█ 開發框架——CUDA剛才介紹的,是輝達的算力硬體平台家族,以及通訊網路家族。再看一個軟體方面的名詞——大名鼎鼎的CUDA。輝達的硬體和網路做得很牛,但實際上,最被視為核心競爭壁壘的,反而是這個CUDA。CUDA(Compute Unified Device Architecture,計算統一裝置架構),是輝達在2006年推出的平行計算平台和程式設計模型。它讓開發者能夠直接在GPU上編寫程式碼,從而大幅提升計算速度。如今,CUDA就像是智算開發的作業系統,集程式設計模型、編譯器、API、庫和工具於一體,有利於使用者更好地發揮輝達硬體的能力。CUDA不僅是個工具,更形成了強大的AI開發生態。它是輝達整個業務體系的神經中樞。現在很多AI開發都依賴於輝達的硬體和CUDA,換硬體其實也不是很難,但是,生態遷移更加痛苦。好啦,關於輝達的主要產品體系和命名規則,就介紹到這裡。在不同的領域,輝達會基於這些核心產品,建構不同的解決方案。有的時候,也會衍生出一些升級版或閹割版,大家注意一下就行。這個公司在AI領域牢牢佔據核心地位,希望能有更多的企業,站出來向它發出挑戰。 (鮮棗課堂)