輝達這幾年很火。因為AI的帶動,它幾乎成為全球最受關注的公司。
我們總是會在網上看到和輝達有關的一些名詞,例如:
A100、B100、H100、GH200、GB200、NVLINK、NVSwitch、DGX、HGX、Quantum、Spectrum、BlueField、CUDA等等。
這些名詞看多了,就有點暈。搞不懂到底是什麼,有什麼關係。
今天這篇文章,小棗君就給大家詳細梳理一下這些名詞概念,順便普及一下相關的知識。
這些名詞,應該是大家最常見的。
沒錯,這些都是AI算力卡,也就是GPU卡的型號。
輝達的GPU,每隔幾年就會出一個新的架構。每個架構,都會以一個著名科學家的名字命名,如下所示:
所以,基於某個架構的卡,一般就會以這個架構名稱的首字母開頭(遊戲顯示卡除外)。
例如,基於Volta(伏特)架構的V100,基於Ampere(安培)架構的A100,基於Hopper(赫伯)架構的H100、H200,基於Blackwell(布萊克威爾)架構的B100、B200等。
某200一般是某100的升級版。例如H200,就是H100的升級版(採用了HBM3e記憶體等升級)。
L40和L40s名字稍微有點特別,兩者基於Ada Lovelace(世界上第一個女程式設計師的名字)架構,後者是前者的升級版。兩個卡都是針對資料中心市場推出的,主打低成本和性價比。
還有1個型號大家應該比較熟悉——H20。
這是輝達因為美國出口限制而推出的閹割版(特供版)。據說B200也會有對應的閹割版B20。
輝達的下一代AI平台是Rubin(羅賓),計畫於2026年推出。大家一開始以為下一代GPU就是R100、R200。但輝達給出的路線圖,又說是X100。所以,還有待觀望。
2028年,輝達會推出下下一代平台——Feynman(費曼)。
GPU是輝達的算力核心硬體單元。但他們並不是只有GPU。圍繞GPU,他們還有很多的產品和解決方案。
輝達早期的時候是和IBM POWER CPU合作,後來,可能是感覺IBM不給力,於是自己開始研發CPU。例如,基於ARM架構研發的Grace CPU(Vera CPU在路上)。
輝達採用NVLink技術,將GPU和CPU進行配對,就變成了所謂的超級晶片平台(Superchip)。
例如GH200、GB200,以及不久前新發佈的GB300(Blackwell Ultra)。
由一個Grace CPU和兩個Blackwell B200 GPU組成的平台,就是GB200(取Grace和Blackwell的首字母),據說性能是H100的7倍。
類似的,GH200,就是Grace CPU和Hopper GPU的組合搭配。
再往上一個層級,就是電腦了。其實剛才GB200,已經是個電腦了。
基於剛才的各種晶片平台,輝達建構了對應的電腦平台,或者說,叫做超級電腦平台,包括DGX、EGX、IGX、HGX、MGX等。
具體的區別如下,我就不多解釋了,看下表:
DGX還是見得比較多。當年黃仁勳送給OpenAI的,就是第一代的DGX-1。
現在的DGX,基本上都是土豪金配色,價格也很昂貴。
面向桌面市場,輝達還推出了DGX Spark和DGX Station,相當於工作站。
接下來,要涉及到通訊方面的技術了。
之前小棗君給大家介紹超節點的時候(最近很火的“超節點”,到底是幹啥的?),提到過NVLINK。
NVLINK是輝達推出的GPU卡間互連技術,主要是取代PCIe。剛才也提到,CPU和GPU之間,也是NVLINK技術。
NVLINK多節點,就不好直連了,要引入交換晶片。於是,就有了NVLink Switch,也叫NVSwitch。後來,晶片又變成了裝置。
NVLINK可以把很多的GPU連起來,組成看似很多電腦,但實際上屬於一個邏輯節點(超節點)的平台。
近年來,我們經常聽說DGX GB200 NVL72。
DGX GB200 NVL72,採用了NVLINK5,包含了18個GB200 Compute Tray(計算托架),以及9個NVLink-network Switch Tray(網路交換托架)。如下圖所示:
每個Compute Tray包括2顆GB200超級晶片。所以,就是36個Grace CPU(18×2),72個B200 GPU(18×2×2)。
8個DGX GB200 NVL72,又可以組成一個576個GPU的SuperPod超節點。
單節點內,不斷加GPU,是Scale Up(縱向擴展)。單節點到了一定規模,就不好再增加了。就要增加節點數量,搞節點與節點之間的互連,那就是Scale Out(橫向擴展)。
Scale Out,輝達也有解決方案,那就是InfiniBand(IB)技術。
InfiniBand以前是Mellanox公司的。輝達佈局深遠,2019年把Mellanox收購了,InfiniBand就成了輝達的私有技術。
InfiniBand是技術名詞,不是產品名詞。輝達基於InfiniBand推出的產品平台是NVIDIA Quantum(“量子”的意思)。
例如,2024年3月,輝達發佈的Quantum-X800網路交換機平台,端到端吞吐量能夠達到800Gbps。平台包括了含Quantum Q3400交換機、ConnectX-8 SuperNIC網路卡等硬體。
這些硬體,也都是有系列的。Quantum-X800的上一代,是Quantum-2。ConnectX-8的前代,有ConnectX-6、ConnectX-7等。
ConnectX高速網路卡也是來自Mellanox。
Scale Out的兩大解決方案,除了InfiniBand,還有乙太網路。輝達乙太網路這邊也沒放過,也有產品,就是Spectrum-X800。(Spectrum是“光譜”的意思。)
Spectrum-X800包括了Spectrum SN5600交換機、BlueField-3 SuperNIC網路卡等硬體產品,吞吐量同樣高達800Gbps。
BlueField是這些年很火的DPU。輝達將Mellanox的ConnectX網路卡技術與自己的已有技術相結合,於2020年正式推出了BlueField-2 DPU和BlueField-2X DPU。現在演進到了BlueField-3。
對了,前段時間,輝達還發佈了CPO光電一體化封裝網路交換機Spectrum-X Photonics和Quantum-X Photonics。
輝達還有一些其它的網路卡、連接器、線纜等配件,就不逐個介紹了。
黃教主前段時間透露,新一代的Rubin平台發佈時,據說會帶來NVLink 6、ConnectX-9 SuperNIC和Quantum(Spectrum)-X1600。可以期待一下。
剛才介紹的,是輝達的算力硬體平台家族,以及通訊網路家族。
再看一個軟體方面的名詞——大名鼎鼎的CUDA。
輝達的硬體和網路做得很牛,但實際上,最被視為核心競爭壁壘的,反而是這個CUDA。
CUDA(Compute Unified Device Architecture,計算統一裝置架構),是輝達在2006年推出的平行計算平台和程式設計模型。它讓開發者能夠直接在GPU上編寫程式碼,從而大幅提升計算速度。
如今,CUDA就像是智算開發的作業系統,集程式設計模型、編譯器、API、庫和工具於一體,有利於使用者更好地發揮輝達硬體的能力。
CUDA不僅是個工具,更形成了強大的AI開發生態。它是輝達整個業務體系的神經中樞。
現在很多AI開發都依賴於輝達的硬體和CUDA,換硬體其實也不是很難,但是,生態遷移更加痛苦。
好啦,關於輝達的主要產品體系和命名規則,就介紹到這裡。
在不同的領域,輝達會基於這些核心產品,建構不同的解決方案。有的時候,也會衍生出一些升級版或閹割版,大家注意一下就行。
這個公司在AI領域牢牢佔據核心地位,希望能有更多的企業,站出來向它發出挑戰。 (鮮棗課堂)