誰在搶GPU?

8月,輝達發布了二季度財報,財報顯示,公司二季度營收135億美元,創季度新高且同比增長超100%。公司預期三季度該數字將達到160億美元。與此同時,高端芯片的強勁需求將公司毛利率大幅提升至71.2%,二季度淨利潤61.8億美元,同比漲幅達到驚人的843%。

這是什麼概念呢?相當於輝達在三個月時間裡多賺了六七十億美元,而且之後每個季度都有望入賬這麼多錢,即使放在群英薈萃的矽谷,這樣的成績也足以讓大家感到驚訝了。

而營收和盈利背後,是輝達顯卡被瘋搶的盛況,即使輝達今年能預計出貨50萬塊H100顯卡,依舊沒有滿足AI市場的急速擴張的需求,其未來計劃將H100顯卡的產量至少提高兩倍,2024年該顯卡的預計出貨量會達到150萬至200萬顆左右。

那麼,到底是誰在搶這幾十萬乃至上百萬的顯卡呢?

我們或許可以從最近的新聞裡一窺端倪,8月29日,總耗資三億美元的特斯拉GPU集群正式上線,該集群集成了10000 塊輝達的H100 GPU,其主要用途就是幫助訓練特斯拉的無人駕駛系統FSD。

作為構築該集群最重要的一部分,輝達H100於2022 年末推出,售價約4萬美元,比前代A100 快30 倍,AI 訓練速度快9 倍,根據輝達的介紹,H100 專為視頻訓練等圖形密集型工作負載而設計,且易於擴展,其擁有18,432 個CUDA 核心, 640 個張量核心,80 個流式多處理器(SM) ,與A100 相比,H100的高性能計算速度快5 倍以上。

而由10,000 塊H100構築的GPU集群將提供340 FP64 PFLOPS 的峰值性能,為人工智能應用提供39.58 INT8 ExaFLOPS 的峰值性能,峰值性能上已經超越了世界第四高性能超級計算機Leonardo 所提供的304 FP64 PFLOPS 。

而輝達第二季度的財報,正是像特斯拉這樣的公司做出的貢獻,他們投入巨資打造超大型GPU集群,一出手就是購入上萬張顯卡,讓台積電開足了馬力生產都趕不上需求的變化。


微軟

時間回到5 年前,OpenAI 向微軟提出了一個大膽的想法——它可以構建一套人工智能系統,永遠改變人類與計算機之間的交互方式。

但是這套人工智能系統並非憑空得來,它需要建立在強悍算力的基礎之上,而且光有一套在背後提供助力的基礎設施還不夠,這還不是一錘子買賣,OpenAI必須能長期穩定地運行這套系統,簡而言之,就是要不斷地砸錢。

當時,微軟Azure 高性能計算和人工智能產品負責人Nidhi Chappell 表示:"我們從研究中了解到的一件事是,模型越大,你擁有的數據越多,你能訓練的時間越長,模型的準確性就越好。"

為了力挺OpenAI的人工智能,2019年,微軟宣布與OpenAI建立合作關係,包括投資10億美元以及在Azure中建立一個可以訓練和運行高級AI模型的計算平台,微軟將對Azure進行的改進,以構建超級計算技術。

在Build 2020活動上,微軟宣布了這次合作的結果。微軟與OpenAI合作,並專門為OpenAI構建了一台新的超級計算機,這台新超算包括了超過28.5萬個CPU核心,1萬塊GPU,每個GPU服務器的網絡連接能力為400 gigabits每秒,按照世界超級計算機TOP500的排名,微軟打造的這款新型超級計算機位列前五名。



如何讓這套集成萬塊GPU的超算集群全力開動起來,成了當初擺在微軟面前的難題。

微軟Azure 高性能計算和人工智能產品負責人Nidhi Chappell 稱,技術的關鍵是學習如何在高吞吐量、低延遲的InfiniBand 網絡上構建、運行和維護數以萬計共處一地的GPU,並相互連接。

微軟介紹稱,為了幫助訓練大型語言模型,計算工作被劃分到一個集群中的數千個GPU 上,在Allreduce階段,GPU會相互交換信息,而全新的InfiniBand 網絡用於加速這一階段,這一切都在下一階段計算前完成,所有GPU就像齒輪一樣緊密咬合在了一起。

"由於工作跨越了數千個GPU,你需要確保你有可靠的基礎設施,然後也需要在後端擁有網絡,這樣你就可以更快地進行通信,並能夠連續數週這樣做",Chappell 說道,“這不是你買了一大堆GPU,把它們連在一起,就可以開始工作的。為了獲得最佳的性能,需要有很多系統級的優化,而這是經過許多代人的經驗總結出來的。”

時間來到今日,這套基礎架構現在已成為整個Azure 雲計算結構的標準配置,其中包括針對AI 工作負載優化的虛擬機組合、連接的計算和存儲資源,微軟雲和人工智能集團執行副總裁Scott Guthrie 表示,構建這種基礎設施釋放了OpenAI 的ChatGPT 和新的Microsoft Bing 等產品中的人工智能功能。

在ChatGPT全球爆火之後,原來的這套超算已經無法滿足越來愈多的AI計算需求,今年3月,微軟發布博文稱,Azure即將迎來重磅升級,加入數万張輝達最新的H100顯卡以及更快的InfiniBand網絡互連技術。

根據微軟的介紹,ND H100 v5 虛擬機將成為未來AI的支柱,它支持按需大小不等的8 到數千個NVIDIA H100 GPU,這些GPU 通過NVIDIA Quantum-2 InfiniBand 網絡互連。與上一代ND A100 v4 VM 相比,可以看到人工智能模型的性能顯著提高,其中創新技術包括:

8個NVIDIA H100 Tensor Core GPU通過下一代NVSwitch和NVLink 4.0互聯;

每個GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每個虛擬機有3.2Tb/s的無阻塞胖樹型網絡;

NVSwitch和NVLink 4.0在每個虛擬機的8個本地GPU之間具有3.6TB/s的雙向帶寬;

第四代英特爾至強可擴展處理器;

PCIE Gen5到GPU互連,每個GPU有64GB/s帶寬;

16通道4800MHz DDR5 DIMM……

微軟表示,ND H100 v5虛擬機將成為微軟向客戶提供基礎設施的方式,該基礎設施包括數以千計的NVIDIA AI 優化GPU,這些GPU 在基於NVIDIA Quantum InfiniBand 通信的高吞吐量、低延遲網絡中連接在一起,其可以根據任何AI 任務的規模進行擴展。

與特斯拉相比,微軟的超算不再局限於單一的特定用途,而是更看重在AI訓練方面的整體性能,以及面向各類用戶的靈活擴展,相信其未來潛力會隨著Open AI和微軟旗下AI產品的發展而進一步得到釋放。


谷歌

與微軟不同,谷歌在組建超算集群這條路上出發得更早,它不光從輝達處大批量採購顯卡,同時還悄悄啟動了自研計劃,雙軌並行成就了今天谷歌的超算。

谷歌的自研始於2013年,當時的Google AI負責人Jeff Dean經過計算後發現,如果有1億安卓用戶每天使用手機語音轉文字服務3分鐘,其中消耗的算力就是Google所有數據中心總算力的兩倍,而全球安卓用戶遠不止1億。

谷歌最終選擇了另闢蹊徑,並立下了一個不低的目標:針對機器學習這一目的來構建特定領域計算架構(Domain-specific Architecture),還要將深度神經網絡推理的總體擁有成本(TCO)降低至原來的十分之一。

2014年,谷歌TPU(Tensor Processing Unit)開始正式研發,得益於谷歌本身既有的強大科研實力,以及從各個公司招募而來的優秀芯片人才,TPU的開發異常順利,僅在15個月後就開始在數據中心部署應用,且每瓦性能達到了GPU的30倍,CPU的80倍。

直到2016年的Google I/O開發者大會上,首席執行官Sundar Pichai才正式向世界展示了TPU這一自研成果。Pichai非常自豪地表示,DeepMind研發的AlphaGo能夠擊敗韓國棋手李世石,底層硬件裡的TPU功不可沒,TPU就像希臘神話中引發特洛伊戰爭的女人——海倫,它的出現引起了“成千芯片與之競逐”。

而在2023年,谷歌公佈了自研芯片的最新版本——TPU V4,相較於上一代,性能高出2.1倍,在整合4096個芯片之後,超算性能提升了10倍。

谷歌表示,對於規模相當的系統,TPU v4可以提供比輝達A100強1.7倍的性能,同時在能效上也能提高1.9倍。與TPU v3一樣,每個TPU v4包含兩個TensorCore(TC)。每個TC包含四個128x128矩陣乘法單元(MXU),一個具有128個通道(每個通道16個ALU),以及16 MiB向量存儲器(VMEM)的向量處理單元(VPU)。

谷歌稱,客戶對機器學習的容量、性能和規模的需求一直在快速增長。為了支持AI的下一代基礎性進步,我們正式推出了谷歌云機器學習集群,其中就包括預覽版的Cloud TPU v4 Pod,在最高可達9 exaflops的峰值聚合性能下,Cloud TPU v4 Pods集群在算力方面是全世界最大的公開可用的機器學習中心。

讓人感到訝異的是,谷歌實施自研戰略的後,利用輝達GPU組建的超算集群也絲毫不遜色於其他巨頭。

今年5月,在年度Google I/O 開發者大會上,谷歌公佈了全新AI 超級計算機——A3 ,該超算擁有大約26,000 塊輝達H100 GPU,作為參考,世界上最快的公共超級計算機Frontier擁有37,000 塊AMD Instinct 250X GPU。



谷歌表示,A3超級計算機面向希望訓練大型語言模型的客戶,是對現有A2 虛擬機與Nvidia A100 GPU 提供的計算資源的重大升級,谷歌正在將所有分佈在不同地理位置的A3 計算實例匯集到一台超級計算機中。

“A3 超級計算機的規模可提供高達26 exaflops 的AI 性能,這大大減少了訓練大型ML 模型的時間和成本,”谷歌的董事Roy Kim 和產品經理Chris Kleban 在博文中提到。

此外,A3 超算是第一個通過名為Mount Evans 的基礎設施處理單元連接GPU 實例的虛擬機,該單元由谷歌和英特爾聯合開發,IPU 允許A3 虛擬機卸載網絡、存儲管理和安全功能,並以200Gbps 的速度傳輸數據。

“A3 是第一個使用我們定制設計的200Gbps IPU 的GPU 實例,GPU 到GPU 的數據傳輸繞過CPU 主機並流經與其他VM 網絡和數據流量不同的接口。與我們的A2 虛擬機相比,這使網絡帶寬增加了10 倍,具有低尾延遲和高帶寬穩定性,”谷歌高管在博客文章中表示。

左手TPU,右手H100的谷歌,在組建超算集群這件事上似乎走在了很多公司的前面,自研面向自身需求,而輝達GPU服務於客戶,二者取長補短,讓谷歌成為了這個AI時代的弄潮兒。


Meta

對於因為元宇宙而改名的Meta來說,AI似乎一直是它深耕的領域,更是為了它背後的基礎設施豪擲萬金,力圖打造世界第一流的超算集群。

2017年,當時還叫FaceBook的Meta打造了第一代AI超級計算機,其配備了22000個NVIDIA V100 Tensor Core GPU,每日可處理35000項AI訓練工作。

據HPCwire 預計,這個基於V100 GPU 的前身版本,按照Linpack benchmark 的浮點計算性能應該已經達到了135 PFlops。在2021年11月全球超算排行榜中足以排到第三名,其算力已經超越了美國在加州Livermore 運作的“山脊”(Sierra) 超級計算機。

2020年初,由於已有超算集群越來越難跟上未來大模型訓練的需要,Meta決定從0開始設計一個新的超算,進而在大到一個Exabyte的數據集上訓練出超過一萬億個參數的模型,

2022年1月,Meta 宣布它正在建造的世界最快AI 超算AI Research SuperCluster (RSC),他們選擇了三家在AI 計算和數據中心組件方面最知名的公司:輝達、Penguin Computing,和Pure Storage。

Meta不僅從輝達處採購了760台DGX 通用訓練系統,其中包含共計6080塊Ampere 架構Tesla A100 GPU,還從Pure Storage 採購了共計231PB 的閃存陣列、模塊和緩存容量,機架搭建、設備安裝和數據中心的後續管理工作,則由從Facebook 時代就在服務該公司的Penguin Computing 負責。

最終,第一階段的RSC超算包含6,080 塊GPU,緩存容量46 PB,主閃存175 PB。在計算機視覺任務上,新超算的性能比舊系統提高20 倍,在大型自然語言處理上性能提升3 倍,而在第二階段正式完成時,包含總共2000 個輝達DGX A100 系統,使用了16000塊GPU,儲存容量達到1 EB,能每秒處理16 Tbps 的數據。

Meta在博客文章中表示:“我們希望RSC幫助我們建立全新的AI系統,例如可以為多個不同語言的團隊提供實時語音翻譯,使他們可以在研究項目上無縫協作,甚至一起玩AR遊戲。 ”

不過目前來看,Meta超算RSC的算力已經落後於微軟和谷歌的AI超算,畢竟後者已經開始利用更強大的H100 GPU來構築超算,但Meta也表示,RSC的優勢是允許其研究人員使用Meta 生產系統中的真實示例來訓練模型,希望為AI 研究人員提供最先進的基礎設施,使他們能夠開發模型並為他們提供培訓平台以推進AI 發展。

而Meta也早已建立了新的自研計劃,在2020年就開發了其第一代基於7nm工藝的自研AI芯片MTIA(MTIA v1),可以從128 MB 內存擴展到高達128 GB,其專門用於處理與AI 推薦系統相關的工作,幫助用戶找出最佳貼文內容並更快呈現在用戶眼前,其計算性能和處理效率都勝過CPU。另外,在Meta 設計的基準測試中,MTIA處理“低複雜性” 和“中等複雜度”的AI 模型也比GPU 更高效。

對於Meta來說,目前沒有新的超算建造計劃可能是不大不小的遺憾,但依靠自研芯片和已有的強大超算,和微軟谷歌相比也不逞多讓。


AWS

與前幾個耳熟能詳的公司相比,較少被提及的AWS(亞馬遜雲科技)作為全球雲計算服務提供商,在組建超算集群的速度和規模上,並不比其他巨頭遜色多少。

AWS和輝達合作的歷史有12年之久,在過去十幾年的時間當中,AWS陸續推出了基於輝達GPU的各種GPU實例,如CG1實例(2010年)、G2(2013年)、P2( 2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)實例。

在去年發布的EC2 P4de實例中,採用8個輝達A100 GPU,每個具有80GB高性能的HBM2e GPU 內存,而這一實例在去年已經用於AWS的超算集群。

今年5月,AWS更進一步,宣布推出EC2 P5 虛擬機實例,該實例將在Nvidia H100 GPU 的基礎上運行,其採用8塊輝達H100 Tensor Core GPU,具有640 GB高帶寬GPU內存,同時提供第三代AMD EPYC處理器、2TB系統內存和30TB本地NVMe存儲,還提供了3200 Gbps的聚合網絡帶寬並支持GPUDirect RDMA,從而能夠繞過CPU進行節點間通信,實現更低的延遲和高效的橫向擴展性能。

而且Amazon EC2 P5實例可以部署在超大規模集群第二代Amazon EC2 UltraClusters中,其由高性能計算、網絡和雲存儲組成,Amazon EC2 UltraClusters可以使用多達2萬個H100 Tensor Core GPU,用戶可以部署可擴展到數十億或數万億參數的機器學習模型。



輝達副總裁Swami Sivasubramanian 表示,與基於輝達上一代A100 GPU 的EC2 P4 模型相比,P5 實例在訓練大型語言模型時速度提高了六倍,並且可以將訓練成本降低40%。

此外,AWS還為超算集群推出了基於Arm的CPU,名為Graviton3E的芯片正是AWS的EC2 HPC7g實例的一部分,AWS將HPC7g實例定位為“緊耦合計算和網絡密集型HPC工作負載的實例類型”,網絡密集型功能集中在Nitro系統芯片上,這是一個數據處理器或基礎設施處理單元,處理網絡,I/O和安全性,其可與輝達的Bluefield或谷歌與英特爾合作開發的Mount Evans相媲美。

目前,Nitro已成為AWS雲基礎設施的核心,其提供了適合其分佈式系統高性能的I/O,HPC7g虛擬機可用於從16個核心到64個CPU核心的實例,具有128GB內存、Amazon Elastic Block存儲、200Gbps EFA(彈性結構適配器)帶寬和25Gbps網絡帶寬。

值得一提的是,另一家公司RIKEN已經通過AWS的HPC7g實例構建了其基於Arm的Fugaku計算機的雲版本,這也是世界上第二快的超級計算機。

生成式AI成為了雲服務市場新的增長點,同時也推動雲服務市場的創新和差異化,作為行業領頭羊的AWS顯然沒有忽視這件事,早已在搭建超算集群的路上持續向前奔跑。


特斯拉

至於開頭提到的特斯拉,作為自動駕駛的先鋒,它早已把超算集群當成是未來的主要方向,除了備受青睞的輝達顯卡外,自研更是它最大的法寶之一。

早在2021年6月,國際計算機視覺和模式識別會議(CVPR)週末的演講中,特斯拉人工智能團隊的負責人安德烈·卡帕西(Andrej Karpathy) 就展示了一台超級計算機,這台超級計算機採用了5760 個算力為321TFLOPS 的輝達A100 顯卡,組成了720 個節點,總算力突破了1.8EFLOPS,10PB 的存儲空間。

而在2021年的特斯拉AI日上,特斯拉自研的多芯片模組化(Multi-Chip Modularized)超級計算機正式亮相,其被命名為Dojo,最初它主要服務於自動駕駛系統的數據標註以及訓練,後也被應用於機器人研發,特斯拉的人形機器人就搭載了Dojo的D1超算芯片。

D1超算芯片是Dojo系統的基礎。該芯片採用7納米製造工藝,處理能力為1024 gigaflops,即每秒1024億次。1500枚D1芯片可組成陣列,而將25個陣列放在一塊晶圓上,便能形成訓練模組(Training Tile),這便是Dojo超級計算機的單元核心。

到了2022年的特斯拉AI日上,特斯拉正式公佈了由D1芯片組成的Dojo ExaPod,即Dojo集群,該集群內含120個訓練模組(Training Tile)、3000個D1芯片。其擁有13TB靜態隨機存取記憶體容量以及1.3TB高傳輸頻寬記憶體容量,算力高達1.1EFLOP。

據介紹,Dojo由“圖塊”組成,工作方式與基於CPU或基於GPU的超級計算機有很大不同。特斯拉稱,Dojo的D1芯片模塊並不是由很多較小的芯片組合在一起,而是一個具有354個內核的大型芯片組成,專門針對AI和機器學習,每個Dojo機櫃可容納4248個內核,10個機櫃的組成的exapod可容納42480個內核。因此對於相同的數據中心佔用空間來說,Dojo要比CPU或者GPU快幾個數量級。

Dojo不僅會幫助加速FSD 訓練,還將負責管理特斯拉汽車的數據處理,根據特斯拉CEO馬斯克所說,特斯拉會同時應用輝達H100 GPU 超算集群和Dojo超算集群,此舉將為該公司在汽車行業提供無與倫比的計算能力。

單論H100超算集群的數量,特斯拉可能還無法和谷歌微軟相媲美,但Dojo自研芯片無疑是它最大的底氣之一,在自動駕駛浪潮來臨之際,特斯拉這兩大利器,已經足夠讓它成為目前算力最強大的公司之一,笑傲於數千家車企之中。


新銳企業

在組建超算集群這件事上,巨頭們爭先恐後,而其他新銳也不甘示弱,甚至由於他們和輝達的良好關係,這方面反而具備了自身的優勢。

成立於2017年總部位於紐約的CoreWeave就是這樣一家新銳企業,此前專注於加密貨幣“挖礦”市場的它,在過去幾年時間實現了轉型,瞄準了人工智能領域,開始提供基於圖形處理單元( GPU)的雲計算服務,今年早些時候,它還獲得了輝達的1億美元投資。

根據官網介紹,CoreWeave目前可以通過搭建的輝達A100 和A40 GPU 集群提供虛擬化算力,可讓用戶訪問超過45000個GPU,被認為是市場上運行人工智能模型的最佳選擇。

而這家公司近期聯合輝達,以及新興AI企業Inflection AI,開始建造全球最大的AI超算集群,該集群由22,000個輝達H100 GPU組成,在16位精度模式下可以達到22 exaFLOPS的運算能力,使用低精度模式,其運算能力還會進一步提高,對照TOP500超級計算機列表,這台全新的超算集群將位列第二,僅次於榜首。

而另一家接受輝達3億美元投資的新銳企業Lambda Labs同樣不容忽視,這家美國雲服務初創公司由Michael Balaban和Stephen Balaban兩兄弟於2012年創立,早年業務重點是銷售GPU驅動的計算機,後轉型為GPU雲服務器租賃,公司的年收益從千萬美元的規模上升至數億美元的規模。

而Lambda labs的規模雖然不大,但其號稱能提供全世界價格最低的NVIDIA A100、H100算力資源,與CoreWeave一樣是組建AI超算集群的主力之一。

這部分新銳在輝達的支持下迅速崛起,成為了超算集群中不可忽視的一股力量。


總結

據不完全統計,目前中國已發布的各類大模型數量超過100 個, 一場“百模大戰”已經擺好了駕駛,而在大模型訓練的背後,最關鍵就是算力,截至2022 年底中國算力總規模達180EFLOPS , 目前居全球第二位,但即便是如此龐大的算力,與目前各類模型訓練的需求仍然不成正比,算力缺口反而在今年進一步擴大。

除了美國外,英國政府斥資9億英鎊,用於構建一台百億億級超級計算機,旨在打造全球最先進的語言模型——BritGPT;人工智能初創公司Cerebras Systems宣布將攜手阿聯酋集團G42打造一個由9台互聯的超級計算機組成的網絡,目前第一台AI超級計算機——“Condor Galaxy 1(CG-1)”開始部署,AI算力高達4 exaFLOPS(每秒4百億億次);日本經濟產業省將通過其附設的研究機構引進一台新的尖端超級計算機,其計算能力大約是現有機器的2.5 倍,通過雲服務將這台超算提供給開發生成式AI 的日本國內企業……說是千帆競逐也不為過

當我們再放眼中國,今年4月,騰訊雲正式發布新一代HCC高性能計算集群,中國首發搭載輝達最新的H800 GPU,採用業界最高的3.2T互聯帶寬;2023年阿里雲將推出一款更接近雲計算終極形態的算力產品,這款被命名為通用Universal實例的產品進一步屏蔽了傳統IT的硬件參數;百度新建設的陽泉智算中心是亞洲最大單體智算中心,建設規模為4 EFLOPSAI算力……幾家巨頭早已把超算列上了重要日程。

更值得我們關注的是,過去的超算架構主要以CPU 為主,但這種傳統基礎設施架構下的算力已經無法滿足目前模型訓練的需求,只有建設大規模GPU 超算集群,才能真正意義上解決大模型訓練的後顧之憂。

可以看到,老牌巨頭中,不管是微軟谷歌,還是Meta AWS,把組建超算集群當作了重要目標之一,他們甚至早在10年前就發覺了這種趨勢,在這方面均已有所佈局,而特斯拉CoreWeave這樣近年才崛起的新貴,更是全力押注算力,一手自研一手採購,迅速填補自身的算力缺口。

這時候問題就來了,誰能掌握算力,拿下通往未來的第一張船票呢?(半導體行業觀察)