就在一位分析師表示用於人工智慧(AI) 和高效能運算(HPC) 的Nvidia基於Hopper 的H100 GPU的交貨時間大幅縮短幾天后,Nvidia 表示預計其下一代Blackwell 的供應將受到限制基於GPU的產品。
Nvidia 財務長 Colette Kress 在該公司與金融分析師和投資者舉行的財報電話會議上(來自SeekingAlpha)表示:「我們預計,由於需求遠遠超過供應,我們的下一代產品將受到供應限制。”
Nvidia 的下一代B100 產品基於全新的Blackwell 架構,根據該公司的效能預測,與現有的Hopper 架構相比,該架構有望顯著提高AI 運算的效能。鑑於市場上對高效能AI 處理器的巨大需求,Nvidia 的現有客戶很可能已經預訂了至少一些B100 產品。
唯一的問題是,Nvidia 能夠以多快的速度提高B100 SXM 模組和B100 PCIe 卡以及DGX 伺服器的產量。畢竟,這些都是使用不同組件的全新產品。
據傳Blackwell將是Nvidia第一個採用多chiplet設計的架構。如果是這樣的話,這可能會在矽級上簡化基於Blackwell 的GPU 的生產,因為更容易最大限度地提高較小晶片的產量。但另一方面,多小晶片解決方案的封裝變得更加複雜。
值得注意的是,除了用於訓練和推理的旗艦B100 AI和HPC GPU之外,Nvidia還準備了用於企業和訓練應用的B40 GPU,結合B100 GPU和基於Arm的Grace CPU的GB200產品,以及用於大語言訓練的GB200 NVL楷模。
早在11 月,Nvidia 就推出了用於AI 和HPC 工作負載的H200 運算GPU ,目前該公司正在提高產量。Nvidia的H200依賴Hopper架構,基本上刷新了該公司現有的產品陣容,具有更高的記憶體容量和頻寬。由於Nvidia 自2022 年以來一直在完善其Hopper 供應鏈,因此產品的成長應該相對較快。儘管如此,Nvidia 的Jensen Huang 抱怨該公司無法立即滿足這款新產品100% 的需求。
輝達執行長黃仁勳在與分析師和投資者舉行的季度財報電話會議上表示:「正如你所知,每當我們推出新產品時,它都會從零增加到一個非常大的數字,而且你不可能一夜之間做到這一點。” “[…] 因此,每當我們推出新一代產品,而現在我們正在增加H200 時,我們就無法在短期內合理地滿足需求。”
輝達晶片路線圖,深度解讀
最近,輝達更新了其最新資料中心路線圖,其激進的更新幅度更新了所有人。首先,我們先回顧一下英輝達去幾年的路線圖。以下是2021年4 月舉行的GTC 2021 上發布的內容:
這是“Hopper”之後的更新版,在上面的路線圖中被稱為“Ampere Next”,在2022 年Computex 上發布:
以下是我們認為今年稍早發布的路線圖的更新,其中添加了用於人工智慧推理、視覺化和元宇宙處理卡的「Lovelace」GPU 系列:
最後,這是輝達近來發布的路線圖,由semianalysis首先披露。
如果過去的趨勢是未來趨勢的指標——當晶片製造商向其超大規模和雲端建構商客戶承諾兩年推出一次的節奏時,它們肯定應該是未來趨勢的指標,就像輝達幾年前所做的那樣——那麼我們絕對期待新架構的Blackwell GB100 GPU 加速器將於明年3 月至5 月左右推出。但正如您在下面所看到的,Nvidia 主要GPU 發布的節奏通常不到兩年。所以這是一種回歸形式。
以下是資料中心GPU 在過去21 年中的推出方式,資料中心GPU 運算至關重要:
我們很清楚,Hopper-Next 應該是Blackwell GB100 GPU,而現在路線圖上的GH200 是一種權宜之計,試圖轉移人們對AMD看起來將於12 月推出的CPU-GPU 混合設備“Antares” Instinct MI300X GPU 和MI300A 混合顯示卡的注意力。AMD 將在這些裝置上擁有HBM 記憶體容量和頻寬優勢,以及用於CPU 和GPU 的聚合內存,而Nvidia 無法告訴所有人H100NVL雙倍卡就是答案。
因此,有兩種方法可以使用即將推出的Hopper-Next H200 GPU。我們贊成但僅基於預感的一個是Nvidia 測試將兩個Hopper GH100 GPU 放入一個插槽中,因為它已經使用其Arm 伺服器CPU 與其Grace-Grace 超級晶片配合使用。我們在一年半前建議它這樣做。此晶片的效能可以稍微降低,以獲得更合適的功率範圍,並留出空間來容納更高的HBM3e 記憶體堆疊,從而提高目前資料中心非常缺乏的記憶體與運算比率。
GPU 插槽中的晶片數量並不像每個插槽中的頻寬那麼重要。每個插槽需要兩個GPU,但記憶體頻寬需要四倍、六倍或八倍才能真正領先並提高GPU 的效能。我們半開玩笑地說:擁有一半Hopper GPU 可能更有意義——稱之為Hop?– 如果您確實想提高AI 工作負載的效能,則需要2 倍的記憶體容量和2 倍的記憶體頻寬。
有些人認為H200只是記憶體升級,在相同的GH100 GPU上提供2倍的記憶體容量和2倍的記憶體頻寬。我們認為會對它進行一些調整,並且可能會進行更深層的垃圾分類,以至少提高效能。
這個路線圖中還有另一個令人煩惱的事情:根據Nvidia 的最新路線圖,未來的Blackwell GB100 GPU 和B100 加速器到底什麼時候會出現?你看到上面有日期嗎?我們推測是在2024 年末,但Blackwell 仍有一定的空間可以延後到2025 年初。(我們認為Blackwell 晶片很可能以伊麗莎白·布萊克威爾(Elizabeth Blackwell) 命名,她是第一位獲得醫學學位的女性在美國(在紐約州北部的日內瓦醫學院,現在是雪城大學的一部分),也是第一位在英國總醫學委員會醫學登記冊上登記的女性。)
無論如何,Blackwell GB100 GPU 都非常接近GX100 GPU(我們將其代號為「Xavier」),預計將於2025 年推出,我們認為是在今年晚些時候,但也可能不是。(除了漫威超級英雄宇宙中虛構的Charles Xavier 之外,我們找不到姓氏以X 結尾的重要著名科學家,是的,我們知道Nvidia 已經在其嵌入式系統之一中使用了該代號.“X 」可能只是意味著它是一個變量,而Nvidia 尚未決定有一個代號。)
我們認為Nvidia 需要更多時間來調整Blackwell 的GPU 架構,並且考慮到AI 模型變化的速度,如果事情很重要,例如Volta 的Tensor Cores 或稀疏性,Nvidia 應該這樣做是合理且正確的支持是針對Ampere ,或者Transformation Engine 和FP8 是針對Hopper。
解決這個問題後,我們對目前的Nvidia 路線圖有一些需要挑選的地方。例如,BlueField DPU 發生了什麼事?
DPU 是Nvidia 硬體堆疊不可或缺的一部分,提供網路、安全性和虛擬化卸載,並將超級電腦轉變為多租戶雲端。Hopper GPU 是在2022 年3 月的春季GTC 會議上宣布的,而不是在2023 年,並且也在2022 年末發貨。H100 NVL 和Lovelace L40 失蹤了。「Ampere」A100 於2020 年問世,而非2021 年。Quantum 2 400 Gb/秒InfiniBand 和400 Gb/秒Spectrum-3 乙太網路於2021 年發布,並於2022 年(而非2023 年)開始出貨。速度為800 Gb/秒乙太網路和InfiniBand 的運行速度比我們在2020 年11 月與Nvidia 交談時的預期晚了大約一年。順便說一句,上一代200 Gb/秒Quantum InfiniBand 於2016 年發布,並於2017 年發貨。那裡存在著很大的差距,因為所有試圖推銷從200 Gb/秒到400 Gb/秒的跳躍的公司都存在這個差距。
有鑑於這一切,我們更新了Nvidia 官方路線圖:
顯然,生成式人工智慧的爆炸性成長消除了資料中心和超級運算高層對運算和互連的猶豫。因此,每年一次的節奏是有意義的。但如果不出現一些滑點,可能很難維持。事實上,這個路線圖可以被視為彌補Blackwell 架構交付延遲的一種方式,而Xavier GX100 將於2025 年推出(也許非常接近Blackwell)這一事實告訴您,事情已經發生了。也許Nvidia 會從Blackwell 開始,轉向秋季發布和交付其資料中心GPU?無論H200 GPU 加速器是什麼,值得注意的是沒有B200 或X200 緊跟在後。這款H200 是一匹只會耍花招的小馬。好吧,除非輝達陷入另一個困境。。。。
這裡有一些需要考慮的事情:當產品的需求是您可以交付的產品的3 倍、4 倍、甚至5 倍時,路線圖的節奏並不重要,而供應量更重要。如果雲端和一些人工智慧新創公司獲得了所有Hopper GPU,而其他人都無法獲得,那又怎麼樣呢?這意味著任何擁有矩陣數學引擎和人工智慧框架的人都有機會出售他們得到的任何東西。
因此,我們看到這種情況正在發生,即使是像英特爾備受推崇的Gaudi 加速器系列這樣的死胡同產品。是的,Gaudi 2 可以與Nvidia A100 甚至H100 抗衡,是的,Gaudi 3 即將推出,其性能將提高2 倍,但那又怎樣呢?沒有Gaudi 4,但有一個名為“Falcon Shores”的GPU,具有Gaudi 矩陣數學單元和Gaudi 乙太網路互連。在正常情況下,沒有人會購買Gaudi 2。但在生成式AI 淘金熱中,你可以得到的任何矩陣數學單元都必須這麼做。
細研究了這個路線圖後,這也許是最重要的事。Nvidia 擁有大量現金來壟斷HBM 記憶體和CoWoS 基板市場,並遠遠領先也需要這些組件來建立加速器的競爭對手。它可以使用即將推出的組件,例如台積電非常有趣的CoWoS-L 封裝技術,該技術允許對小晶片進行相對正常的基板封裝,但在小晶片之間設置小型中介層,需要大量電線來驅動高電壓。這些小晶片各部分之間的頻寬。(CoWoS-L 有點像英特爾的EMIB。)如果願意的話,它有足夠的現金來製造兩晶片H200 和四晶片B100。Nvidia 已經證明了四GPU 設計的可行性,但公平地說,MI300X 表明AMD 可以透過在巨大的L3 快取之上堆疊八個小晶片來做到這一點。
Nvidia 最好不要亂搞,因為在硬體方面,AMD 絕對不會。那些熱愛開源框架和模型的人正在密切關注PyTorch 2.0 框架和LLaMA 2 大型語言模型,由於Meta開明的利己主義,它們沒有任何障礙。PyTorch 顯然在AMD 處理器上運作得很好,我們認為在MI300A 和MI300X 上會做得更好。
因此,從2024 年開始,Nvidia 晶片的步伐確實加快了每年升級的節奏。
請記住,你可以建造一條護城河,但當井乾涸時你就不能喝它,因為水很臭,可能來自敵人的屍體
最後,我們來回顧一下semianalysis當時是怎麼說的。
B100,上市時間高於一切
我們相信Nvidia 的B100 將在2024 年第三季大量出貨,並在2024 年第二季提供一些早期樣品。從我們聽到的性能和整體擁有成本來看,它擊敗了Amazon Trainium2、Google TPUv5、AMD MI300X、Intel Gaudi 3 和Microsoft Athena ,即使考慮到從設計合作夥伴/AMD/台積電購買這些晶片所支付的利潤要低得多。
我們的理解是,與最初的「計劃」相比,Nvidia 做出了多項妥協,以便將B100 更快推向市場。例如,Nvidia 希望將功耗設定為更高水準1,000W,但他們最初會堅持使用H100 的700W。這使得Nvidia 在B100 變體上市時能夠堅持使用空氣冷卻。
Nvidia 最初也堅持在B100 上使用PCIe 5.0。5.0 和700W 的組合意味著它可以直接插入H100 的現有HGX 伺服器中,從而大大提高供應鏈更早提高產量和出貨量的能力。決定堅持使用5.0 的部分原因是AMD 和英特爾在PCIe 6.0 整合方面遠遠落後。Nvidia 自己的內部團隊也還沒準備好使用PCIe 6.0 CPU,此外他們會使用更快的C2C 樣式連結。
ConnectX-8 稍後配備了整合式PCIe 6.0 交換機,但還沒有人為此做好準備。我們的理解是,Broadcom 和Astera Labs 只會在今年年底為PCIe 6.0 重定時器做好批量出貨的準備,並且考慮到這些基板的尺寸,仍然需要許多重定時器。這意味著最初的B100 將限制為3.2T,而ConnectX-7 則限制為400G,而不是Nvidia 幻燈片聲稱的每GPU 800G。保持空氣冷卻、電源、PCIe 和網路速度相同,使其非常易於製造/部署。
稍後Nvidia將推出1000W版本,需要水冷。這個變體出現得稍晚一些,並且將透過ConnectX-8 實現每GPU 網路的完整800G。這些SerDes 對於乙太網路/InfiniBand 仍然是8x100G。雖然每個GPU 的網路速度翻倍,但基數減半,因為它們仍然必須經過相同的51.2T 交換器。B100 一代將不存在102.4T 交換器。
有趣的是,我們聽說Nvidia 正在轉向B100 上的224G SerDes NVLink 組件,如果他們能讓它發揮作用,那就太棒了。與我們交談過的大多數人都認為224G 不可靠,而且不可能在2024 年實現,除了Nvidia 的人。我們不知道,但他們很可能在2024 年堅持使用112G,但我們目前傾向於Nvidia 採取激進的態度。請注意,Google、Meta 和Amazon 擁有224G 的AI 加速器,目標是2026/2027 年以上量產,而不是像Nvidia 那樣2024/2025 年。Nvidia 將擊敗他們的競爭對手。
我們聽說這款GPU 仍然是台積電的N4P,而不是基於3nm 的製程技術。考慮到台積電的3nm 對於如此大的晶片尺寸來說還不成熟,這是有道理的。根據其基板供應商Ibiden 傳聞的基板尺寸,Nvidia 似乎已轉向具有8 或12 個HBM 堆疊的2 個單片大型晶片MCM。這與SambaNova 和英特爾明年的晶片類似的宏觀設計。
Nvidia 沒有像AMD 那樣使用任何瘋狂的hybrid bonding,因為他們需要出貨非常大的容量,而成本是他們的一個大問題。我們相信這兩種B100 變體將具有與MI300X 相似或更多的記憶體容量以及更多的記憶體頻寬。風冷B100 可以有6.4Gbps 堆棧,但水冷版本可以高達9.2Gbps。
Nvidia也展示了GB200和B40。G 代表GB200 和GX200,因此它顯然是一個佔位符,因為Nvidia 將推出新的基於Arm 的CPU。他們不會繼續使用Grace 這麼久。我們認為B40 是B100 的一半,只有1 個單晶片N4P 晶片和多達4 或6 個HBM 堆疊。與L40S 不同,這對於較小模型的推論是有意義的。
X100,致命一擊
最值得注意的是Nvidia 的“X100”時間表。該時間表將與AMD 目前的MI400 時間表相符。AMD MI300X 的策略是在H100 推出一年後推出。AMD 希望透過在技術上積極進取,MI300X 在令人印象深刻的封裝中填充更多的計算和內存,與一年前的H100 相比,可以在純硬體上超越Nvidia。
Nvidia 發現,他們的2 年資料中心GPU 產品節奏可以為競爭對手打開一扇窗口,試圖利用更新的晶片在市場上站穩腳跟。現在,輝達正在透過將產品節奏加快到每年一次來關閉這一窗口。「X100」預計於2025 年推出,僅比B100 晚一年。
鑑於這款GPU 距離流片還很遠,與B100 不同的是,B100 已經Tape out了,事情仍然懸而未決。輝達從未討論過下一代之後的問題,所以這是史無前例的。
這個名字也顯然不是「X100」。Nvidia 一直以Ada Lovelace、Grace Hopper 和Elizabeth Blackwell 等傑出女科學家的名字來命名他們的GPU 代號。對X來說,唯一符合邏輯的人就是研究半導體和金屬能帶結構的中國女性科學家謝希德。不過,,我們對此表示高度懷疑,儘管這可能是輝達計劃在下週傳聞出口限制後再次向中國出售GPU 的方式。
拋開笑話不談,這個「規格」不值得猜測,因為網表甚至還沒完成。唯一有交集的是台積電的N3X的使用。(半導體產業觀察)
原文連結
https://www.tomshardware.com/pc-components/gpus/nvidia-expects-next-gen-blackwell-gpus-to-be-supply-constrained