輝達新晶片,困難重重

如昨日報導所說,Nvidia 的 Blackwell 系列在實現大批次生產方面遇到了重大問題。這一挫折影響了他們 2024 年第三季度/第四季度以及明年上半年的生產目標。這影響了 Nvidia 的產量和收入。

簡而言之,Nvidia 的 Hopper 的使用壽命和出貨量有所延長,以彌補大部分延遲。Blackwell 的產品時間表有所推遲,但產量受到的影響比第一批出貨時間表更大。

技術挑戰也迫使 Nvidia 匆忙建立之前未計畫的全新系統,這對數十家下游和上游供應商產生了巨大影響。今天,我們將討論 Nvidia 面臨的技術挑戰、Nvidia 修改後的時間表,並詳細介紹 Nvidia 新系統(包括新的 MGX GB200A Ultra NVL36)的系統和元件架構。我們還將深入探討這將對從客戶到 OEM/ODM 再到 Nvidia 元件供應商的整個供應鏈產生的影響。


Nvidia Blackwell 系列中技術最先進的晶片是 GB200,Nvidia 在系統層面的多個方面做出了積極的技術選擇。72 GPU 機架的功率密度為每機架約 125 kW,而大多數資料中心部署的標準為每機架約 12kW 至約 20kW。

這是前所未有的計算和功率密度,考慮到所需的系統級複雜性,這一提升極具挑戰性。出現了許多與電力輸送、過熱、水冷供應鏈提升、快速斷開漏水以及各種電路板複雜性挑戰有關的問題。雖然這些問題讓供應鏈上的一些供應商和設計師手忙腳亂,但大多數問題都是小問題,並不是 Nvidia 減少產量或重大路線圖重做的原因。

影響出貨量的核心問題與 Nvidia 的 Blackwell 架構設計直接相關。由於台積電的封裝問題以及 Nvidia 的設計,原始 Blackwell 封裝的供應有限。Blackwell 封裝是首款採用台積電 CoWoS-L 技術進行封裝的大批次設計。


總結一下,CoWoS-L 使用 RDL 中介層,其中嵌入了局部硅互連 (LSI) 和橋接晶片,以橋接封裝上各種計算和記憶體之間的通訊。相比之下,CoWoS-S 表面上看起來要簡單得多,是一塊巨大的矽片。


CoWoS-L 是 CoWoS-S 的繼任者,因為隨著未來的 AI 加速器容納更多的邏輯、記憶體和 IO,CoWoS-S 封裝尺寸的增長和性能面臨挑戰。台積電已使用 AMD 的 MI300 將 CoWoS-S 縮小到約 3.5 倍光罩大小的中介層,但這是實際極限。有多個門控因素(gating factors),但關鍵因素是硅易碎,隨著中介層變大,處理非常薄的硅中介層變得越來越困難。隨著越來越多的光刻光罩拼接,這些大型硅中介層的成本也越來越高。

有機中介層可以解決這個問題,因為它們不像硅那樣易碎,但它們缺乏硅的電氣性能,因此無法為更強大的加速器提供足夠的 I/O。然後可以使用硅橋(無源或有源)來補充訊號密度以進行補償。此外,這些橋的性能/複雜性可以高於大型硅中介層。

CoWoS-L 是一項複雜得多的技術,但它代表著未來。Nvidia 和台積電的目標是制定一個非常積極的計畫,每季度生產超過一百萬塊晶片。因此,出現了各種各樣的問題。

一個問題與在中介層和有機中介層中嵌入多個精細凸塊間距橋有關,這可能導致矽片、橋、有機中介層和基板之間的熱膨脹係數 (CTE) 不匹配,從而引起翹曲。



橋接晶片的放置需要非常高的精度,尤其是兩個主計算晶片之間的橋接,因為它們對於支援 10 TB/s 晶片間互連至關重要。據傳,一個主要的設計問題與橋接晶片有關。這些橋接需要重新設計。還有傳言稱,Blackwell 晶片頂部的幾個全域布線金屬層和凸塊需要重新設計。這是延遲數月的主要原因。

還有一個問題是台積電總體上沒有足夠的 CoWoS-L 產能。過去幾年,台積電建立了大量 CoWoS-S 產能,其中 Nvidia 佔據了最大份額。現在,隨著 Nvidia 迅速將其需求轉移到 CoWoS-L,台積電正在為 CoWoS-L 建造新的晶圓廠 AP6,並在 AP3 轉換現有的 CoWoS-S 產能。台積電需要轉換舊的 CoWoS-S 產能,否則它將得不到充分利用,CoWoS-L 的增長將更加緩慢。這種轉換過程使得增長本質上非常不穩定。

結合這兩個問題,很明顯台積電無法像 Nvidia 所希望的那樣供應足夠的 Blackwell 晶片。因此,Nvidia 幾乎完全將他們的產能集中在 GB200 NVL 36x2 和 NVL72 機架規模系統上。除了一些初始較低產量外,帶有 B100 和 B200 的 HGX 外形尺寸現在實際上已被取消。


為了滿足需求,Nvidia 現在將推出一款基於 B102 晶片的 Blackwell GPU,名為 B200A。有趣的是,這款 B102 晶片也將用於中國版 Blackwell,名為 B20。B102 是一個具有 4 個 HBM 堆疊的單片計算晶片。重要的是,這允許晶片封裝在 CoWoS-S 上,而不是 CoWoS-L,甚至是Nvidia 的其他 2.5D 封裝供應商,如 Amkor、ASE SPIL 和三星。原始 Blackwell 晶片有大量專用於 C2C I/O 的海岸線區域,這在單片 SOC 中是不必要的。

B200A 將用於滿足低端和中端 AI 系統的需求。並將取代 HGX 8-GPU 規格的 B100 和 B200 晶片。它將採用 700W 和 1000W HGX 規格,配備高達 144GB 的 HBM3E 和高達 4 TB/s 的記憶體頻寬。值得注意的是,這比 H200 的記憶體頻寬要小。

說到 Blackwell Ultra,它是 Blackwell 的中期增強版,標準 CoWoS-L Blackwell Ultra 將被稱為 B210 或 B200 Ultra。Blackwell Ultra 包含高達 288GB 的 12 Hi HBM3E 記憶體刷新和高達 50% 的 FLOPS 性能增強。

B200A 還將推出 Ultra 版本。值得注意的是,它不會升級記憶體,但晶片可能會重新設計以提高 FLOPS。B200A Ultra 還引入了全新的 MGX NVL 36 外形尺寸。B200A Ultra 也將採用 HGX 組態,就像原來的 B200A 一樣。


對於HPC市場,我們認為 GB200 NVL72 / 36x2 將繼續最具吸引力,因為它在推理過程中對超過 2 兆參數的模型具有最高的Performance/TCO。話雖如此,如果超大規模客戶無法獲得他們想要的 GB200 NVL72 / 36x2 分配,他們可能仍需要購買 MGX GB200A NVL36。此外,在功率密度較低或缺乏許可/無法獲得水進行液體冷卻改造的資料中心,MGX NVL36 看起來更具吸引力。

HGX Blackwell 伺服器仍將被超大規模企業購買,因為它是可供出租給外部客戶的最小計算單元,但其購買量將比以前少得多。對於小型機型,HGX 仍然是性能/TCO 最佳的機型,因為這些機型不需要大量記憶體,並且可以裝入 NVL8 的單個記憶體連貫域中。

HGX Blackwell 的性能/TCO 在訓練執行階段也表現出色,訓練工作量少於 5,000 個 GPU。話雖如此,MGX NVL36 是許多下一代模型的最佳選擇,並且通常具有更靈活的基礎設施,因此在許多情況下它是最佳選擇。

對於 neocloud 市場,我們認為大多數客戶不會購買 GB200 NVL72 / 36x2,因為尋找支援液體冷卻或高功率密度 Sidecar 的主機託管提供商非常複雜。此外,由於 GB200 NVL72 / 36x2 卷有限,大多數 neocloud 的排名通常比超大規模企業靠後。

我們認為,Coreweave 等最大的 Neocloud 既擁有自己的自建資料中心/改造,又擁有較大的客戶,它們將選擇 GB200 NVL72/36x2。對於 Neocloud 市場的其他部分,大多數將選擇 HGX Blackwell 伺服器和 MGX NVL36,因為這些伺服器可以僅使用空氣冷卻和較低功率密度機架進行部署。目前,大多數 Neocloud 部署都是針對 Hopper 的,功率密度為 20kW/機架。我們認為 Neocloud 可以部署 MGX GB200 NVL36,因為這只需要 40kW/機架的空氣冷卻。

通過使用冷通道封閉系統並跳過資料中心的行列,每機架 40kW 的部署並不困難。在 NeoCloud 規模上,NeoCloud 營運商和 NeoCloud 客戶實際上並不傾向於考慮其特定工作負載的 TCO 性能,而是試圖採購當前最受炒作的產品。例如,大多數(如果不是全部)NeoCloud 客戶不使用 FP8 訓練,而是選擇 bfloat16 訓練。對於在 bfloat16 上訓練的小型 LLM,A100 80GB 提供了更好的 TCO 性能。

由於 Meta 的 LLAMA 模型正在推動許多企業和 Neoclouds 的基礎設施選擇,因此最相關的部署單元是能夠適應 Meta 的模型。LLAMA 3 405B 不適合單個 H100 節點,但勉強適合 H200(該模型可以量化,但質量損失很大)。由於 405B 已經處於 H200 HGX 伺服器的邊緣,下一代 MoE LLAMA 4 肯定不適合 Blackwell HGX 的單個節點,從而極大地影響每 TCO 的性能。

因此,對於推動初創企業和企業部署的最有用的開源模型的微調和推理,單個 HGX 伺服器的性能/TCO 會更差。我們對 MGX B200A Ultra NVL36 的估計價格表明 HGX B200A 不太可能暢銷。Nvidia 有多種強大的動機來稍微降低利潤率以推動 MGX,因為他們用自己的網路更高的附加率來彌補這一點。

MGX GB200A Ultra NVL36 的架構

MGX GB200A NVL36 SKU 是一款完全風冷的 40kW/機架伺服器,將有 36 個 GPU 通過 NVLink 完全互連。每個機架將有 9 個計算托盤和 9 個 NVSwitch 托盤。每個計算托盤為 2U,包含一個 Grace CPU 和四個 700W B200A Blackwell GPU,而 GB200 NVL72 / 36x2 則有兩個 Grace CPU 和四個 1200W Blackwell GPU。

MGX NVL36 設計的 CPU 與 GPU 比例僅為 1:4,而 GB200 NVL72 / 36x2 的比例為 2:4。此外,每個 1U NVSwitch Tray 只有一個交換機 ASIC,每個交換機 ASIC 的頻寬為 28.8Tbit/s。



由於每機架僅 40kW,MGX NVL36 可以採用空氣冷卻。雖然大多數資料中心和當前的 H100 部署僅為 20kW/機架,但 40kW/機架 H100 部署也並不罕見。這是通過跳過資料中心的行並利用冷/熱通道遏制來實現的。部署 40kW MGX NVL36 機架時可以應用同樣的技術。這使得現有資料中心營運商可以非常輕鬆地部署 MGX NVL36,而無需重新設計其基礎設施。

與 GB200 NVL72/36x2 不同,四個 GPU 與一個 CPU 的比例更高,這意味著它將無法使用 C2C 互連,因為每個 GPU 獲得的 C2C 頻寬將是 GB200 NVl72/36x2 的一半。相反,將利用整合的 ConnectX-8 PCIe 交換機來允許 GPU 與 CPU 通訊。此外,與所有其他現有 AI 伺服器(HGX H100/B100/B200、GB200 NVL72/36x2、MI300)不同,每個後端 NIC 現在將負責兩個 GPU。這意味著即使 ConnectX-8 NIC 設計可以提供 800G 的後端網路,每個 GPU 也只能訪問 400G 的後端 InfiniBand/RoCE 頻寬。


在 GB200 NVL72 / 36x2 上,通過 ConnectX-8 後端 NIC,每個 GPU 可以訪問高達 800G 的頻寬。

對於參考設計,GB200A NVL36 將每個計算托盤使用一個 Bluefield-3 前端 NIC。與 GB200 NVL72 / 36x2 每個計算托盤使用兩個 Bluefield-3 相比,這是一種更合理的設計。即使對於 MGX NVL36,我們仍然認為許多客戶不會選擇使用任何 Bluefield-3,而是選擇在超大規模的情況下使用自己的內部 NIC 或使用通用前端 NIC,例如 ConnectX-6/7。

GB200 NVL72/NVL36x2 計算托盤的核心是 Bianca 板。Bianca 板包含兩個 Blackwell B200 GPU 和一個 Grace CPU。每個計算托盤都有兩個 Bianca 板,這意味著每個計算托盤總共有兩個 Grace CPU 和四個 1200W Blackwell GPU。


在 MGX GB200A NVL36 上,CPU 和 GPU 將位於不同的 PCB 上,類似於 HGX 伺服器的設計。與 HGX 伺服器不同,我們認為每個計算托盤的 4 個 GPU 將細分為兩個 2-GPU 板。每個 2-GPU 板將具有與 Bianca 板類似的Mirror Mezz 連接器。這些 Mirror Mezz 連接器將用於連接到 ConnectX-8 夾層板,該夾層板將 ConnectX-8 ASIC 及其整合 PCIe 交換機連接到 GPU、本地 NVMe 儲存和 Grace CPU。

通過將 ConnectX-8 ASIC 置於非常靠近 GPU 的位置,這意味著 GPU 和 ConnectX-8 NIC 之間無需重定時器。這與 HGX H100/B100/B200 不同,後者需要重定時器從 HGX 基板連接到 PCIe 交換機。

由於 Grace CPU 和 Blackwell GPU 之間沒有 C2C 互連,因此 Grace CPU 也位於一個完全獨立的 PCB 上,稱為 CPU 主機板。該主機板將包含 BMC 連接器、CMOS 電池、MCIO 連接器等。


每個 GPU 的 NVLink 頻寬將為每方向 900Gbyte/s,與 GB200 NVL72 / 36x2 相同。以每 FLOP 為基礎,GPU 到 GPU 頻寬大幅增加,這使得 MGX NVL36 適合某些工作負載。

由於只有 1 層交換機連接 36 個 GPU,因此僅需 9 個 NVSwitch ASIC 即可提供無阻塞網路。此外,由於每個 1U 交換機托盤只有一個 28.8Tbit/s ASIC,因此空氣冷卻非常容易。25.6Tbit/s 1U 交換機(如 Quantum-2 QM9700)已經很容易通過空氣冷卻。雖然 Nvidia 可以通過保留帶有 2 個 NVSwitch ASIC 的交換機托盤來實現 NVL36x2 設計,但這會增加成本,並且由於前 OSFP NVLink 籠阻塞氣流,可能使空氣冷卻變得不可能。


在後端網路上,由於每個計算托盤只有兩個 800G 連接埠,我們認為它將使用 2 軌最佳化的行尾網路。每八個 GB200A NVl36 機架將有兩個 Quantum-X800 QM3400 交換機。


我們估計,每 GPU 700W 的功耗,GB200A NVL36 很可能每機架 40kW 左右。2U 計算托盤將需要大約 4kW 的功率,但每 2U 空間 4kW 的空氣冷卻散熱將需要專門設計的散熱器和高速風扇。


我們將在本文後面討論這方面的散熱挑戰,但這對於 Nvidia 在 MGX NVL36 設計上來說是一個重大風險。

MGX GB200A NVL 36 的挑戰

對於 GB200 NVL72 / NVL36x2,唯一不使用 Connect-X 7/8 後端 NIC 的客戶是亞馬遜。正如我們在GB200 架構分析中所討論的那樣,這已經帶來了重大的工程挑戰,因為將不會出現 ConnectX-7/8 或 Bluefield-3,這兩者都具有整合的 PCIe 交換機。因此,需要 Broadcom 或 Astera Labs 的專用 PCIe 交換機將後端 NIC 連接到 CPU、GPU 和本地 NVMe 儲存。這會消耗額外的電力並增加 BoM 成本。

在 SemiAnalysis GB200 元件和供應鏈模型中,我們細分了所有元件供應商的份額、數量和 ASP,包括 PCIe 交換機。由於 GB200A NVL36 完全採用風冷,因此在 2U 機箱前端除了 PCIe 規格 NIC 之外還配備專用 PCIe 交換機,這將大大增加熱工程挑戰。


因此我們認為,基本上不可能有人能在 GB200A NVL36 上做定製後端 NIC。

由於 Grace CPU 和 Blackwell GPU 位於單獨的 PCB 上,我們相信也可能有 x86 + B200A NVL36 版本。由於許多 ML 依賴項都是針對 x86 CPU 編譯和最佳化的,這可能是此 SKU 的額外優勢。此外,與 Grace 相比,x86 CPU 平台提供更高的峰值性能 CPU。不幸的是,對於願意提供 x86 版本的 OEM 來說,將面臨散熱挑戰,因為 CPU 的功耗大約高出 100 瓦。我們相信,即使 Nvidia 提供 x86 B200A NVL36 解決方案,他們也會推動大多數客戶轉向 GB200A NVL36 解決方案,因為它可以銷售 Grace CPU。

GB200A NVL36 的主要賣點是它是一款每機架 40kW 的風冷系統。對客戶的主要吸引力在於,許多客戶仍然無法支援每機架 ~125 kW GB200 NVL72(或 36x2,兩個機架超過 130kW)所需的液體冷卻和電源基礎設施。

沒有任何液體冷卻意味著與 GB200 NVL72 / 36x2 相比,散熱解決方案將簡化整體散熱解決方案,基本上歸結為散熱器(3D Vapor Chamber,3DVC)和一些風扇。然而,鑑於 GB200A NVL36 的計算托盤使用的是 2U 機箱,3DVC 設計將需要進行大量調整。

TDP 為 700W 的 H100 目前使用 4U 高的 3DVC,而 1000W 的 H200 使用 6U 高的 3DVC。相比之下,2U 機箱中 TDP 為 700W 的 MGX B200A NVL36 則受到很大限制。我們認為需要一個水平擴展成陽台狀的散熱器,以增加散熱器的表面積。


除了需要更大的散熱器外,風扇還需要提供比 GB200 NVL72 / 36x2 2U 計算托盤或 HGX 8 GPU 設計的風扇更大的氣流。我們估計,在 40kW 機架中,總系統功率的 15% 到 17% 將分配給內部機箱風扇。因此,GB200A NVL36 的 TUE 數值(一種更好地表示空氣冷卻和液體冷卻之間的能效增益的指標)將比 GB200 NVL72 / NVL36 高得多。

即使對於 HGX H100 等風冷伺服器,我們認為風扇也只消耗系統總功率的 6% 到 8%。由於 MGX GB200A NVL36 需要大量風扇功率才能工作,因此這種設計效率極低。此外,這種設計也有可能行不通,Nvidia 就必須重新設計,嘗試製作 3U 計算托盤或縮小 NVLink 世界大小。

在討論 GB200A NVL36 的硬體子系統和元件變化(這些變化會影響供應鏈中的眾多參與者)之前,讓我們先討論一下 GB200A NVL64。

Nvidia 為何取消 GB200A NVL64

在 Nvidia 推出 MGX GB200A NVL36 之前,他們也在試驗一種風冷 NVL64 機架設計。這款完全風冷的 60kW 機架將有 64 個 GPU 通過 NVLink 完全互連。我們對這個提議的 SKU 進行了廣泛的工程分析,由於下面討論的各種問題,我們認為這款產品不可行,不會出貨。

在建議的 NVL64 SKU 中,有 16 個計算托盤和 4 個 NVSwitch 托盤。每個計算托盤為 2U,包含一個 Grace CPU 和四個 700W Blackwell GPU,就像 MGX GB200A NVL36 一樣。交換機 NVSwitch 托盤是進行重大修改的地方。Nvidia 並沒有將 GB200 的每個托盤兩個 NVSwitch 減少到每個托盤一個 NVSwitch,而是嘗試將其增加到四個交換機 ASIC。


儘管 Nvidia 提出的設計方案稱 NVL64 將是 60kW 機架,但我們估算了功率預算,認為下限更接近每機架 70kW。無論那種方式,僅使用空氣冷卻每機架 60kW 或 70kW 都是瘋狂的,通常需要後門熱交換器,但這破壞了風冷機架架構的意義,因為仍然依賴於液體冷卻供應鏈,並且這種解決方案仍然需要對大多數資料中心進行設施級改造,以便將設施水輸送到後門熱交換器。


另一個非常成問題的散熱問題是 NVSwitch Tray 在單個 1U 機箱中配備四個 28.8Tbit/s 交換機 ASIC,需要近 1,500 W 的散熱。1U 機箱的散熱量為 1,500W 本身並不瘋狂,但一旦考慮到冷卻挑戰,就會發現這很瘋狂,因為從交換機 ASIC 到背板連接器的Ultrapass 跨接電纜會阻擋大量氣流。

鑑於風冷 MGX NVL 機架正以極快的速度進入市場,而 Nvidia 試圖在設計開始後僅 6 個月內發貨產品,對於工程資源已經捉襟見肘的行業來說,設計新的交換機托盤和供應鏈是相當困難的。

擬議的 GB200A NVL64 的另一個主要問題是,每個機架有 64 個 800G 後端連接埠,但每個 XDR Quantum-X800 Q3400 交換機有 72 個 800G 下行連接埠,這兩者之間的連接埠不匹配。這意味著,採用軌道最佳化的後端拓撲會浪費連接埠,每個交換機都有額外的 16 個 800G 連接埠閒置。昂貴的後端交換機上有空連接埠會嚴重損害網路性能/TCO,因為交換機價格昂貴,尤其是高基數模組化交換機,如 Quantum-X800。



此外,在同一個 NVLink 域內使用 64 個 GPU 並不理想。從表面上看,這可能聽起來很棒,因為它是 2 的偶數倍——非常適合不同的平行化組態,例如(張量平行 TP=8、專家平行 EP=8)或(TP=4、完全分片資料平行 FSDP=16)。不幸的是,由於硬體不可靠,Nvidia 建議每個 NVL 機架至少保留一個計算托盤,以便 GPU 離線進行維護,從而用作熱備用。

如果每個機架中沒有至少一個計算托盤處於熱備用狀態,那麼即使機架上有一個 GPU 發生故障,其影響範圍也會導致整個機架被迫停止服務相當長一段時間。這類似於 8-GPU HGX H100s 伺服器上的情況,伺服器上只要有一個 GPU 發生故障,就會迫使所有 8 個 H100 停止服務,無法繼續為工作負載做出貢獻。


保留至少一個計算托盤作為熱備用,每個機架上只有 60 個 GPU 參與工作負載。雖然 64 是一個更合適的數字,因為它有 2、4、8、16 和 32 作為公因數,可以實現更好的平行組合,但 60 就不行了。

這就是為什麼在 NVL36*2 或 NVL72 組態中在 GB200 上總共選擇 72 個 GPU 是非常慎重的 - 它允許兩個計算托盤處於熱備用狀態,從而使使用者每個機架有 64 個 GPU 為工作負載做出貢獻。

GB200A NVL36 可讓一個計算托盤處於熱備用狀態,並以 2、4、8、16 作為平行方案的共同因素,從而在實際工作負載中實現更高的可靠性。

由此可見,Blackwell 最初推出 MGX GB200A 的延遲對 OEM、ODM 和零部件的影響。我們預計 GB200 NVL72 / 36x2 的出貨量/推出量會減少,B100 和 B200 HGX 的銷量會大幅減少。相反,我們預計 Hopper 的出貨量將在 2024 年第四季度至 2025 年第一季度增加。此外,下半年 GPU 的訂單將從 HGX Blackwell 和 GB200 NVL36x2 轉移到 MGX GB200A NVL36。

這將影響所有 ODM 和零部件供應商,因為出貨/收入計畫在 2024 年第三季度至 2025 年第二季度發生巨大變化。對每個供應商的影響程度還取決於供應商是 GB200 NVL72 / 36、MGX NVL36 的贏家還是輸家,以及他們是否在 Hopper 系列中佔有很大的份額(從而受益於更長的 Hopper 生命周期)。

元件影響包括冷卻、PCB、CCL、基板、NVLink 銅背板內容、ACC 電纜內容、光纖內容、BMC、電源內容等。 (半導體行業觀察)


博主怎麼好意思偷整篇文章