正如黃仁勳 (Jensen Huang) 喜歡說的那樣,摩爾定律已死——而在本月的 Nvidia GTC 大會上,這位 GPU 大佬的首席執行官無意中透露了計算縮放定律的根深蒂固。
黃仁勳站在台上,不僅展示了這家晶片設計公司的下一代Blackwell Ultra處理器,還透露了有關其未來兩代加速計算平台的大量細節,其中包括一個包含576 個 GPU 的600kW 機架級系統。我們還瞭解到,即將於 2028 年問世的 GPU 系列將以Richard Feynman的名字命名。你肯定在開玩笑!
晶片製造商不時透露其發展路線圖並不罕見,但我們通常不會一次性獲得這麼多資訊。這是因為 Nvidia 陷入了困境。它遇到的障礙不只一個,而是好幾個。更糟糕的是,除了投入資金解決問題外,這些障礙基本上都不受 Nvidia 的控制。
這些挑戰對於那些關注的人來說並不意外。分散式運算一直是瓶頸打地鼠遊戲,而人工智慧可能只是終極的打地鼠遊戲。
其中第一個也是最明顯的挑戰是圍繞計算擴展(scaling compute)。
近年來,工藝技術的進步已經放緩。雖然仍有一些可以改變的因素,但改變的難度卻呈指數級增長。
面對這些限制,Nvidia 的策略很簡單:儘可能擴大每個計算節點的矽片數量。如今,Nvidia 最密集的系統(或真正的機架)使用其高速 1.8TB/s NVLink 結構將 72 個 GPU 整合到一個計算域中。然後使用 InfiniBand 或乙太網路將八個或更多機架連接在一起,以實現所需的計算和記憶體容量。
在 GTC 上,Nvidia透露了其計畫將 GPU 數量提升至每機架 144 個,最終達到 576 個。不過,規模擴大並不僅限於機架;晶片封裝也同樣如此。
一年前 Nvidia推出Blackwell 加速器時,這一點就變得顯而易見。這些晶片的性能比 Hopper 高出 5 倍,這聽起來很棒,但你意識到它需要兩倍的晶片數量、新的 4 位資料類型和 500 瓦以上的功率才能實現。
事實是,以 FP16 為標準,Nvidia 頂級規格的 Blackwell 晶片僅比 GH100 快 1.25 倍,密度為 1,250 teraFLOPS,而密度為 989 —— 只是恰好有兩個而已。
到 2027 年,Nvidia 首席執行官黃仁勳預計,隨著 Rubin Ultra NVL576 的首次亮相,機架功率將飆升至 600kW
我們尚不清楚 Nvidia 計畫在其下一代晶片中使用那種工藝技術,但我們知道 Rubin Ultra 將延續這一趨勢,從兩個光罩限制晶片增加到四個。即使效率提高了約 20%,黃仁勳預計台積電 2nm 仍將是一個熱門技術。
這不僅僅是計算,還有記憶體。眼尖的讀者可能已經注意到 Rubin 和 Rubin Ultra 之間的容量和頻寬有了相當大的提升——每個封裝的288GB 對 1TB。其中大約一半來自更快、容量更大的記憶體模組,但另一半來自記憶體專用矽片數量翻倍,從 Blackwell 和 Rubin 上的 8 個模組增加到 Rubin Ultra 上的 16 個。
更高的容量意味著 Nvidia 可以將更多的模型參數(FP4 時約 2 兆)塞進一個封裝中,或者每個“GPU”中 5000 億個,因為他們現在計算的是單個晶片而不是插槽。HBM4e 還有望有效地將記憶體頻寬提高一倍,超過 HBM3e。頻寬預計將從目前每個 Blackwell 晶片的約 4TB/s 躍升至 Rubin Ultra 的約 8TB/s。
不幸的是,如果工藝技術沒有重大突破,未來 Nvidia GPU 封裝很可能會佔用更多的矽片。
好消息是,工藝改進並不是擴展計算或記憶體的唯一方法。一般來說,從 16 位精度降至 8 位精度可以有效地使吞吐量翻倍,同時還可以將給定模型的記憶體需求減半。問題是 Nvidia 已經沒有足夠的位數可以降低來提高性能了。從 Hopper 到 Blackwell,Nvidia 降低了 4 位,使矽片增加了一倍,並聲稱浮點性能提高了 5 倍。
但在四位精度以下,LLM 推理會變得非常粗糙,困惑度分數會迅速上升。話雖如此,圍繞超低精度量化,目前有一些有趣的研究正在進行中,精度低至 1.58 位,同時保持精準性。
這並不意味著降低精度並不是提高 FLOPS 的唯一方法。您還可以將較少的晶片面積分配給 AI 工作負載不需要的更高精度資料類型。
我們在 Blackwell Ultra 上看到了這一點。Nvidia 加速計算業務部副總裁 Ian Buck 在一次採訪中透露,他們實際上削弱了晶片的雙精度 (FP64) 張量核心性能,以換取 50% 以上的 4 位 FLOPS。
這是否表明 FP64 即將被 Nvidia 淘汰還有待觀察,但如果您真的關心雙精度運算,AMD 的 GPU 和 APU 應該位於您的首選名單之首。
無論如何,Nvidia 的前進道路是明確的:從現在開始,其計算平台只會變得更大、更密集、更熱、更耗電。正如上周在新聞發佈會上不吃熱量的黃仁勳所說,機架的實際極限是你能夠為其提供多少電量。
“現在一個資料中心的功耗是 250 兆瓦。這差不多就是每個機架的功耗限制。我認為剩下的只是細節問題,”黃仁勳說道。“如果你說一個資料中心的功耗是 1 千兆瓦,那麼我會說 1 千兆瓦/機架聽起來是個不錯的限制。”
自然,600kW 機架對於資料中心營運商來說是一個極其令人頭痛的問題。
需要明確的是,冷卻兆瓦級超密集計算並不是一個新問題。Cray、Eviden 和聯想的人們多年來一直在解決這個問題。變化的是,我們談論的不是每年少數幾個精品計算叢集。我們談論的是數十個叢集,其中一些叢集非常大,如果將 200,000 個 Hopper GPU 與 Linpack 捆綁在一起可以賺錢的話,它們足以取代 Top500 中最強大的超級叢集。
在這種規模下,高度專業化、小容量的熱管理和電力輸送系統根本無法滿足需求。不幸的是,資料中心供應商——你知道那些銷售那些讓你的數百萬美元的 NVL72 機架正常工作所需的不那麼性感的零碎東西的人——現在才趕上需求。
我們懷疑這就是為什麼到目前為止宣佈的 Blackwell 部署中有很多都是針對風冷 HGX B200,而不是黃一直大肆宣傳的 NVL72。這些八 GPU HGX 系統可以部署在許多現有的 H100 環境中。Nvidia 多年來一直在生產 30-40kW 機架,因此躍升至 60kW 並不是什麼難事,事實上,每個機架減少到兩到三台伺服器仍然是一種選擇。
NVL72 是一種機架式設計,其靈感主要來自超大規模計算裝置,配有直流母線、電源滑軌和前端網路。在 120kW 的液冷計算下,在現有設施中部署超過幾個這樣的裝置很快就會出現問題。而一旦 Nvidia 的 600kW 巨型機架於 2027 年底首次亮相,這只會變得更加困難。
這就是黃仁勳不斷談論的“人工智慧工廠”發揮作用的地方——與施耐德電氣等合作夥伴共同設計的專用資料中心,以滿足人工智慧的電力和散熱需求。
令人驚訝的是,在詳細介紹了未來三年的 GPU 路線圖一周後,施耐德宣佈在美國進行 7 億美元的擴張,以提高支援 GPU 所需的所有電源和冷卻套件的產量。
當然,擁有為這些超密集系統供電和冷卻所需的基礎設施並不是唯一的問題。首先,為資料中心供電也同樣是個問題,而這在很大程度上不受 Nvidia 的控制。
每當 Meta、甲骨文、微軟或其他任何公司宣佈另一個 AI 位元倉庫時,通常都會有一份豐厚的電力購買協議。Meta 在河口誕生的大型 DC與一座 2.2GW 的天然氣發電廠同時宣佈——這些可持續性和碳中和承諾就到此為止了。
儘管我們希望看到核能的回歸,但即使最樂觀的預測也認為小型模組化反應堆將在 2030 年代左右部署,因此我們很難認真對待小型模組化反應堆。
對於黃仁勳和輝達來說,他們還在碰到的一個問題是:雲廠商似乎正在放緩他們的資料中心建設步伐。
投資銀行 TD Cowen 的最新報告顯示,微軟已經放棄了在美國和歐洲租賃價值 2 千兆瓦資料中心容量的談判,並且已經推遲和取消了其他資料中心的租賃。該銀行的分析師認為,微軟取消租約“主要是由於其決定不支援增量式開放人工智慧訓練工作量”。就在同一個月前,同一分析師透露微軟已終止了美國數百兆瓦資料中心容量的租約。
對於某些人來說,這些取消意味著人工智慧熱潮即將破滅。
然而,我們認為微軟可能撤回其資料中心租賃的原因有一個更簡單的解釋:許多資料中心無法滿足高端人工智慧硬體產生的電力和冷卻需求。
Nvidia 的大規模 NVL72機架級系統承諾,推理工作負載的性能將達到其 Hopper GPU 的 30 倍或更高,訓練性能將達到其 Hopper GPU 的 4 倍。這種性能是以更密集的機架、更高的功耗和更多的廢熱產生為代價的。安裝 Nvidia 最新產品的機架額定功率為 120kW,是典型 Hopper 機架的三倍。液體冷卻不再是一種選擇,而是一種不可避免的要求。
正如 TD Cowen 所指出的,超大規模企業和雲提供商必須重新設計他們的資料中心,以適應超密集、耗電的裝置——而這樣做絕非易事。
因此,微軟簽署的資料中心租約並不能處理 Nvidia 的最新套件(以及接下來的套件)——無論後者是做什麼的——都是短視的。
Omdia 首席分析師 Alan Howard 向The Register表示,資料中心容量規劃“是一個非常棘手的遊戲,最不希望出現的情況是需求超過容量。與執行相比,獲取土地和確保電力的整個過程成本較低。”
如果微軟計畫租賃的資料中心或主機託管設施無法滿足這些更密集系統的需求,那麼不難理解為什麼這家軟體巨頭會放棄並專注於建設專用設施或轉移到更合適的地點。
微軟已經表示相信需要全新的資料中心設計,甚至在 2024 年詳細制定了此類設施的計畫。
然而,TD Cowen 指出,讓新建資料中心的容量投入使用需要時間。關鍵部件和能源供應的短缺也對這一情況不利。Omdia 的 Howard 表示,目前從頭開始建構一個資料中心大約需要 24 個月,並指出 xAI 在田納西州的 Colossus 叢集是在 10 個月內建成的。
TD Cowen 聲稱,微軟已指示其資料中心合作夥伴開始改造現有設施以支援液體冷卻。而且,我們注意到,可以使用過道內冷卻劑儲存器、分配單元和液體-空氣熱交換器來支援現有裝置大廳中的液體冷卻系統。
事實上,該銀行的分析表明,隨著人工智慧工作負載從訓練轉向推理,改造可能比新租約更能體現增長。
該檔案指出:“我們越來越相信,推理需求的初始指標將是超大規模改造的速度,而不是主要市場中第三方租賃在現有可用區域內增量子部署的速度。”
不過,由於 Nvidia 已經在規劃 600kW 機架,改造後是否能滿足使用者的需求還有待觀察。
除了改造新設施之外,值得注意的是,微軟已經擁有大量 Hopper GPU,其中許多都用於運行 OpenAI 的訓練工作負載。
如果微軟確實像 TD Cowen 所聲稱的那樣減少了對 OpenAI 的訓練工作,那麼雷德蒙德可以將計算能力轉換為自己的推理工作負載,或將其出租給客戶。
微軟發言人在聲明中表示,該公司仍承諾在 2025 財年在基礎設施上投入 800 億美元。
“得益於我們迄今為止所做的大量投資,我們完全有能力滿足當前和不斷增長的客戶需求。僅去年一年,我們增加的產能就超過了歷史上任何一年。雖然我們可能會在某些領域戰略性地調整基礎設施,但我們將繼續在所有地區保持強勁增長。這使我們能夠投資和分配資源到未來的增長領域,”該發言人表示。
需要明確的是,這些障礙並非 Nvidia 獨有。AMD、英特爾以及所有其他爭奪 Nvidia 市場份額的雲提供商和晶片設計師不久後必定會遇到同樣的挑戰。Nvidia 恰好是第一個遇到這些挑戰的公司之一。
雖然這確實有其缺點,但它也使 Nvidia 處於一個獨特的地位,可以影響未來資料中心電源和熱設計的方向。
正如我們之前提到的,黃仁勳之所以願意透露其下一代三代 GPU 技術並預告其第四代技術,是為了確保其基礎設施合作夥伴能夠在這些技術最終問世時為其提供支援。
黃仁勳表示:“我之所以向全世界公佈 Nvidia 未來三至四年的發展路線圖,是為了讓其他人都可以進行規劃。”
另一方面,這些努力也為競爭晶片製造商掃清了道路。如果 Nvidia 設計出 120kW 或現在的 600kW,機架和主機託管提供商以及雲營運商願意支援這一點,那麼 AMD 或英特爾現在就可以將同樣多的計算能力裝入他們自己的機架級平台,而不必擔心客戶會把它們放在那裡。
對於輝達來說,還有一個不確定因素,那就是他們在中國的業務。
在過去幾年,拜登發佈了多項禁令,阻止輝達向中國出售最先進的晶片。現在,輝達可以銷售到國內的資料中心包括 A100 和 H100功能削弱版本的A800 和 H800 晶片,以及後來的功能更強大的H20。其中,H20更是成為現在中國最為熱銷的GPU。因為雖然H20 的核心數量減少,性能較低,但仍能夠提供 AI 功能。甚至連Google和 Meta 等大公司都在使用這種GPU。
根據 Nvidia 的10-K 表,中國大陸和香港是該晶片製造商的第四大市場,佔其 2025 財年收入的約 13%(即 171 億美元)。
然而,據《金融時報》報導,中國監管機構將出台先進晶片的能效規定。這些規定將禁止中國客戶在建設或擴建資料中心時使用 Nvidia 的 H20 晶片。《金融時報》稱,雖然新規尚未全面實施,但監管機構正在勸阻中國科技巨頭訂購 H20。
據英國《金融時報》報導,輝達正在尋求與中國監管機構進行談判,並考慮進行技術變革以滿足規定。然而,這些變化可能會削弱晶片的性能。這就讓輝達面臨銷售額被華為等中國國內競爭對手搶走的風險。
Nvidia 在給英國《金融時報》的一份聲明中表示:“我們的產品在我們服務的每個市場都具有極佳的能效和價值。隨著技術的快速發展,出口管制政策應該進行調整,以允許美國公司提供儘可能節能的產品,同時仍能實現政府的國家安全目標。” (半導體行業觀察)