2美元/小時出租H100：GPU泡沫破滅前夜

2024/10/21

•

紅杉資本的報告曾指出，AI產業的年產值超過6000億美元，才夠支付資料中心、加速GPU卡等AI基礎設施費用。而現在一種普遍說法認為，基礎模型訓練的資本支出是“歷史上貶值最快的資產”，但關於GPU基礎設施支出的判定仍未出爐，GPU土豪戰爭仍在進行。尤其是，以OpenAI為代表的大模型公司在訓練+推理上的支出超過了收入，最近他們在有史以來最大的風險投資輪中籌集了66億美元，同時預計2026年的虧損將達到140億美元。

近期，NVIDIA的新一代Blackwell系列晶片交付給了OpenAI，他們還表示接下來一年的產品已經售罄，NVIDIA CEO黃仁勳指出這可能是行業歷史上最成功的產品。與此同時，AMD CEO蘇姿丰推出了MI325X，而AI推理晶片公司Cerebras提交了IPO申請。

隨著數十億美元投入到AI基礎設施層，這會促進AI上層的繁榮還是泡沫？現在，是時候深入探討GPU市場的時候了。

本文作者Eugene Cheah深入研究了H100市場，可能為即將到來的Blackwell晶片的未來走向提供一些參考。他指出，由於預留計算資源的轉售、開放模型的微調以及基礎模型公司的減少，市場上的H100算力已經供過於求，尤其是H100從去年以8美元/小時到現在多家算力轉售商以低於2美元/小時的價格出租。經過深度分析後，他建議使用者在需要時租用而不是購買算力。

（Eugene Cheah是AI推理服務供應商Featherless.AI的聯合創始人，也是RWKV開源基礎模型項目的聯合負責人。本文由OneFlow編譯發佈，轉載請聯絡授權。原文：https://www.latent.space/p/gpu-bubble）

1. AI競賽簡史

2022年11月30日，基於A100 GPU系列訓練的GPT3.5與 ChatGPT彷彿一夜之間吸引了全世界對 AI 的想像，並開啟了AI競賽。2023年3月21日，隨著驚人的AI勢頭，H100很快就來了。

如果OpenAI可以用“舊”的A100建構智能，那麼使用新推出的性能高3倍、價格多2倍的H100，你也能夠建構一個更大、更好的模型，甚至可能超越OpenAI率先到達AGI——如果你的財力比OpenAI還雄厚。

第一個成功實現這一目標的AI公司，將獲得新AI經濟中的一大塊份額——每一個分析師的粗略計算都表明，取代通用的人類智能將意味著數兆美元的市場。如果能夠成功，你將比地球上一半的國家或歷史上任何王國都要富有。懷著這樣的渴望，有100億到1000億美元的資金投入到AI公司和創始人身上，以推動新一輪科技革命，這導致H100的需求突然激增。

市場價飆升，H100的初始租賃價格約為4.70美元/小時，但實際價格超過了8美元/小時。所有急切的創始人紛紛湧入，急於訓練他們的模型，以說服投資者進行下一輪億級美元的融資。

在2023年的投資者會議上，輝達向他們的投資者和資料中心客戶推介了以4美元/小時的價格出租H100的“市場機會”。

對於GPU農場來說，這感覺像是不勞而獲的錢——如果你能讓這些創始人以4.70美元/小時或更高的價格租用你的H100 SXM GPU，甚至讓他們提前支付，投資回報期將少於1.5年。從那以後，每個GPU每年將帶來超過10萬美元的現金流。

由於GPU需求似乎沒有盡頭，他們的投資者同意了，甚至進行了更大規模的投資……

《鬱金香狂熱》——描繪了有記錄以來歷史上第一次投機泡沫，鬱金香價格在1634年持續攀升，並於1637年2月崩盤。

2. 六千億美元的投資之後

與數字商品不同，實物商品會受到延遲發貨的影響，尤其是在多次發貨延遲的情況下。2023年的大部分時間裡，H100的價格感覺會永遠高於4.70美元/小時以上（除非你願意支付一大筆預付款）。2024年初，H100的價格在多個供應商那裡降至大約2.85美元/小時。

然而，隨著更多供應商的加入……我開始收到這樣的郵件：

雖然我未能以4美元/小時的價格獲得H100節點（8個H100），但我多次確認，你可以以8到16美元/小時的價格獲得。

2024年8月，如果你願意競拍一小段時間的H100使用時間（幾天到幾周），你可以找到1-2美元/小時的H100。

尤其對於小型叢集而言，我們正面臨著每年至少40%的價格下跌。NVIDIA預測的4美元/小時的GPU價格在4年內保持不變，但不到1.5年就煙消雲散了。

這非常可怕，因為這意味著有人可能會被套牢——尤其是如果他們剛剛購買了新的GPU。那麼，到底發生了什麼？

3. 一張H100 SXM GPU的投資回報率（ROI）是多少？

這裡將重點關注經濟成本和租賃的ROI，對比不同的市場價格，不包括機會成本或業務價值。

在資料中心，平均一張H100 SXM GPU的設定、維護和營運成本（即大部分資本支出）為50000美元或更多，不包括電費和冷卻的營運成本。本文後面將提供更詳細的計算方法。

但對今天的單元經濟和投資意味著什麼？特別是假設GPU的使用壽命為5年的情況下。

通常，H100的租賃業務模式有兩種，我們將會覆蓋這兩種模式。

短期按需租賃（按小時、周或月）
長期租賃（3-5年）

按需租賃的ROI

總結來說，對於按需工作負載：

2.85美元/小時：超過股市的內部收益率（IRR）
低於2.85美元/小時：低於股市的IRR
低於1.65美元/小時：預期投資虧損

對於上述ROI和收入預測，我們引入了“混合價格（blended price）”，假設租賃價格在5年內逐步下降50%。

鑑於我們目前看到的每年價格下降>=40%，這可以被視為一個保守/樂觀的估計，但這是一種通過考慮一定比例的價格下降的同時來預測ROI的一種方法。

在4.50美元/小時的情況下，即使考慮混合價格，我們也能看到NVIDIA最初對資料中心提供商的承諾，即在2年後幾乎可以“印鈔”，內部收益率（IRR）超過20%。

然而，在2.85美元/小時的情況下，IRR剛剛超過10%。

這意味著，如果你今天購買新的H100伺服器，並且市場價低於2.85美元/小時，你的投資回報率幾乎只能勉強與市場基本回報水平持平，並且假設使用率是100%（這是一個不合理的假設）。任何低於這個價格的情況，作為投資者，投資H100基礎設施公司不如投資股市。

如果價格降至1.65美元/小時以下，作為基礎設施提供商，在5年內使用H100註定會虧損，特別是如果你今年剛剛購買了節點和叢集。

許多基礎設施提供商，尤其是那些較老的公司，並不是對此一無所知——因為他們曾經親身經歷過GPU租賃價格在加密貨幣時代大幅上漲後的急劇跳水，他們已經經歷過這種周期。

因此，在這一周期中，去年他們大力推動3-5年的前期承諾和/或支付，價格在4美元/小時以上（通常預付50%到100%）。今天，他們推動的價格範圍在2.85美元/小時以上，以鎖定他們的利潤。

這種情況在2023年AI高峰期尤為明顯，尤其是在圖像生成領域，許多基礎模型公司被迫簽訂高價的3-5年合同，只是為了在新叢集客戶中排在前面，成為第一個推出目標模型的公司，以促進完成下一輪融資。

這可能不是最經濟的舉措，但可以讓他們比競爭對手更快地行動。

然而，這導致了一些有趣的市場動態——如果你在未來3年內以3美元或4美元/小時的價格簽訂了合同，那麼你將被合同繫結。當模型建立者完成模型訓練後，他們不再需要這個叢集後會怎麼做？——他們轉售並開始收回部分成本。

4. 當前H100的價值鏈

從硬體到AI推理/微調，可以大致分為以下幾個方面：

硬體供應商與Nvidia合作（一次性購買成本）
資料中心基礎設施提供商及合作夥伴（出售長期租賃，包括設施空間和/或H100節點）
風險投資基金、大型公司和初創公司：計畫建構基礎模型（或已經完成模型建構）
算力轉售商：如Runpod、SFCompute、Together.ai、Vast.ai、GPUlist.ai
託管AI推理/微調提供商：使用上述資源的組合

雖然堆疊中的任何一層都可能實現垂直整合（例如跳過基礎設施提供商），但關鍵驅動因素是“未使用算力資源的轉售商”和“足夠好”的開放權重模型（如Llama 3）的興起，這些因素都是當前H100經濟壓力的主要影響因素。

5. 市場趨勢：開放權重模型的興起

對AI推理和微調的需求增加：由於許多“開放”模型缺乏適當的“開源”許可證，但仍然被免費分發和廣泛使用，甚至用於商業用途。在這裡，我們將統稱它們為“開放權重”或“開放”模型。

總體而言，隨著各種大小的開放權重模型的不斷建構，對這些模型的推理和微調的需求也在增長。這主要由兩個重大事件推動：

1. GPT-4等級的開放模型的出現（例如，4050億參數的LLaMA3，DeepSeek-v2）

2. 小型（約80億參數）和中型（約700億參數）微調模型的成熟和採用

如今，對於大多數企業可能需要的用例，已經有現成的開放權重模型。這些模型在某些基準測試中可能略遜於專有模型，但提供了以下優勢：

靈活性：特定領域/任務的微調。
可靠性：不再有小的模型更新導致用例失效（目前，社區對模型權重在沒有通知的情況下在公共API端點上悄悄更改導致不可解釋的效果退化缺乏信任度）。
安全性和隱私：確保他們的提示詞和客戶資料的安全。

所有這些因素都導致了當前開放模型的持續增長和採用，以及對推理和微調需求的增長。

但這確實帶來了另一個問題……

小型和中型模型建立者的崩潰

基礎模型建立市場萎縮（小型和中型）：我們用“模型建立者”來統稱從零開始建立模型的組織。對於微調者，我們稱他們為“模型微調者”。

許多企業，以及多個小型和中型基礎模型建立初創公司——尤其是那些以“更小、更專業領域模型”為賣點的公司——都是沒有長期計畫或目標從零開始訓練大型基礎模型（>= 700億參數）的群體。

對於這兩個群體，他們都意識到，微調現有的開放權重模型比“自行訓練”更經濟和高效。

這最終導致了對H100需求的三重打擊！

1. 微調比從零開始訓練便宜得多

微調的計算需求顯著較低（通常需要4個節點或更少，通常是一個節點），而從零開始訓練則需要16個節點或更多（對於70億參數及以上的模型需要更多節點）。
這一行業轉變基本上消滅了大量小型叢集的需求。

2. 減少對基礎模型的投資（小型和中型）

2023年，文字和圖像領域出現了大量小型和中型基礎模型。
然而，如今，除非你非常有信心能夠超越LLaMA3，或者你帶來了新的東西（例如，新的架構、100倍更低的推理延遲、100多種語言支援等），否則幾乎沒有新的基礎模型公司從零開始建構模型。
總體而言，大型玩家（如Facebook等）建立的小型和中型開放模型，使得小型玩家很難證明訓練基礎模型的合理性——除非他們有強大的差異化優勢（技術或資料）——或者有計畫擴展到更大的模型。
這一點在投資者中也有所反映，因為新的基礎模型建立者的資金急劇減少。大多數小型團隊已經轉向微調。（這種情緒與最近多家公司不盡如人意的退出相吻合。）
目前，據我估計，全球大約有：<20個大型模型建立團隊（即700億參數及以上模型，也可能建立小型模型）；<30個小型/中型模型建立團隊（70億到700億參數模型）。
總體而言，全球只有不到50個團隊在任何時間點會需要16個節點的H100（或更多）來進行基礎模型訓練。
全球有超過50個H100叢集，每個叢集擁有超過16個節點。

3. 預留節點的過剩算力資源正在上線

對於叢集所有者，特別是那些在2023年初“搶購”中進行了長期租賃的各種基礎模型初創公司和風險投資公司。
由於轉向微調，以及H100交付時需要非常長的等待時間（最高峰時達到6個月或更長），許多團隊可能在做出改變之前已經支付了預付款，這使得他們的預付硬體“到貨即過時”。
另一方面，那些硬體按時到貨，用於訓練最初幾個模型的團隊，也意識到最好在下一次迭代中微調模型會更好，而不是自行建構新模型。
在這兩種情況下，他們都會有未使用的算力資源，這些過剩資源通過“算力轉售商”進入市場供應。

6. 導致算力供應增加和訓練需求減少的其他因素

1. 大型模型建立者離開公共雲平台

另一個主要因素是，所有主要的模型建立者，如Facebook、X.AI，以及OpenAI（如果你認為它們是微軟的一部分），都在從現有的公共雲提供商轉向，通過建構自己的數十億美元規模的叢集，從而減少了對現有叢集的依賴。

這一轉變主要出於以下幾個原因：

現有的約1000節點叢集（建造成本超過5000萬美元）已經不足以訓練更大的模型。
在數十億美元的規模上，購買資產（如伺服器、土地等）對資產計算更有利，這些資產有帳面價值（是公司估值和資產的一部分），而不是純粹的租賃費用。
如果你沒有相關的人才（他們有），你可以直接購買小型資料中心公司，這些公司有建構這些叢集的專業知識。

隨著需求逐漸分階段減少，這些叢集正在進入公共雲市場。

2. 未使用/延遲供應的算力上線

回憶一下2023年的H100大批次發貨延遲，或6個月或更長時間？這些延遲的算力供應現在正在上線，同時還有H200、B200等晶片。

這還伴隨著各種未使用的算力資源上線（來自現有的初創公司、企業或風險投資公司，如前所述）。

這些資源的大部分是通過算力轉售商上線的，例如：together.ai、sfcompute、runpod、vast.ai等。

在大多數情況下，叢集所有者擁有的是一個小型或中型叢集（通常為8-64個節點），這些叢集的利用率較低。而購買這些叢集的資金已經“花掉”了。

為了儘可能收回成本，他們更願意以低於市場價的方式保證資源的分配，而不是與主要提供商競爭。

這通常通過固定費率、拍賣系統或自由市場列表等方式實現。後兩種方式通常會推動市場價格下降。

3. 更便宜的 GPU 替代品（特別是用於推理）

另一個主要因素是，一旦你離開訓練/微調領域，特別是如果你運行的是較小的模型，推理領域充滿了替代方案。

你不需要為H100的Infiniband和/或Nvidia的高端功能支付溢價。

a) Nvidia市場細分

H100的高端訓練性能已經反映在硬體價格中。例如，Nvidia自己推薦L40S，這是一個在推理方面更具價格競爭力的替代方案。

L40S的性能是H100的1/3，價格是H100的1/5，但不適合多節點訓練。這在一定程度上削弱了H100在這個細分市場的競爭力。

b) AMD和Intel的替代提供商

AMD和Intel的MX300和Gaudi 3雖然進入市場較晚，但已經經過測試和驗證。我們使用過這些系統，它們通常具有以下特點：

價格低於H100
記憶體和計算能力超過H100，並在單節點上表現更優
總體上是很好的硬體

缺點？它們在訓練時存在一些驅動問題，且在大型多節點叢集訓練中尚未得到驗證。

然而，正如我們前面所討論的，這在當前市場中並不重要。除了少數不到50個團隊外，H100市場已經轉向推理和單節點或小叢集微調。

這些GPU已經證明在這些用例中表現良好，能滿足大多數市場的需求。

這兩個競爭對手是完全的即插即用替代方案，支援現成的推理程式碼（如VLLM）或大多數常見模型架構（主要是LLaMA3，其次是其他模型）的微調程式碼。

因此，如果你已經解決了相容性問題，強烈建議你考慮這些方案。

c) 加密貨幣/Web3領域GPU使用量的下降

隨著以太坊轉向權益證明（Proof of Stake, PoS），ASIC在比特幣挖礦中佔據主導地位，用於加密貨幣挖礦的GPU使用量呈下降趨勢，在許多情況下甚至無利可圖。這導致了大量的GPU湧入公共雲市場。

雖然這些GPU中的大多數由於硬體限制（如低PCIe頻寬、網路等）無法用於模型訓練，甚至不適合用於推理，但這些硬體已經湧入市場，並被重新用於AI推理工作負載。

在大多數情況下，如果你的模型參數少於100億，你可以以非常低的價格通過這些GPU獲得出色性能。

如果你進一步最佳化（通過各種技巧），甚至可以在這種硬體的小叢集上運行4050億參數的大型模型，成本低於一個H100節點。

H100的價格正在變得像大宗商品一樣便宜。甚至有些時候是以低於成本的價格出租——如果是這樣，接下來該怎麼辦？

7. 可能意味著是什麼？

中立觀點：H100叢集價格的分層

從宏觀層面來看，預計大型叢集仍然會收取溢價（>=2.90美元/小時），因為對於真正需要它們的客戶來說，沒有其他選擇。

我們已經開始看到這種趨勢，例如在Voltage Park，配備Infiniband的叢集被收取更高的費用。而基於乙太網路的實例，對於推理任務來說已經足夠好，其價格則定得較低。根據不同的使用場景和可用性調整價格。

儘管基礎模型團隊的數量總體上有所減少，但很難預測隨著開放權重的增長和/或替代架構的出現，是否會迎來復甦。

同時，預計未來我們將看到按叢集規模進一步分層。例如，一個擁有512個節點且配備Infiniband的大型叢集，其每塊GPU的收費可能會高於16個節點的叢集。

消極觀點：新的公共雲H100叢集進入市場較晚，可能無利可圖——一些投資者可能會遭受損失。

如果你將價格定在2.25美元以下，根據你的營運成本（OPEX），你可能會面臨潛在的無利可圖的風險。如果你將價格定得過高，比如3美元或以上，你可能無法吸引足夠的買家來最大化使用算力資源。如果你進入市場較晚，可能無法在早期以4美元/小時的價格收回成本。

總體而言，這些叢集投資對於關鍵利益相關者和投資者來說將非常艱難。

雖然我懷疑這種情況會發生，但如果新叢集在AI投資組合中佔據了很大一部分，我們可能會看到由於投資者遭受損失而對融資生態系統產生連鎖反應。

中立觀點：中型到大型模型建構者，已經通過長期租賃搾取了算力價值

不同於消極看法，一種中立看法是，一些未使用的算力資源的模型建構者實際上已經支付了費用。資金市場已經將這些叢集及其模型訓練的成本計算在內，並“搾取了其價值”，用於他們當前和下一輪融資的籌碼。

其中的大多數算力購買是在算力轉售商流行之前進行的，成本已經計包含在內。如果有什麼影響的話，他們是從多餘的H100算力資源中獲得的當前收入，而我們獲得的是降價的算力資源，這對雙方都是有利的。

如果情況確實如此，市場負面影響將是最小的，整體上對生態系統來說是一個淨正收益。

正面觀點：便宜的H100可能加速開放權重AI的採用浪潮

鑑於開放權重模型已經進入GPT-4等級的領域，H100價格的下跌將成為開放權重AI採用的倍增器。

對於業餘愛好者、AI開發者和工程師來說，運行、微調和探索這些開放模型將變得更加實惠。特別是如果沒有GPT-5++這樣的重大飛躍，這意味著開放權重模型與閉源模型之間的差距將變得模糊。

這是非常必要的，因為目前市場是不可持續的。應用層缺乏為付費使用者創造價值的能力（這會影響到平台、模型和基礎設施層）。

在某種程度上，如果大家都在造鏟子，而沒有建構能夠吸引付費使用者的AI應用（並且沒有產生收入和價值）。但當AI推理和微調變得比以往任何時候都便宜時，這可能會激發AI應用的浪潮——如果這一趨勢還沒有緩慢開始的話。

8. 結論：不要購買全新的H100

在新H100硬體上的支出很可能是虧損的。除非你有以下某種組合：折扣的H100、折扣的電力，或者有一個主權AI的需求（即你的GPU所在地對客戶來說至關重要）。或者你有數十億美元，需要一個超大型叢集。

如果你在投資，建議考慮投資其他領域。或者投資股票市場指數以獲得更好的回報率。

參考來源：

GPU資料：Tech Power Up資料庫。A100 SXM的bf16 TFlops 為624，H100 SXM的bf16 TFlops為1979。https://www.techpowerup.com/gpu-specs/h100-sxm5-80-gb.c3900
微軟和AWS在AI基礎設施上投入了超過400億美元（華爾街日報，https://www.wsj.com/tech/ai/big-tech-moves-more-ai-spending-abroad-088988de）
輝達投資者PPT，2014年10月，第14頁的“資料中心”內容
https://s201.q4cdn.com/141608511/files/doc_presentations/2023/Oct/01/ndr_presentation_oct_2023_final.pdf
Semi Analysis：對H100叢集的深入研究，元件的生命周期大約為 5 年（https://www.semianalysis.com/p/100000-h100-clusters-power-network）
新H100 ROI（2024 年 8 月，https://docs.google.com/spreadsheets/d/1kZosZmvaecG6P4-yCPzMN7Ha3ubMcTmF9AeJNDKeo98/edit?usp=sharing）
H100 Infiniband叢集（2024年8月，https://docs.google.com/spreadsheets/d/1Ft3RbeZ-w43kYSiLfYc1vxO41mK5lmJpcPC9GOYHAWc/edit?usp=sharing） (超算百科)