買不如租
紅杉資本的報告曾指出,AI 產業的年產值超過 6000 億美元,才夠支付資料中心、加速 GPU 卡等 AI 基礎設施費用。而現在一種普遍說法認為,基礎模型訓練的資本支出是「歷史上貶值最快的資產」,但關於 GPU 基礎設施支出的判定仍未出爐,GPU 土豪戰爭仍在進行。尤其是,以 OpenAI 為代表的大模型公司在訓練+推理上的支出超過了收入,最近他們在有史以來最大的風險投資輪中籌集了 66 億美元,同時預計 2026 年的虧損將達到 140 億美元。
近期,NVIDIA 的新一代 Blackwell 系列晶片交付給了 OpenAI,他們還表示接下來一年的產品已經售罄,NVIDIA CEO 黃仁勳指出這可能是行業歷史上最成功的產品。與此同時,AMD CEO 蘇姿丰推出了 MI325X,而AI 推理晶片公司 Cerebras提交了 IPO 申請。
隨著數十億美元投入到 AI 基礎設施層,這會促進 AI 上層的繁榮還是泡沫?現在,是時候深入探討 GPU 市場的時候了。
本文作者 Eugene Cheah 深入研究了 H100 市場,可能為即將到來的 Blackwell 晶片的未來走向提供一些參考。他指出,由於預留計算資源的轉售、開放模型的微調以及基礎模型公司的減少,市場上的 H100 算力已經供過於求,尤其是 H100 從去年以 8 美元/小時到現在多家算力轉售商以低於 2 美元/小時的價格出租。經過深度分析後,他建議使用者在需要時租用而不是購買算力。
(Eugene Cheah 是 AI 推理服務供應商 Featherless.AI 的聯合創始人,也是 RWKV 開源基礎模型項目的聯合負責人。本文由 OneFlow 編譯發佈,轉載請聯絡授權。原文:https://www.latent.space/p/gpu-bubble)
2022 年 11 月 30 日,基於 A100 GPU 系列訓練的 GPT3.5 與 ChatGPT 彷彿一夜之間吸引了全世界對 AI 的想像,並開啟了 AI 競賽。2023 年 3 月 21 日,隨著驚人的 AI 勢頭,H100 很快就來了。
如果 OpenAI 可以用「舊」的 A100 建構智能,那麼使用新推出的性能高 3 倍、價格多 2 倍的 H100,你也能夠建構一個更大、更好的模型,甚至可能超越 OpenAI 率先到達 AGI——如果你的財力比 OpenAI 還雄厚。
第一個成功實現這一目標的 AI 公司,將獲得新 AI 經濟中的一大塊份額——每一個分析師的粗略計算都表明,取代通用的人類智能將意味著數兆美元的市場。如果能夠成功,你將比地球上一半的國家或歷史上任何王國都要富有。懷著這樣的渴望,有 100 億到 1000 億美元的資金投入到 AI 公司和創始人身上,以推動新一輪科技革命,這導致 H100 的需求突然激增。
市場價飆升,H100 的初始租賃價格約為 4.70 美元/小時,但實際價格超過了 8 美元/小時。所有急切的創始人紛紛湧入,急於訓練他們的模型,以說服投資者進行下一輪億級美元的融資。
對於 GPU 農場來說,這感覺像是不勞而獲的錢——如果你能讓這些創始人以 4.70 美元/小時或更高的價格租用你的 H100 SXM GPU,甚至讓他們提前支付,投資回報期將少於 1.5 年。從那以後,每個 GPU 每年將帶來超過 10 萬美元的現金流。
由於 GPU 需求似乎沒有盡頭,他們的投資者同意了,甚至進行了更大規模的投資……
與數字商品不同,實物商品會受到延遲發貨的影響,尤其是在多次發貨延遲的情況下。2023 年的大部分時間裡,H100 的價格感覺會永遠高於 4.70 美元/小時以上(除非你願意支付一大筆預付款)。2024 年初,H100 的價格在多個供應商那裡降至大約 2.85 美元/小時。
然而,隨著更多供應商的加入……我開始收到這樣的郵件:
2024 年 8 月,如果你願意競拍一小段時間的 H100 使用時間(幾天到幾周),你可以找到 1-2 美元/小時的 H100。
尤其對於小型叢集而言,我們正面臨著每年至少 40% 的價格下跌。NVIDIA 預測的 4 美元/小時的 GPU 價格在 4 年內保持不變,但不到 1.5 年就煙消雲散了。
這非常可怕,因為這意味著有人可能會被套牢——尤其是如果他們剛剛購買了新的 GPU。那麼,到底發生了什麼?
這裡將重點關注經濟成本和租賃的 ROI,對比不同的市場價格,不包括機會成本或業務價值。
在資料中心,平均一張 H100 SXM GPU 的設定、維護和營運成本(即大部分資本支出)為 50000 美元或更多,不包括電費和冷卻的營運成本。本文後面將提供更詳細的計算方法。
但對今天的單元經濟和投資意味著什麼?特別是假設 GPU 的使用壽命為 5 年的情況下。
通常,H100 的租賃業務模式有兩種,我們將會覆蓋這兩種模式。
按需租賃的 ROI
新的 H100 ROI(2024 年 8 月)
總結來說,對於按需工作負載:
對於上述 ROI 和收入預測,我們引入了「混合價格(blended price)」,假設租賃價格在 5 年內逐步下降 50%。
鑑於我們目前看到的每年價格下降>=40%,這可以被視為一個保守/樂觀的估計,但這是一種通過考慮一定比例的價格下降的同時來預測 ROI 的一種方法。
在 4.50 美元/小時的情況下,即使考慮混合價格,我們也能看到 NVIDIA 最初對資料中心提供商的承諾,即在 2 年後幾乎可以「印鈔」,內部收益率(IRR)超過 20%。
然而,在 2.85 美元/小時的情況下,IRR 剛剛超過 10%。
這意味著,如果你今天購買新的 H100 伺服器,並且市場價低於 2.85 美元/小時,你的投資回報率幾乎只能勉強與市場基本回報水平持平,並且假設使用率是 100%(這是一個不合理的假設)。任何低於這個價格的情況,作為投資者,投資 H100 基礎設施公司不如投資股市。
如果價格降至 1.65 美元/小時以下,作為基礎設施提供商,在 5 年內使用 H100 註定會虧損,特別是如果你今年剛剛購買了節點和叢集。
長期預訂租賃(3 年+)
許多基礎設施提供商,尤其是那些較老的公司,並不是對此一無所知——因為他們曾經親身經歷過 GPU 租賃價格在加密貨幣時代大幅上漲後的急劇跳水,他們已經經歷過這種周期。
因此,在這一周期中,去年他們大力推動 3-5 年的前期承諾和/或支付,價格在 4 美元/小時以上(通常預付 50% 到 100%)。今天,他們推動的價格範圍在 2.85 美元/小時以上,以鎖定他們的利潤。
這種情況在 2023 年 AI 高峰期尤為明顯,尤其是在圖像生成領域,許多基礎模型公司被迫簽訂高價的 3-5 年合同,只是為了在新叢集客戶中排在前面,成為第一個推出目標模型的公司,以促進完成下一輪融資。
這可能不是最經濟的舉措,但可以讓他們比競爭對手更快地行動。
然而,這導致了一些有趣的市場動態——如果你在未來 3 年內以 3 美元或 4 美元/小時的價格簽訂了合同,那麼你將被合同繫結。當模型建立者完成模型訓練後,他們不再需要這個叢集後會怎麼做?——他們轉售並開始收回部分成本。
從硬體到 AI 推理/微調,可以大致分為以下幾個方面:
雖然堆疊中的任何一層都可能實現垂直整合(例如跳過基礎設施提供商),但關鍵驅動因素是「未使用算力資源的轉售商」和「足夠好」的開放權重模型(如 Llama 3)的興起,這些因素都是當前 H100 經濟壓力的主要影響因素。
開放權重模型的興起,其性能與閉源模型相當,正在導致市場發生根本性的變化。
對 AI 推理和微調的需求增加:由於許多「開放」模型缺乏適當的「開源」許可證,但仍然被免費分發和廣泛使用,甚至用於商業用途。在這裡,我們將統稱它們為「開放權重」或「開放」模型。
總體而言,隨著各種大小的開放權重模型的不斷建構,對這些模型的推理和微調的需求也在增長。這主要由兩個重大事件推動:
1. GPT-4 等級的開放模型的出現(例如,4050 億參數的 LLaMA3,DeepSeek-v2)
2. 小型(約 80 億參數)和中型(約 700 億參數)微調模型的成熟和採用
如今,對於大多數企業可能需要的用例,已經有現成的開放權重模型。這些模型在某些基準測試中可能略遜於專有模型,但提供了以下優勢:
靈活性:特定領域/任務的微調。
可靠性:不再有小的模型更新導致用例失效(目前,社區對模型權重在沒有通知的情況下在公共 API 端點上悄悄更改導致不可解釋的效果退化缺乏信任度)。
安全性和隱私:確保他們的提示詞和客戶資料的安全。
所有這些因素都導致了當前開放模型的持續增長和採用,以及對推理和微調需求的增長。
但這確實帶來了另一個問題……
基礎模型建立市場萎縮(小型和中型):我們用「模型建立者」來統稱從零開始建立模型的組織。對於微調者,我們稱他們為「模型微調者」。
許多企業,以及多個小型和中型基礎模型建立初創公司——尤其是那些以「更小、更專業領域模型」為賣點的公司——都是沒有長期計畫或目標從零開始訓練大型基礎模型(>= 700 億參數)的群體。
對於這兩個群體,他們都意識到,微調現有的開放權重模型比「自行訓練」更經濟和高效。
這最終導致了對 H100 需求的三重打擊!
1. 微調比從零開始訓練便宜得多
微調的計算需求顯著較低(通常需要 4 個節點或更少,通常是一個節點),而從零開始訓練則需要 16 個節點或更多(對於 70 億參數及以上的模型需要更多節點)。
這一行業轉變基本上消滅了大量小型叢集的需求。
2. 減少對基礎模型的投資(小型和中型)
2023 年,文字和圖像領域出現了大量小型和中型基礎模型。
然而,如今,除非你非常有信心能夠超越 LLaMA3,或者你帶來了新的東西(例如,新的架構、100 倍更低的推理延遲、100 多種語言支援等),否則幾乎沒有新的基礎模型公司從零開始建構模型。
總體而言,大型玩家(如 Facebook 等)建立的小型和中型開放模型,使得小型玩家很難證明訓練基礎模型的合理性——除非他們有強大的差異化優勢(技術或資料)——或者有計畫擴展到更大的模型。
這一點在投資者中也有所反映,因為新的基礎模型建立者的資金急劇減少。大多數小型團隊已經轉向微調。(這種情緒與最近多家公司不盡如人意的退出相吻合。)
目前,據我估計,全球大約有:<20 個大型模型建立團隊(即 700 億參數及以上模型,也可能建立小型模型);<30 個小型/中型模型建立團隊(70 億到 700 億參數模型)。
總體而言,全球只有不到 50 個團隊在任何時間點會需要 16 個節點的 H100(或更多)來進行基礎模型訓練。
全球有超過 50 個 H100 叢集,每個叢集擁有超過 16 個節點。
3. 預留節點的過剩算力資源正在上線
對於叢集所有者,特別是那些在 2023 年初「搶購」中進行了長期租賃的各種基礎模型初創公司和風險投資公司。
由於轉向微調,以及 H100 交付時需要非常長的等待時間(最高峰時達到 6 個月或更長),許多團隊可能在做出改變之前已經支付了預付款,這使得他們的預付硬體「到貨即過時」。
另一方面,那些硬體按時到貨,用於訓練最初幾個模型的團隊,也意識到最好在下一次迭代中微調模型會更好,而不是自行建構新模型。
在這兩種情況下,他們都會有未使用的算力資源,這些過剩資源通過「算力轉售商」進入市場供應。
1. 大型模型建立者離開公共雲平台
另一個主要因素是,所有主要的模型建立者,如 Facebook、X.AI,以及 OpenAI(如果你認為它們是微軟的一部分),都在從現有的公共雲提供商轉向,通過建構自己的數十億美元規模的叢集,從而減少了對現有叢集的依賴。
這一轉變主要出於以下幾個原因:
隨著需求逐漸分階段減少,這些叢集正在進入公共雲市場。
Vast.ai 基本上實行的是自由市場系統,全球的供應商被迫相互競爭。
2. 未使用/延遲供應的算力上線
回憶一下 2023 年的 H100 大批次發貨延遲,或 6 個月或更長時間?這些延遲的算力供應現在正在上線,同時還有 H200、B200 等晶片。
這還伴隨著各種未使用的算力資源上線(來自現有的初創公司、企業或風險投資公司,如前所述)。
這些資源的大部分是通過算力轉售商上線的,例如:together.ai、sfcompute、runpod、vast.ai 等。
在大多數情況下,叢集所有者擁有的是一個小型或中型叢集(通常為 8-64 個節點),這些叢集的利用率較低。而購買這些叢集的資金已經「花掉」了。
為了儘可能收回成本,他們更願意以低於市場價的方式保證資源的分配,而不是與主要提供商競爭。
這通常通過固定費率、拍賣系統或自由市場列表等方式實現。後兩種方式通常會推動市場價格下降。
3. 更便宜的 GPU 替代品(特別是用於推理)
另一個主要因素是,一旦你離開訓練/微調領域,特別是如果你運行的是較小的模型,推理領域充滿了替代方案。
你不需要為 H100 的 Infiniband 和/或 Nvidia 的高端功能支付溢價。
a) Nvidia 市場細分
H100 的高端訓練性能已經反映在硬體價格中。例如,Nvidia 自己推薦 L40S,這是一個在推理方面更具價格競爭力的替代方案。
L40S 的性能是 H100 的 1/3,價格是 H100 的 1/5,但不適合多節點訓練。這在一定程度上削弱了 H100 在這個細分市場的競爭力。
b) AMD 和 Intel 的替代提供商
AMD 和 Intel 的 MX300 和 Gaudi 3 雖然進入市場較晚,但已經經過測試和驗證。我們使用過這些系統,它們通常具有以下特點:
缺點?它們在訓練時存在一些驅動問題,且在大型多節點叢集訓練中尚未得到驗證。
然而,正如我們前面所討論的,這在當前市場中並不重要。除了少數不到 50 個團隊外,H100 市場已經轉向推理和單節點或小叢集微調。
這些 GPU 已經證明在這些用例中表現良好,能滿足大多數市場的需求。
這兩個競爭對手是完全的即插即用替代方案,支援現成的推理程式碼(如 VLLM)或大多數常見模型架構(主要是 LLaMA3,其次是其他模型)的微調程式碼。
因此,如果你已經解決了相容性問題,強烈建議你考慮這些方案。
c) 加密貨幣/Web3 領域 GPU 使用量的下降
隨著以太坊轉向權益證明(Proof of Stake, PoS),ASIC 在比特幣挖礦中佔據主導地位,用於加密貨幣挖礦的 GPU 使用量呈下降趨勢,在許多情況下甚至無利可圖。這導致了大量的 GPU 湧入公共雲市場。
雖然這些 GPU 中的大多數由於硬體限制(如低 PCIe 頻寬、網路等)無法用於模型訓練,甚至不適合用於推理,但這些硬體已經湧入市場,並被重新用於 AI 推理工作負載。
在大多數情況下,如果你的模型參數少於 100 億,你可以以非常低的價格通過這些 GPU 獲得出色性能
如果你進一步最佳化(通過各種技巧),甚至可以在這種硬體的小叢集上運行 4050 億參數的大型模型,成本低於一個 H100 節點。
H100 的價格正在變得像大宗商品一樣便宜。甚至有些時候是以低於成本的價格出租——如果是這樣,接下來該怎麼辦?
中立觀點:H100 叢集價格的分層
從宏觀層面來看,預計大型叢集仍然會收取溢價(>=2.90 美元/小時),因為對於真正需要它們的客戶來說,沒有其他選擇。
我們已經開始看到這種趨勢,例如在 Voltage Park,配備 Infiniband 的叢集被收取更高的費用。而基於乙太網路的實例,對於推理任務來說已經足夠好,其價格則定得較低。根據不同的使用場景和可用性調整價格。
儘管基礎模型團隊的數量總體上有所減少,但很難預測隨著開放權重的增長和/或替代架構的出現,是否會迎來復甦。
同時,預計未來我們將看到按叢集規模進一步分層。例如,一個擁有 512 個節點且配備 Infiniband 的大型叢集,其每塊 GPU 的收費可能會高於 16 個節點的叢集。
消極觀點:新的公共雲 H100 叢集進入市場較晚,可能無利可圖——一些投資者可能會遭受損失。
如果你將價格定在 2.25 美元以下,根據你的營運成本(OPEX),你可能會面臨潛在的無利可圖的風險。如果你將價格定得過高,比如 3 美元或以上,你可能無法吸引足夠的買家來最大化使用算力資源。如果你進入市場較晚,可能無法在早期以 4 美元/小時的價格收回成本。
總體而言,這些叢集投資對於關鍵利益相關者和投資者來說將非常艱難。
雖然我懷疑這種情況會發生,但如果新叢集在 AI 投資組合中佔據了很大一部分,我們可能會看到由於投資者遭受損失而對融資生態系統產生連鎖反應。
中立觀點:中型到大型模型建構者,已經通過長期租賃搾取了算力價值
不同於消極看法,一種中立看法是,一些未使用的算力資源的模型建構者實際上已經支付了費用。資金市場已經將這些叢集及其模型訓練的成本計算在內,並「搾取了其價值」,用於他們當前和下一輪融資的籌碼。
其中的大多數算力購買是在算力轉售商流行之前進行的,成本已經計包含在內。如果有什麼影響的話,他們是從多餘的 H100 算力資源中獲得的當前收入,而我們獲得的是降價的算力資源,這對雙方都是有利的。
如果情況確實如此,市場負面影響將是最小的,整體上對生態系統來說是一個淨正收益。
正面觀點:便宜的 H100 可能加速開放權重 AI 的採用浪潮
鑑於開放權重模型已經進入 GPT-4 等級的領域,H100 價格的下跌將成為開放權重 AI 採用的倍增器。
對於業餘愛好者、AI 開發者和工程師來說,運行、微調和探索這些開放模型將變得更加實惠。特別是如果沒有 GPT-5++這樣的重大飛躍,這意味著開放權重模型與閉源模型之間的差距將變得模糊。
這是非常必要的,因為目前市場是不可持續的。應用層缺乏為付費使用者創造價值的能力(這會影響到平台、模型和基礎設施層)。
在某種程度上,如果大家都在造鏟子,而沒有建構能夠吸引付費使用者的 AI 應用(並且沒有產生收入和價值)。但當 AI 推理和微調變得比以往任何時候都便宜時,這可能會激發 AI 應用的浪潮——如果這一趨勢還沒有緩慢開始的話。
在新 H100 硬體上的支出很可能是虧損的。除非你有以下某種組合:折扣的 H100、折扣的電力,或者有一個主權 AI 的需求(即你的 GPU 所在地對客戶來說至關重要)。或者你有數十億美元,需要一個超大型叢集。
如果你在投資,建議考慮投資其他領域。或者投資股票市場指數以獲得更好的回報率。 (極客公園)