你以為記憶體漲太多了?其實只是剛開始而已

HBM:從配角到AI時代的命門

當token成為貨幣單位,決定GPU上限的不再是算力,而是記憶體。一條被物理定律鎖死的指數增長曲線,正在重寫整個半導體產業的價值分配。

一、一個讓市場爭吵了三年的問題

HBM多空之爭從未停過。樂觀派說AI帶來的需求跟以前完全不一樣;悲觀派反駁,過去幾次儲存上行周期需求也是20%+增長,最後都沒逃過擴產過剩的宿命,這次憑什麼不同?

這個問題不能靠情緒解決,只能從晶片架構的底層邏輯推導。先從CPU說起。

在CPU主導算力的時代,評價一顆處理器好不好的標準很簡單:跑分。頻率越高越好,後來加入超標量、大快取、分支預測……所有努力都指向同一件事:讓CPU跑得更快。

這個邏輯下,DDR記憶體是個可有可無的配角。業界有個經驗資料:那怕把記憶體頻寬翻一倍,CPU性能的提升通常也不到20%。原因是CPU設計了大量機制來"藏住"記憶體延遲——L1/L2多級快取、亂序執行、暫存器重新命名……DDR只需要在CPU真正撐不住的時候出來幫個忙。

所以DDR3到DDR5整整走了15年,平均每台電腦的記憶體容量從7~8GB爬到23GB,十年只漲了3倍。這麼慢,因為沒人著急。

二、KPI變了,一切都變了

AI推理時代,GPU最重要的指標不再是算力FLOPS,而變成了:單位成本/單位電力,能輸出多少token

這一個KPI的切換,把整個產業的價值鏈重排了一遍。

Jensen Huang為什麼要造"AI工廠"這個概念?因為AI推理的毛利率相當可觀,邏輯從"買越多GPU省越多"變成了"買越多GPU賺越多"。Nvidia的銷售主張變了:我的GPU是這個世界上讓token最便宜的機器,你買得越多,你就賺得越多。

  • Token吞吐量:單位時間/電力產出更多token,降低每個token的成本
  • Token速度:Agent時代任務序列,速度直接影響使用者體驗
  • Token單價:B200實測約$0.02/百萬token,是H100的4.5倍性價比

三、推匯出這個時代的第一性原理

把token吞吐量拆開來看,它由兩個參數的乘積決定:

Token吞吐量 = 批處理量(Batch Size) × 單使用者Token速度

前者瓶頸在HBM容量,後者瓶頸在HBM頻寬

第一個參數:批處理量,卡在HBM容量上

AI推理不是一個一個請求排隊處理的。要讓GPU跑滿、降低成本,必須同時批次處理儘可能多的請求。

問題是:每一個請求都會帶著自己的KV Cache(對話"工作記憶"),這部分資料隨時需要被GPU高速讀取,必須存在HBM裡。一個大模型比如80層,每生成一個token就要讀80次KV Cache。

批次處理的請求越多,KV Cache加起來就越大,佔用的HBM也越多。HBM裝不下,只能減少同時處理的請求數,吞吐量就上不去。

第二個參數:單使用者Token速度,卡在HBM頻寬上

大模型"decode階段"(逐token生成輸出)是記憶體頻寬密集型操作。每生成一個token,都要把啟動的權重和KV Cache從HBM裡讀很多遍。HBM頻寬越高,token生成速度越快,基本是線性對應關係。

🚌 機場接駁車類比

▎車廂容量 = HBM Size:決定同時能裝多少個請求的KV Cache(即Batch Size上限)。車廂小了,100個旅客得分兩趟送,整體效率直接打折。

▎車門寬度 = HBM頻寬:決定每個token的生成速度(旅客上車速度)。門窄了,那怕車廂再大,大家擠成一隊,等待時間成了主要矛盾。

▎旅客吞吐量 = Token吞吐量:HBM Size × HBM頻寬

Token throughput = HBM Size × HBM Bandwidth

歷史上第一次,記憶體容量直接決定了AI系統最高KPI的天花板

四、資料說話:四代GPU的完美印證

理論需要資料驗證。把Nvidia從A100到Rubin的幾代GPU,HBM Size × HBM頻寬的乘積,和實際token推理性能放在一起比較:

H200相比H100,算力幾乎沒變,但HBM容量翻了近一倍(80GB→141GB),Size×BW乘積提升2.5×——這解釋了為什麼H200的推理性能提升主要來自容量,不是算力。這是記憶體天花板決定GPU性能的最直接案例。

五、供給側三家的市場份額戰爭

需求被架構鎖定,供給側只有三個玩家:SK海力士、三星、美光。

三個關鍵資料點可以說明這一輪周期的結構性:

第一,SK海力士已宣佈2026年HBM產能全部售罄,年化營收預期約80億美元。這不是預測,是已簽訂的合同。

第二,2025年全年HBM價格上漲了246%,而且還在漲。TrendForce預測2025年Q4整體DRAM合同價將再上漲50~55%。

第三,2026年HBM4全面進入量產。SK海力士HBM4宣稱功耗效率提升40%、資料速率10Gbps;美光HBM4樣品速率已突破11Gbps;三星HBM4同步推進,目標2026年拿回30%以上份額。而Rubin GPU單顆配備288GB HBM4,頻寬22 TB/s,是H100的6.6倍

六、軟體最佳化能解耦這個問題嗎?

經常有人問:軟體層面的最佳化,比如量化、稀疏化、KV Cache壓縮,會不會降低對HBM的需求,讓這條曲線"彎掉"?

這個問題其實問錯了。軟體最佳化和硬體代際進步是兩個獨立維度,不能互相抵消。

類比到CPU行業:假設某一年有了一個軟體突破讓程序跑快了50%,Intel和AMD就可以放棄下一代研發了?顯然不可能——只要有競爭,每一代CPU的benchmark跑分就必須更高,否則賣不出去。GPU是同樣的邏輯。

只要token需求還在增長,對token吞吐量的追求就不會停;對吞吐量的追求不停,對HBM Size × BW的追求就不會停。

還有一個更重要的機制:這是Nvidia自己的生存壓力。HBM的天花板就是Nvidia GPU的天花板。如果HBM不進步,Nvidia下一代GPU的旗艦KPI就無法提升,就賣不動。所以老黃會親自推HBM三家加速技術迭代——這是供給側的內生驅動,和宏觀需求景氣與否無關。

軟體讓同樣的硬體跑得更高效,但Nvidia每年還是必鬚髮布benchmark更強的新GPU。這兩件事從不衝突,因為它們針對的是不同層面的競爭壓力。

七、結論:需求被物理鎖死,風險在供給側

HBM這一輪和以往儲存周期根本不同的地方,不在於需求有多旺盛,而在於需求是被GPU架構從第一性原理層面物理鎖定的。只要Nvidia還要每一代讓token吞吐量翻倍,HBM Size × HBM頻寬的乘積就必須翻倍。這不是市場預測,是方程式。

核心結論

📌 2026年HBM市場預期規模546億美元(同比+58%),2028年有機構預測突破千億美元等級,超過2024年整個DRAM市場體量。

📌 SK海力士、美光的2026年產能均已售罄,價格仍在上漲。HBM4全面進入量產,Rubin GPU頻寬達22 TB/s,是H100的6.6倍。

📌 需求端是被架構物理鎖定的指數增長。唯一的不確定變數,是供給側三家的資本開支紀律——歷史上每一次儲存周期崩盤,都是被過度擴產搞崩的,不是需求消失了。

需求被物理鎖定為指數增長,是這次最大的不同。供給側的自律,才是決定周期走向的變數。這是悲觀派和樂觀派真正的分歧所在——不是需求,而是三家儲存廠商在上行周期裡能不能管住自己的capex衝動。 (蚪蚪君)