你以為記憶體漲太多了？其實只是剛開始而已

2026/05/06

•

HBM：從配角到AI時代的命門

當token成為貨幣單位，決定GPU上限的不再是算力，而是記憶體。一條被物理定律鎖死的指數增長曲線，正在重寫整個半導體產業的價值分配。

一、一個讓市場爭吵了三年的問題

HBM多空之爭從未停過。樂觀派說AI帶來的需求跟以前完全不一樣；悲觀派反駁，過去幾次儲存上行周期需求也是20%+增長，最後都沒逃過擴產過剩的宿命，這次憑什麼不同？

這個問題不能靠情緒解決，只能從晶片架構的底層邏輯推導。先從CPU說起。

在CPU主導算力的時代，評價一顆處理器好不好的標準很簡單：跑分。頻率越高越好，後來加入超標量、大快取、分支預測……所有努力都指向同一件事：讓CPU跑得更快。

這個邏輯下，DDR記憶體是個可有可無的配角。業界有個經驗資料：那怕把記憶體頻寬翻一倍，CPU性能的提升通常也不到20%。原因是CPU設計了大量機制來"藏住"記憶體延遲——L1/L2多級快取、亂序執行、暫存器重新命名……DDR只需要在CPU真正撐不住的時候出來幫個忙。

所以DDR3到DDR5整整走了15年，平均每台電腦的記憶體容量從7~8GB爬到23GB，十年只漲了3倍。這麼慢，因為沒人著急。

二、KPI變了，一切都變了

AI推理時代，GPU最重要的指標不再是算力FLOPS，而變成了：單位成本/單位電力，能輸出多少token。

這一個KPI的切換，把整個產業的價值鏈重排了一遍。

Jensen Huang為什麼要造"AI工廠"這個概念？因為AI推理的毛利率相當可觀，邏輯從"買越多GPU省越多"變成了"買越多GPU賺越多"。Nvidia的銷售主張變了：我的GPU是這個世界上讓token最便宜的機器，你買得越多，你就賺得越多。

Token吞吐量：單位時間/電力產出更多token，降低每個token的成本
Token速度：Agent時代任務序列，速度直接影響使用者體驗
Token單價：B200實測約$0.02/百萬token，是H100的4.5倍性價比

三、推匯出這個時代的第一性原理

把token吞吐量拆開來看，它由兩個參數的乘積決定：

Token吞吐量 = 批處理量（Batch Size） × 單使用者Token速度

前者瓶頸在HBM容量，後者瓶頸在HBM頻寬

第一個參數：批處理量，卡在HBM容量上

AI推理不是一個一個請求排隊處理的。要讓GPU跑滿、降低成本，必須同時批次處理儘可能多的請求。

問題是：每一個請求都會帶著自己的KV Cache（對話"工作記憶"），這部分資料隨時需要被GPU高速讀取，必須存在HBM裡。一個大模型比如80層，每生成一個token就要讀80次KV Cache。

批次處理的請求越多，KV Cache加起來就越大，佔用的HBM也越多。HBM裝不下，只能減少同時處理的請求數，吞吐量就上不去。

第二個參數：單使用者Token速度，卡在HBM頻寬上

大模型"decode階段"（逐token生成輸出）是記憶體頻寬密集型操作。每生成一個token，都要把啟動的權重和KV Cache從HBM裡讀很多遍。HBM頻寬越高，token生成速度越快，基本是線性對應關係。

🚌 機場接駁車類比

▎車廂容量 = HBM Size：決定同時能裝多少個請求的KV Cache（即Batch Size上限）。車廂小了，100個旅客得分兩趟送，整體效率直接打折。

▎車門寬度 = HBM頻寬：決定每個token的生成速度（旅客上車速度）。門窄了，那怕車廂再大，大家擠成一隊，等待時間成了主要矛盾。

▎旅客吞吐量 = Token吞吐量：HBM Size × HBM頻寬

Token throughput = HBM Size × HBM Bandwidth

歷史上第一次，記憶體容量直接決定了AI系統最高KPI的天花板

四、資料說話：四代GPU的完美印證

理論需要資料驗證。把Nvidia從A100到Rubin的幾代GPU，HBM Size × HBM頻寬的乘積，和實際token推理性能放在一起比較：

H200相比H100，算力幾乎沒變，但HBM容量翻了近一倍（80GB→141GB），Size×BW乘積提升2.5×——這解釋了為什麼H200的推理性能提升主要來自容量，不是算力。這是記憶體天花板決定GPU性能的最直接案例。

五、供給側三家的市場份額戰爭

需求被架構鎖定，供給側只有三個玩家：SK海力士、三星、美光。

三個關鍵資料點可以說明這一輪周期的結構性：

第一，SK海力士已宣佈2026年HBM產能全部售罄，年化營收預期約80億美元。這不是預測，是已簽訂的合同。

第二，2025年全年HBM價格上漲了246%，而且還在漲。TrendForce預測2025年Q4整體DRAM合同價將再上漲50~55%。

第三，2026年HBM4全面進入量產。SK海力士HBM4宣稱功耗效率提升40%、資料速率10Gbps；美光HBM4樣品速率已突破11Gbps；三星HBM4同步推進，目標2026年拿回30%以上份額。而Rubin GPU單顆配備288GB HBM4，頻寬22 TB/s，是H100的6.6倍。

六、軟體最佳化能解耦這個問題嗎？

經常有人問：軟體層面的最佳化，比如量化、稀疏化、KV Cache壓縮，會不會降低對HBM的需求，讓這條曲線"彎掉"？

這個問題其實問錯了。軟體最佳化和硬體代際進步是兩個獨立維度，不能互相抵消。

類比到CPU行業：假設某一年有了一個軟體突破讓程序跑快了50%，Intel和AMD就可以放棄下一代研發了？顯然不可能——只要有競爭，每一代CPU的benchmark跑分就必須更高，否則賣不出去。GPU是同樣的邏輯。

只要token需求還在增長，對token吞吐量的追求就不會停；對吞吐量的追求不停，對HBM Size × BW的追求就不會停。

還有一個更重要的機制：這是Nvidia自己的生存壓力。HBM的天花板就是Nvidia GPU的天花板。如果HBM不進步，Nvidia下一代GPU的旗艦KPI就無法提升，就賣不動。所以老黃會親自推HBM三家加速技術迭代——這是供給側的內生驅動，和宏觀需求景氣與否無關。

軟體讓同樣的硬體跑得更高效，但Nvidia每年還是必鬚髮布benchmark更強的新GPU。這兩件事從不衝突，因為它們針對的是不同層面的競爭壓力。

七、結論：需求被物理鎖死，風險在供給側

HBM這一輪和以往儲存周期根本不同的地方，不在於需求有多旺盛，而在於需求是被GPU架構從第一性原理層面物理鎖定的。只要Nvidia還要每一代讓token吞吐量翻倍，HBM Size × HBM頻寬的乘積就必須翻倍。這不是市場預測，是方程式。

核心結論

📌 2026年HBM市場預期規模546億美元（同比+58%），2028年有機構預測突破千億美元等級，超過2024年整個DRAM市場體量。

📌 SK海力士、美光的2026年產能均已售罄，價格仍在上漲。HBM4全面進入量產，Rubin GPU頻寬達22 TB/s，是H100的6.6倍。

📌 需求端是被架構物理鎖定的指數增長。唯一的不確定變數，是供給側三家的資本開支紀律——歷史上每一次儲存周期崩盤，都是被過度擴產搞崩的，不是需求消失了。

需求被物理鎖定為指數增長，是這次最大的不同。供給側的自律，才是決定周期走向的變數。這是悲觀派和樂觀派真正的分歧所在——不是需求，而是三家儲存廠商在上行周期裡能不能管住自己的capex衝動。 (蚪蚪君)