「即使安裝100萬台NVIDIA GPU,實際工作時間也只有10%」
被稱為HBM之父的KAIST金正浩教授在最近的一次採訪中說道。其餘90%的時間,GPU都在等待記憶體中的資料到來,基本上是在閒置。
原因很簡單。每次AI輸出一個單詞的答案時,都需要從HBM讀取資料並重新寫入,而這個讀寫時間幾乎佔用了全部時間。
即使最佳化演算法,GPU也很難超過30%的利用率。因此金教授強調AI能力最終由記憶體決定,AI本質上就是記憶體。
局勢變化的訊號也很明顯。隨著從訓練時代轉向推理時代,記憶體需求爆炸式增長,從HBM4開始不再是標準產品,而是提前與客戶約定數量的定製化生產。
這是一個買方不再主導、賣方決定價格的市場,甲乙關係完全顛倒。
這也是三星電子與SK海力士合計營業利潤預計達到500兆~600兆韓元並非空穴來風的原因。
黃仁勳頻繁出入韓國、坐立不安,正是因為他比任何人都清楚這一點。GPU的增長已經停滯,AI電腦的下一步進化掌握在記憶體手中。
HBM只是起點,下一階段還可能出現HBF、HBS和3D計算系統。
01. HBM為何成為AI時代無法繞開的基礎設施
HBM的本質是把多層DRAM垂直堆疊,並通過TSV矽通孔和超寬介面連接AI加速器。傳統記憶體主要提高頻率,HBM則通過增加平行通道,把狹窄道路擴展成多車道高速公路。
HBM將多層DRAM垂直堆疊,並通過TSV和超寬介面連接AI加速器,以更短的資料路徑和更多平行通道顯著提高頻寬。資料來源:公開技術資料整理
傳統記憶體(如DDR、GDDR)就像是單條車道的高速路,雖然可以通過提高車速(頻率)來增加運量,但車速總有物理極限。當AI大模型(LLM)爆發後,計算晶片(GPU/TPU)的算力呈指數級增長,每秒能處理的資料量極其恐怖。
這就導致了一個致命的瓶頸:記憶體牆 Memory Wall
大模型在推理或訓練時,GPU需要頻繁、反覆地讀取數百億參數的模型權重和海量的KV Cache鍵值快取。如果記憶體傳輸速度跟不上,GPU算力再強也只能拍著桌子乾等資料。
傳統的DDR記憶體插在主機板上,距離GPU太遠,訊號傳輸有延遲且功耗極高;而GDDR雖然速度快,但受限於晶片周邊面積,無法堆疊太多顆粒,容量和頻寬很快就會觸及天花板。
早期HBM介面寬度達到1024位,HBM4擴展到2048個I/O。SK海力士披露其HBM4頻寬達到上一代的2.54倍,功耗效率提高超過40%。NVIDIA H200則配備141GB HBM3E,記憶體頻寬達到4.8TB/s。
GPU性能提升已經越來越依賴記憶體容量和頻寬同步升級。
在逐token推理階段,系統需要反覆讀取模型權重,並更新和訪問KV Cache。模型越大、上下文越長、並行使用者越多,需要搬運的資料就越多。
計算單元雖然能夠快速完成矩陣運算,卻可能長時間等待下一批資料到達。
AI即記憶體不是說計算晶片失去價值,而是系統瓶頸已從單純的浮點運算能力,轉向計算、頻寬、容量和互連之間的平衡。
只擴大GPU面積而不提高記憶體供給能力,新增算力很難被充分利用。所以HBM逐漸成為人工智慧的核心戰略資產
02. 從訓練轉向推理記憶體廠商的議價權正在上升
訓練階段需要極高算力,但任務通常集中在少數大型叢集;推理階段則要面對海量使用者、長上下文、多模態輸入和持續運行的AI智能體。
隨著AI從模型開發走向商業部署,推理對記憶體容量、頻寬和能耗的要求可能更具持續性。
這一變化正在推動HBM從標準化產品轉向定製化系統部件。
HBM4開始引入更複雜的邏輯基底晶片,記憶體控制、介面和部分計算功能可以根據NVIDIA、Google、Microsoft、AMD等客戶的加速器架構共同設計。
記憶體廠商不再只是生產通用顆粒,而是在研發初期就參與系統定義。定製化意味著更長的認證周期、更高的切換成本和更早的產能鎖定。
客戶需要提前確定規格和交付時間,供應商則根據長期協議安排晶圓、封裝和裝置投資。標準化採購正在轉向雙方共同承擔研發和產能風險。
但“甲乙方完全逆轉”仍是過度概括。NVIDIA和雲廠商掌握系統架構、軟體生態與最終訂單,仍有強大議價能力;
三星、SK海力士和美光則通過技術、良率和有限產能獲得更高話語權。真正發生的變化,是記憶體從可替換零部件變成影響整個平台上市節奏的關鍵部件。
03. HBM之後HBF與HBS將建構分層記憶體體系
HBM解決了速度問題,卻仍受容量、成本和封裝面積限制。
隨著模型參數、KV Cache和多模態資料繼續增長,把全部資料長期放在昂貴的DRAM中並不經濟,HBF由此成為下一條技術路線。
HBF可以理解為以高平行方式堆疊NAND Flash,在接近HBM的物理形態下提供更大容量。
Sandisk提出在相近成本下實現HBM約8至16倍的容量,並計畫在2026年下半年提供首批樣品、2027年初推動搭載HBF的推理裝置送樣。
HBF速度低於HBM,但容量更大、單位成本更低,適合保存模型權重等讀取型資料。
未來可能形成分層結構:HBM承擔“熱資料”,HBF存放“冷資料”,普通SSD和網路儲存位於更下層。
資料根據訪問頻率在不同層級之間移動。HBF不是替代HBM,而是為推理時代增加新的容量層。
金正浩進一步提出HBS即High Bandwidth SRAM。SRAM延遲更低,但成本高、密度低,傳統上只能作為片上快取。
若未來能夠實現晶圓級、多層堆疊,HBS可能成為距離計算單元最近的超高速記憶體。不過,HBS目前仍屬於前沿概念,距離標準化和商業量產尚遠,良率、功耗和散熱都是現實障礙。
04. 未來贏家不只是GPU公司
傳統的AI伺服器拆開看,主機板就像是一個平面的「科技園區」:GPU坐落在市中心,HBM記憶體像幾棟高樓圍在旁邊,而NAND快閃記憶體和SRAM則散落在更遠的外圍。資料在這之間穿梭,依然要走漫長、耗能的「地表公路」
如果HBM、HBF和HBS逐步成熟,未來AI晶片可能不再是「GPU旁邊放幾顆記憶體」而是邏輯晶片、DRAM、NAND和SRAM共同組成的3D系統。
GPU或CPU負責計算,HBM提供高速頻寬,HBF提供大容量,HBS承擔超低延遲快取,電力和冷卻則貫穿整個封裝。
這會重新分配半導體產業的價值。NVIDIA的計算架構和CUDA生態仍然構成強大壁壘,GPU性能也沒有停止增長;
但系統性能越來越取決於記憶體、先進封裝、互連、供電和散熱。AI伺服器的價值將從GPU裸片擴散至HBM、邏輯基底、矽中介層、液冷和電源系統。
三星與SK海力士的優勢在於同時擁有DRAM、NAND、HBM和先進封裝能力,但這一組合並非韓國企業獨有,美光同樣覆蓋DRAM、NAND和HBM。
韓國真正領先的是HBM量產經驗、客戶認證和製造生態。與此同時,長鑫儲存等中國企業也在推進高端DRAM和HBM研發,技術代差、良率和客戶驗證仍將決定追趕速度。
市場把三星與SK海力士未來合計營業利潤外推至數百兆韓元的說法,顯然是超級周期過於激進情景,而不是公司指引或一致預期。
定製HBM確實提高了訂單可見度和利潤率,但擴產、客戶集中、地緣政治與技術迭代仍可能改變結果。
傳統的算力軍備競賽已經走入死胡同。下一輪AI架構的爭奪表面上是看誰能做好供電與散熱,但其底層邏輯依然是所有這一切,都是在為「讓資料更快、更省電地抵達記憶體」而服務。
誰能率先打破「記憶體牆」誰才能真正釋放大模型的全部潛力。目前來看AI計算的下一代架構終究還是要由記憶體DRAM來定義。 (矽谷宇宙)
