HBM之父金正浩教授:AI本質就是記憶體

「即使安裝100萬台NVIDIA GPU,實際工作時間也只有10%」

被稱為HBM之父的KAIST金正浩教授在最近的一次採訪中說道。其餘90%的時間,GPU都在等待記憶體中的資料到來,基本上是在閒置。

韓國KAIST教授金正浩在訪談中解釋GPU利用率偏低的原因,指出AI計算的大量時間消耗在資料讀取、傳輸和等待,單純增加算力難以解決系統瓶頸。圖片來源:韓國MoneyGuide訪談

原因很簡單。每次AI輸出一個單詞的答案時,都需要從HBM讀取資料並重新寫入,而這個讀寫時間幾乎佔用了全部時間。

即使最佳化演算法,GPU也很難超過30%的利用率。因此金教授強調AI能力最終由記憶體決定,AI本質上就是記憶體。

大模型推理中約70%至80%的時間可能用於記憶體讀寫,GPU實際計算時間僅佔20%至30%。提高記憶體頻寬比單純提升算力更能改善AI性能。資料來源:金正浩教授訪談整理

局勢變化的訊號也很明顯。隨著從訓練時代轉向推理時代,記憶體需求爆炸式增長,從HBM4開始不再是標準產品,而是提前與客戶約定數量的定製化生產。

這是一個買方不再主導、賣方決定價格的市場,甲乙關係完全顛倒。

這也是三星電子與SK海力士合計營業利潤預計達到500兆~600兆韓元並非空穴來風的原因。

黃仁勳頻繁出入韓國、坐立不安,正是因為他比任何人都清楚這一點。GPU的增長已經停滯,AI電腦的下一步進化掌握在記憶體手中。

輝達首席執行長黃仁勳與韓國科技產業人士聚餐交流,各方圍繞AI晶片、HBM供應和產業合作等議題保持密切互動。圖片來源:公開社交平台

HBM只是起點,下一階段還可能出現HBF、HBS和3D計算系統。

01. HBM為何成為AI時代無法繞開的基礎設施

HBM的本質是把多層DRAM垂直堆疊,並通過TSV矽通孔和超寬介面連接AI加速器。傳統記憶體主要提高頻率,HBM則通過增加平行通道,把狹窄道路擴展成多車道高速公路。

HBM將多層DRAM垂直堆疊,並通過TSV和超寬介面連接AI加速器,以更短的資料路徑和更多平行通道顯著提高頻寬。資料來源:公開技術資料整理

傳統記憶體(如DDR、GDDR)就像是單條車道的高速路,雖然可以通過提高車速(頻率)來增加運量,但車速總有物理極限。當AI大模型(LLM)爆發後,計算晶片(GPU/TPU)的算力呈指數級增長,每秒能處理的資料量極其恐怖。

這就導致了一個致命的瓶頸:記憶體牆 Memory Wall

2012年至2020年,主流AI模型訓練所需算力快速增長,Transformer模型算力需求約每兩年增長750倍,顯著快於摩爾定律對應的硬體提升速度。資料來源:公開模型訓練資料

大模型在推理或訓練時,GPU需要頻繁、反覆地讀取數百億參數的模型權重和海量的KV Cache鍵值快取。如果記憶體傳輸速度跟不上,GPU算力再強也只能拍著桌子乾等資料。

傳統的DDR記憶體插在主機板上,距離GPU太遠,訊號傳輸有延遲且功耗極高;而GDDR雖然速度快,但受限於晶片周邊面積,無法堆疊太多顆粒,容量和頻寬很快就會觸及天花板。

DRAM記憶體條負責臨時保存處理器正在使用的資料,具有讀寫速度快和延遲低等特點,但斷電後資料會消失,主要用於電腦和伺服器主記憶體。圖片來源:公開資料

早期HBM介面寬度達到1024位,HBM4擴展到2048個I/O。SK海力士披露其HBM4頻寬達到上一代的2.54倍,功耗效率提高超過40%。NVIDIA H200則配備141GB HBM3E,記憶體頻寬達到4.8TB/s。

SK海力士HBM4E採用12層堆疊,容量達到48GB,單引腳速度最高16Gbps,能效提升20%,並通過先進MRMUF工藝改善散熱和結構穩定性。資料來源:SK海力士

GPU性能提升已經越來越依賴記憶體容量和頻寬同步升級。

在逐token推理階段,系統需要反覆讀取模型權重,並更新和訪問KV Cache。模型越大、上下文越長、並行使用者越多,需要搬運的資料就越多。

大模型在預填充階段生成並快取Key和Value資料,後續逐詞解碼時直接重複使用,可減少計算量,但快取規模會隨上下文長度增加並佔用大量記憶體。資料來源:公開技術資料

計算單元雖然能夠快速完成矩陣運算,卻可能長時間等待下一批資料到達。

AI即記憶體不是說計算晶片失去價值,而是系統瓶頸已從單純的浮點運算能力,轉向計算、頻寬、容量和互連之間的平衡。

輝達展示覆蓋計算、網路、處理器、交換晶片和儲存系統的全端AI基礎設施,通過統一軟硬體架構連接大規模加速計算叢集。圖片來源:NVIDIA

只擴大GPU面積而不提高記憶體供給能力,新增算力很難被充分利用。所以HBM逐漸成為人工智慧的核心戰略資產

02. 從訓練轉向推理記憶體廠商的議價權正在上升

訓練階段需要極高算力,但任務通常集中在少數大型叢集;推理階段則要面對海量使用者、長上下文、多模態輸入和持續運行的AI智能體。

隨著AI從模型開發走向商業部署,推理對記憶體容量、頻寬和能耗的要求可能更具持續性。

大語言模型開發通常包括資料收集、預處理、模型初始化、預訓練、微調、評估和部署等環節,模型規模越大,對資料、GPU和訓練時間的需求越高。資料來源:公開技術資料整理

這一變化正在推動HBM從標準化產品轉向定製化系統部件。

HBM4開始引入更複雜的邏輯基底晶片,記憶體控制、介面和部分計算功能可以根據NVIDIA、Google、Microsoft、AMD等客戶的加速器架構共同設計。

記憶體廠商不再只是生產通用顆粒,而是在研發初期就參與系統定義。定製化意味著更長的認證周期、更高的切換成本和更早的產能鎖定。

客戶需要提前確定規格和交付時間,供應商則根據長期協議安排晶圓、封裝和裝置投資。標準化採購正在轉向雙方共同承擔研發和產能風險。

但“甲乙方完全逆轉”仍是過度概括。NVIDIA和雲廠商掌握系統架構、軟體生態與最終訂單,仍有強大議價能力;

SK海力士HBM銷售額預計因價格上漲進一步提升,但隨著傳統DRAM價格同步上漲,HBM佔DRAM收入比例將由2025年的48%回落至約35%。資料來源:公司資料、HSBC預測

三星、SK海力士和美光則通過技術、良率和有限產能獲得更高話語權。真正發生的變化,是記憶體從可替換零部件變成影響整個平台上市節奏的關鍵部件。

03. HBM之後HBF與HBS將建構分層記憶體體系

HBM解決了速度問題,卻仍受容量、成本和封裝面積限制。

隨著模型參數、KV Cache和多模態資料繼續增長,把全部資料長期放在昂貴的DRAM中並不經濟,HBF由此成為下一條技術路線。

HBM採用易失性DRAM,速度快但容量相對有限,適合AI訓練和推理。HBF採用非易失性快閃記憶體,容量更大、功耗更低,主要面向參考資料和推理儲存。資料來源:KAIST金正浩教授實驗室

HBF可以理解為以高平行方式堆疊NAND Flash,在接近HBM的物理形態下提供更大容量。

Sandisk提出在相近成本下實現HBM約8至16倍的容量,並計畫在2026年下半年提供首批樣品、2027年初推動搭載HBF的推理裝置送樣。

圖示將三維儲存分為HBS、HBM和HBF三條路線。HBS強調邏輯與DRAM混合鍵合,HBM強調高頻寬計算,HBF則以NANDFlash堆疊提升AI儲存容量。資料來源:原圖技術資料整理

HBF速度低於HBM,但容量更大、單位成本更低,適合保存模型權重等讀取型資料。

未來可能形成分層結構:HBM承擔“熱資料”,HBF存放“冷資料”,普通SSD和網路儲存位於更下層。

三星電子和SK海力士持續推進HBM產品迭代,已由早期HBM發展至HBM3E和HBM4,並計畫在2026年量產第六代產品及提供第七代樣品。資料來源:東亞日報

資料根據訪問頻率在不同層級之間移動。HBF不是替代HBM,而是為推理時代增加新的容量層。

金正浩進一步提出HBS即High Bandwidth SRAM。SRAM延遲更低,但成本高、密度低,傳統上只能作為片上快取。

DRAM屬於易失性主記憶體,速度快、延遲低,主要承擔資料運算和臨時處理。NANDFlash屬於非易失性儲存,容量大,主要用於SSD等長期資料保存裝置。資料來源:公開技術資料

若未來能夠實現晶圓級、多層堆疊,HBS可能成為距離計算單元最近的超高速記憶體。不過,HBS目前仍屬於前沿概念,距離標準化和商業量產尚遠,良率、功耗和散熱都是現實障礙。

04. 未來贏家不只是GPU公司

傳統的AI伺服器拆開看,主機板就像是一個平面的「科技園區」:GPU坐落在市中心,HBM記憶體像幾棟高樓圍在旁邊,而NAND快閃記憶體和SRAM則散落在更遠的外圍。資料在這之間穿梭,依然要走漫長、耗能的「地表公路」

傳統AI伺服器將GPU、HBM、NANDFlash和SRAM分散佈置在平面主機板上,資料需要經過較長傳輸路徑,隨著系統規模擴大,延遲和功耗也會持續增加。資料來源:原圖技術示意

如果HBM、HBF和HBS逐步成熟,未來AI晶片可能不再是「GPU旁邊放幾顆記憶體」而是邏輯晶片、DRAM、NAND和SRAM共同組成的3D系統。

GPU或CPU負責計算,HBM提供高速頻寬,HBF提供大容量,HBS承擔超低延遲快取,電力和冷卻則貫穿整個封裝。

圖示提出AI時代的三類儲存協同架構,由HBM提供高速頻寬,HBF承擔大容量儲存,HBS作為低延遲快取,共同服務GPU和CPU計算。資料來源:原圖技術示意

這會重新分配半導體產業的價值。NVIDIA的計算架構和CUDA生態仍然構成強大壁壘,GPU性能也沒有停止增長;

但系統性能越來越取決於記憶體、先進封裝、互連、供電和散熱。AI伺服器的價值將從GPU裸片擴散至HBM、邏輯基底、矽中介層、液冷和電源系統。

三星與SK海力士的優勢在於同時擁有DRAM、NAND、HBM和先進封裝能力,但這一組合並非韓國企業獨有,美光同樣覆蓋DRAM、NAND和HBM。

SK海力士DRAM成本長期總體下降,但預計2026年出現階段性上升。NAND成本波動更大,歷史上多次受到庫存減值及後續轉回影響。資料來源:公司資料、野村證券預測

韓國真正領先的是HBM量產經驗、客戶認證和製造生態。與此同時,長鑫儲存等中國企業也在推進高端DRAM和HBM研發,技術代差、良率和客戶驗證仍將決定追趕速度。

SK海力士HBM出貨位元佔DRAM比重預計由2023年初約1%升至2027年末超過20%,HBM收入佔比則在2025年初達到高點後維持約30%。資料來源:公司資料、野村證券預測

市場把三星與SK海力士未來合計營業利潤外推至數百兆韓元的說法,顯然是超級周期過於激進情景,而不是公司指引或一致預期。

全球HBM市場規模預計由2022年的10億美元增至2027年的1800億美元,2024年至2027年復合增速約125%,同期位元需求復合增速約73%。資料來源:公司資料、HSBC預測

定製HBM確實提高了訂單可見度和利潤率,但擴產、客戶集中、地緣政治與技術迭代仍可能改變結果。

傳統的算力軍備競賽已經走入死胡同。下一輪AI架構的爭奪表面上是看誰能做好供電與散熱,但其底層邏輯依然是所有這一切,都是在為「讓資料更快、更省電地抵達記憶體」而服務。

誰能率先打破「記憶體牆」誰才能真正釋放大模型的全部潛力。目前來看AI計算的下一代架構終究還是要由記憶體DRAM來定義。 (矽谷宇宙)