HBM之父金正浩教授：AI本質就是記憶體

2026/07/02

•

「即使安裝100萬台NVIDIA GPU，實際工作時間也只有10%」

被稱為HBM之父的KAIST金正浩教授在最近的一次採訪中說道。其餘90%的時間，GPU都在等待記憶體中的資料到來，基本上是在閒置。

韓國KAIST教授金正浩在訪談中解釋GPU利用率偏低的原因，指出AI計算的大量時間消耗在資料讀取、傳輸和等待，單純增加算力難以解決系統瓶頸。圖片來源：韓國MoneyGuide訪談

原因很簡單。每次AI輸出一個單詞的答案時，都需要從HBM讀取資料並重新寫入，而這個讀寫時間幾乎佔用了全部時間。

即使最佳化演算法，GPU也很難超過30%的利用率。因此金教授強調AI能力最終由記憶體決定，AI本質上就是記憶體。

大模型推理中約70%至80%的時間可能用於記憶體讀寫，GPU實際計算時間僅佔20%至30%。提高記憶體頻寬比單純提升算力更能改善AI性能。資料來源：金正浩教授訪談整理

局勢變化的訊號也很明顯。隨著從訓練時代轉向推理時代，記憶體需求爆炸式增長，從HBM4開始不再是標準產品，而是提前與客戶約定數量的定製化生產。

這是一個買方不再主導、賣方決定價格的市場，甲乙關係完全顛倒。

這也是三星電子與SK海力士合計營業利潤預計達到500兆~600兆韓元並非空穴來風的原因。

黃仁勳頻繁出入韓國、坐立不安，正是因為他比任何人都清楚這一點。GPU的增長已經停滯，AI電腦的下一步進化掌握在記憶體手中。

輝達首席執行長黃仁勳與韓國科技產業人士聚餐交流，各方圍繞AI晶片、HBM供應和產業合作等議題保持密切互動。圖片來源：公開社交平台

HBM只是起點，下一階段還可能出現HBF、HBS和3D計算系統。

01. HBM為何成為AI時代無法繞開的基礎設施

HBM的本質是把多層DRAM垂直堆疊，並通過TSV矽通孔和超寬介面連接AI加速器。傳統記憶體主要提高頻率，HBM則通過增加平行通道，把狹窄道路擴展成多車道高速公路。

HBM將多層DRAM垂直堆疊，並通過TSV和超寬介面連接AI加速器，以更短的資料路徑和更多平行通道顯著提高頻寬。資料來源：公開技術資料整理

傳統記憶體（如DDR、GDDR）就像是單條車道的高速路，雖然可以通過提高車速（頻率）來增加運量，但車速總有物理極限。當AI大模型（LLM）爆發後，計算晶片（GPU/TPU）的算力呈指數級增長，每秒能處理的資料量極其恐怖。

這就導致了一個致命的瓶頸：記憶體牆 Memory Wall

2012年至2020年，主流AI模型訓練所需算力快速增長，Transformer模型算力需求約每兩年增長750倍，顯著快於摩爾定律對應的硬體提升速度。資料來源：公開模型訓練資料

大模型在推理或訓練時，GPU需要頻繁、反覆地讀取數百億參數的模型權重和海量的KV Cache鍵值快取。如果記憶體傳輸速度跟不上，GPU算力再強也只能拍著桌子乾等資料。

傳統的DDR記憶體插在主機板上，距離GPU太遠，訊號傳輸有延遲且功耗極高；而GDDR雖然速度快，但受限於晶片周邊面積，無法堆疊太多顆粒，容量和頻寬很快就會觸及天花板。

DRAM記憶體條負責臨時保存處理器正在使用的資料，具有讀寫速度快和延遲低等特點，但斷電後資料會消失，主要用於電腦和伺服器主記憶體。圖片來源：公開資料

早期HBM介面寬度達到1024位，HBM4擴展到2048個I/O。SK海力士披露其HBM4頻寬達到上一代的2.54倍，功耗效率提高超過40%。NVIDIA H200則配備141GB HBM3E，記憶體頻寬達到4.8TB/s。

SK海力士HBM4E採用12層堆疊，容量達到48GB，單引腳速度最高16Gbps，能效提升20%，並通過先進MRMUF工藝改善散熱和結構穩定性。資料來源：SK海力士

GPU性能提升已經越來越依賴記憶體容量和頻寬同步升級。

在逐token推理階段，系統需要反覆讀取模型權重，並更新和訪問KV Cache。模型越大、上下文越長、並行使用者越多，需要搬運的資料就越多。

大模型在預填充階段生成並快取Key和Value資料，後續逐詞解碼時直接重複使用，可減少計算量，但快取規模會隨上下文長度增加並佔用大量記憶體。資料來源：公開技術資料

計算單元雖然能夠快速完成矩陣運算，卻可能長時間等待下一批資料到達。

AI即記憶體不是說計算晶片失去價值，而是系統瓶頸已從單純的浮點運算能力，轉向計算、頻寬、容量和互連之間的平衡。

輝達展示覆蓋計算、網路、處理器、交換晶片和儲存系統的全端AI基礎設施，通過統一軟硬體架構連接大規模加速計算叢集。圖片來源：NVIDIA

只擴大GPU面積而不提高記憶體供給能力，新增算力很難被充分利用。所以HBM逐漸成為人工智慧的核心戰略資產

02. 從訓練轉向推理記憶體廠商的議價權正在上升

訓練階段需要極高算力，但任務通常集中在少數大型叢集；推理階段則要面對海量使用者、長上下文、多模態輸入和持續運行的AI智能體。

隨著AI從模型開發走向商業部署，推理對記憶體容量、頻寬和能耗的要求可能更具持續性。

大語言模型開發通常包括資料收集、預處理、模型初始化、預訓練、微調、評估和部署等環節，模型規模越大，對資料、GPU和訓練時間的需求越高。資料來源：公開技術資料整理

這一變化正在推動HBM從標準化產品轉向定製化系統部件。

HBM4開始引入更複雜的邏輯基底晶片，記憶體控制、介面和部分計算功能可以根據NVIDIA、Google、Microsoft、AMD等客戶的加速器架構共同設計。

記憶體廠商不再只是生產通用顆粒，而是在研發初期就參與系統定義。定製化意味著更長的認證周期、更高的切換成本和更早的產能鎖定。

客戶需要提前確定規格和交付時間，供應商則根據長期協議安排晶圓、封裝和裝置投資。標準化採購正在轉向雙方共同承擔研發和產能風險。

但“甲乙方完全逆轉”仍是過度概括。NVIDIA和雲廠商掌握系統架構、軟體生態與最終訂單，仍有強大議價能力；

SK海力士HBM銷售額預計因價格上漲進一步提升，但隨著傳統DRAM價格同步上漲，HBM佔DRAM收入比例將由2025年的48%回落至約35%。資料來源：公司資料、HSBC預測

三星、SK海力士和美光則通過技術、良率和有限產能獲得更高話語權。真正發生的變化，是記憶體從可替換零部件變成影響整個平台上市節奏的關鍵部件。

03. HBM之後HBF與HBS將建構分層記憶體體系

HBM解決了速度問題，卻仍受容量、成本和封裝面積限制。

隨著模型參數、KV Cache和多模態資料繼續增長，把全部資料長期放在昂貴的DRAM中並不經濟，HBF由此成為下一條技術路線。

HBM採用易失性DRAM，速度快但容量相對有限，適合AI訓練和推理。HBF採用非易失性快閃記憶體，容量更大、功耗更低，主要面向參考資料和推理儲存。資料來源：KAIST金正浩教授實驗室

HBF可以理解為以高平行方式堆疊NAND Flash，在接近HBM的物理形態下提供更大容量。

Sandisk提出在相近成本下實現HBM約8至16倍的容量，並計畫在2026年下半年提供首批樣品、2027年初推動搭載HBF的推理裝置送樣。

圖示將三維儲存分為HBS、HBM和HBF三條路線。HBS強調邏輯與DRAM混合鍵合，HBM強調高頻寬計算，HBF則以NANDFlash堆疊提升AI儲存容量。資料來源：原圖技術資料整理

HBF速度低於HBM，但容量更大、單位成本更低，適合保存模型權重等讀取型資料。

未來可能形成分層結構：HBM承擔“熱資料”，HBF存放“冷資料”，普通SSD和網路儲存位於更下層。

三星電子和SK海力士持續推進HBM產品迭代，已由早期HBM發展至HBM3E和HBM4，並計畫在2026年量產第六代產品及提供第七代樣品。資料來源：東亞日報

資料根據訪問頻率在不同層級之間移動。HBF不是替代HBM，而是為推理時代增加新的容量層。

金正浩進一步提出HBS即High Bandwidth SRAM。SRAM延遲更低，但成本高、密度低，傳統上只能作為片上快取。

DRAM屬於易失性主記憶體，速度快、延遲低，主要承擔資料運算和臨時處理。NANDFlash屬於非易失性儲存，容量大，主要用於SSD等長期資料保存裝置。資料來源：公開技術資料

若未來能夠實現晶圓級、多層堆疊，HBS可能成為距離計算單元最近的超高速記憶體。不過，HBS目前仍屬於前沿概念，距離標準化和商業量產尚遠，良率、功耗和散熱都是現實障礙。

04. 未來贏家不只是GPU公司

傳統的AI伺服器拆開看，主機板就像是一個平面的「科技園區」：GPU坐落在市中心，HBM記憶體像幾棟高樓圍在旁邊，而NAND快閃記憶體和SRAM則散落在更遠的外圍。資料在這之間穿梭，依然要走漫長、耗能的「地表公路」

傳統AI伺服器將GPU、HBM、NANDFlash和SRAM分散佈置在平面主機板上，資料需要經過較長傳輸路徑，隨著系統規模擴大，延遲和功耗也會持續增加。資料來源：原圖技術示意

如果HBM、HBF和HBS逐步成熟，未來AI晶片可能不再是「GPU旁邊放幾顆記憶體」而是邏輯晶片、DRAM、NAND和SRAM共同組成的3D系統。

GPU或CPU負責計算，HBM提供高速頻寬，HBF提供大容量，HBS承擔超低延遲快取，電力和冷卻則貫穿整個封裝。

圖示提出AI時代的三類儲存協同架構，由HBM提供高速頻寬，HBF承擔大容量儲存，HBS作為低延遲快取，共同服務GPU和CPU計算。資料來源：原圖技術示意

這會重新分配半導體產業的價值。NVIDIA的計算架構和CUDA生態仍然構成強大壁壘，GPU性能也沒有停止增長；

但系統性能越來越取決於記憶體、先進封裝、互連、供電和散熱。AI伺服器的價值將從GPU裸片擴散至HBM、邏輯基底、矽中介層、液冷和電源系統。

三星與SK海力士的優勢在於同時擁有DRAM、NAND、HBM和先進封裝能力，但這一組合並非韓國企業獨有，美光同樣覆蓋DRAM、NAND和HBM。

SK海力士DRAM成本長期總體下降，但預計2026年出現階段性上升。NAND成本波動更大，歷史上多次受到庫存減值及後續轉回影響。資料來源：公司資料、野村證券預測

韓國真正領先的是HBM量產經驗、客戶認證和製造生態。與此同時，長鑫儲存等中國企業也在推進高端DRAM和HBM研發，技術代差、良率和客戶驗證仍將決定追趕速度。

SK海力士HBM出貨位元佔DRAM比重預計由2023年初約1%升至2027年末超過20%，HBM收入佔比則在2025年初達到高點後維持約30%。資料來源：公司資料、野村證券預測

市場把三星與SK海力士未來合計營業利潤外推至數百兆韓元的說法，顯然是超級周期過於激進情景，而不是公司指引或一致預期。

全球HBM市場規模預計由2022年的10億美元增至2027年的1800億美元，2024年至2027年復合增速約125%，同期位元需求復合增速約73%。資料來源：公司資料、HSBC預測

定製HBM確實提高了訂單可見度和利潤率，但擴產、客戶集中、地緣政治與技術迭代仍可能改變結果。

傳統的算力軍備競賽已經走入死胡同。下一輪AI架構的爭奪表面上是看誰能做好供電與散熱，但其底層邏輯依然是所有這一切，都是在為「讓資料更快、更省電地抵達記憶體」而服務。

誰能率先打破「記憶體牆」誰才能真正釋放大模型的全部潛力。目前來看AI計算的下一代架構終究還是要由記憶體DRAM來定義。 (矽谷宇宙)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者