HBM真正改變的不是DRAM本身,而是記憶體和計算核心之間的距離;它出現的背後,是算力增長之後越來越繞不開的資料搬運成本。
DDR、GDDR、HBM不是簡單替代關係,而是DRAM體系在不同距離、介面、封裝和成本約束下的分工。DDR勝在標準化、大容量、低成本和可維護性;GDDR把板級視訊記憶體頻寬推高;HBM則通過TSV堆疊和2.5D封裝,把寬介面記憶體推到計算晶片旁邊。AI與HPC讓資料搬運成為瓶頸後,HBM的價值才真正凸顯。
一、DDR:記憶體牆之前
理解HBM,最好別從“誰淘汰誰”開始。DDR沒有做錯,或者更應該說它是過去二十多年計算系統裡最成功的妥協之一。
它標準化、容量大、成本低,能插在主機板上,被伺服器、PC和各種通用系統持續復用。對大多數任務來說,記憶體不必貼著處理器生長,距離稍遠一點,延遲高一點,換來的是容量、價格、可維護性和產業鏈規模。
DDR、GDDR、HBM本質上都屬於DRAM家族,差別不在誰更“高級”,而在介面、封裝和服務對象。DDR服務通用計算,GDDR服務顯示卡上的高吞吐圖形與平行計算,HBM則服務極高頻寬、極短距離、強繫結封裝的計算核心。
到了現如今的GPU計算、AI訓練和大規模HPC時代,矩陣、參數、啟動值和中間結果不斷進出晶片。算力像閘門一樣打開,資料卻堵在路上。處理器不只是等程序,它開始等記憶體。
二、GDDR拉長戰線
在HBM出現之前,GPU已經把記憶體頻寬推過很多輪。GDDR的辦法很樸素:把視訊記憶體焊在顯示卡板上,用更高頻率、更複雜的板級布線,給GPU提供比普通DDR更高的頻寬。
這條路當然有效。圖形渲染和GPU平行計算本來就吃吞吐,GDDR通過提升單針腳速率、擴大視訊記憶體匯流排、最佳化PCB,把板級系統的潛力壓榨得很充分。今天許多消費級GPU仍依賴GDDR,它在成本、容量、性能之間仍然能打。
但代價也顯然,路還是在板上,GPU和視訊記憶體之間有物理距離,訊號還是需要穿過封裝、焊點、PCB走線和一串電氣邊界。頻率越高,訊號完整性越難;通道越多,布線越複雜;距離越長,功耗和延遲壓力越明顯。
像城市交通,早期靠車開得更快,後來拓寬道路,再後來發現問題不是車速,而是通勤距離太長。GDDR把車速和道路設計推到很高水平,卻沒有改變“記憶體在板上、計算在晶片裡”的基本格局。
三、HBM把路變短
HBM的動作其實並不神秘:把路縮短,把車道加寬。
2013年前後,HBM進入JEDEC標準化框架,JESD235系列標準化了這種高頻寬DRAM。2014年,AMD與SK hynix共同發佈並推動HBM,讓這條路線進入產業視野。它的關鍵不是讓單個引腳無限加速,而是用極寬介面和更短互連換頻寬。
簡單來說,可以把HBM理解為多層DRAM die通過TSV的垂直堆疊。TSV是穿過硅片的垂直通道,它讓不同DRAM層不再只靠外圍連線通訊。堆疊後的HBM再通過硅中介層或其他2.5D先進封裝方式,放到GPU、AI加速器或高性能處理器旁邊。
於是記憶體不再站在主機板邊緣,而是被推到計算核心旁。
四、資料搬運成主戰場
HBM真正變得重要,是因為AI和HPC把資料搬運推成了主戰場。
大模型訓練看起來是在做矩陣運算,實際是計算單元和記憶體系統之間的持續拉鋸。參數要讀,啟動值要存,中間結果要交換,最佳化器狀態還要更新。流體、氣候、材料、基因、工程模擬也類似,很多任務不缺一兩個計算單元,缺的是把資料及時送到計算單元面前的能力。
當GPU和AI加速器算力快速增長,記憶體跟不上,計算陣列就會空轉。晶片上有再多乘加單元,也要等資料到位。瓶頸從“能算多快”,轉向“能算多少”。
所以今天再看高端AI加速器,HBM已經不是邊緣組態,而是核心規格。NVIDIA H200把重點放在HBM3E帶來的更大容量和更高頻寬上,Blackwell一代的B200也繼續使用HBM3E;AMD MI300X同樣把HBM容量和頻寬作為核心賣點。與此同時,HBM4正在匯入和量產準備中,下一輪競爭仍然圍繞“怎麼把資料更近、更寬地送到計算核心旁邊”展開。記憶體位置,已經成了計算架構的一部分。
五、工程現實
HBM固然好用,其問題也同樣現實:貴,封裝複雜,良率壓力大,容量擴展也不像插DDR DIMM那樣自由。HBM和計算晶片往往繫結在同一個封裝體系裡,選擇它,意味著系統設計、供應鏈、熱管理和成本結構都要一起變。它適合在最靠近計算核心的地方提供高頻寬,卻不適合承擔所有容量需求。
所以今天的系統更像分層記憶體:近處用HBM喂飽GPU、AI加速器或HPC處理器;稍遠處用DDR提供大容量、低成本、通用可擴展的主記憶體;更遠處再通過SSD、網路儲存或CXL這類互連方式擴展資源池。“視訊記憶體不夠記憶體來湊”很多時候解決的是能不能跑,不是讓性能線性提升。
從DDR到GDDR,再到HBM,線索不是記憶體越來越高級,而是計算越來越受資料搬運約束。它是在資料流把系統逼到牆角後,距離、介面和封裝的一次結構調整。DDR仍在遠處承擔容量和通用性,HBM則站到近處,負責把資料盡快送進計算核心。 (蒙卡喬叔)
