從 DDR 到 HBM：AI 為什麼需要 3D 記憶體

2026/05/15

•

設想，你讓 ChatGPT 給你寫一段程式碼，或者讓 Image-2 生成一張圖片，模型需要想幾秒鐘，這幾秒裡，GPU 在瘋狂計算，但很多時候瓶頸不只是算力，而是資料能不能及時喂給 GPU。

一、算得越來越快，但資料搬不過來

過去十年，GPU 的計算能力幾乎每兩年翻一倍。輝達從 2018 年的 V100 到 2023 年的 H100，AI 訓練性能提升了超過 10 倍。不過，記憶體的頻寬遠遠跟不上這個速度。

傳統記憶體（就是我們電腦裡插的那種 DDR 記憶體條）的頻寬，每三到四年才能翻一倍。這就造成了所謂的"記憶體牆"（Memory Wall）。打個比方你更容易理解，GPU 是一個能做滿漢全席的超級大廚，每分鐘能切一千道菜。但配菜員（記憶體）一次只能從倉庫搬一小筐菜過來，大廚大部分時間手裡沒活幹，在等菜。

一個兆參數等級的 AI 模型，"參數"就是模型學到的知識，如果按常見精度儲存，光是把參數讀一遍就是 1-2 TB 量級的資料。用一條 64-bit DDR5 通道來搬，每秒大約能搬 60 GB，搬完要等十幾秒。大廚想炒菜，配菜員還在路上。怎樣做一個堆滿食材的冰箱，大廚伸手就能拿到？HBM（High Bandwidth Memory，高頻寬記憶體）就是這個冰箱。

二、傳統記憶體的問題在那

要理解 HBM 為什麼強，先要知道傳統記憶體為什麼不行。電腦裡用的記憶體叫 DDR（Double Data Rate）。它的工作方式是：記憶體晶片放在主機板上，通過一條狹窄的通道和 CPU 或 GPU 通訊。這條通道叫記憶體匯流排，DDR5 通常是 64-bit 寬。想像一條只有單車道的小路。一次只能過一輛車，那怕你有再多車要過，也只能排隊。

顯示卡裡用的 GDDR（Graphics DDR）好一些。它把記憶體晶片焊在顯示卡上，離 GPU 更近，但它仍然是平鋪在電路板上的：晶片在平面上擺開，訊號要走很長的路，功耗很高。頻寬提升靠提高頻率來硬扛，代價是發熱越來越大。

無論 DDR 還是 GDDR，晶片只能在一個平面上排列，相互之間的連接要走很遠的距離，通道做不寬，訊號傳不快，功耗還高。

三、HBM 的思路：蓋樓

HBM 其實就是建高樓，這個思路來自一個叫"矽通孔"（TSV，Through Silicon Via）的技術。簡單說，就是在每層晶片上打一些微小的垂直孔洞，注入銅，打通上下導電的通道。這樣，多層晶片就可以像蓋樓一樣疊起來，每層之間靠這些垂直的"電梯"連接，而不是像傳統方案那樣在平面上繞遠路。

疊起來只是第一步，HBM 的第二個創新叫寬介面。傳統 DDR5 的資料通道是 64-bit 寬，HBM3E 的通道是 1024-bit 寬，HBM4 更是到了 2048-bit。如果說 DDR 是一條單車道，那 HBM 就是一條 16 車道甚至 32 車道的高速公路，車道多、車速快，總的吞吐量自然就上來了。

把 3D 堆疊和寬介面結合起來，HBM3E 單顆堆疊的頻寬可以達到 1.2 TB/s，是 DDR5 的十幾倍。同時因為距離短、訊號弱，功耗反而更低，這就是 HBM 解決"記憶體牆"的方法。

四、HBM 是怎麼造出來的

HBM 的生產大致分四步：

第一步，造 DRAM 晶圓。SK 海力士、三星和美光是全世界最頂級的 DRAM 製造商。它們用先進的工藝生產出高密度的 DRAM 晶片，每顆只有幾十微米厚，比頭髮絲還薄。

第二步，打孔填銅（TSV）。在每層晶片上蝕刻出幾十微米深的微小孔洞，注入金屬銅，形成垂直導電通道。這個工序對精度要求極高，因為要在這麼薄的晶片上打孔又不能弄碎它。

第三步，堆疊封裝。把 8 層、12 層甚至 16 層 DRAM 晶片疊在一起，層與層之間用焊料連接，再注入保護材料填充間隙並固化。SK 海力士用的是 MR-MUF 技術，一次性加熱連接所有層，散熱好、效率高。三星用的是 TC-NCF，一層一層堆，精度高但工藝複雜。這一步解決的是散熱和可靠性：疊起來的晶片發熱非常集中，處理不好就會燒掉。

第四步，和 GPU 封裝在一起。HBM 堆疊做完以後，還不是一個可以直接用的產品，它需要和 GPU 晶片通過先進封裝技術粘在一起。

五、先進封裝：把 HBM 和 GPU 粘在一起

HBM 的頻寬優勢，只有緊貼著 GPU 才能發揮。如果把它們分開放到電路板上，走線距離一長，頻寬就大打折扣，所以業界發明了一種叫"中介層"（Interposer）的東西。

目前最主流的方案是台積電的 CoWoS（Chip-on-Wafer-on-Substrate）。簡單說，就是在 GPU 晶片和 HBM 堆疊的下面鋪一塊矽中介層，上面刻滿密密麻麻的導線，把 GPU 和 HBM 高速連接起來。相當於在幾棟樓（GPU 和 HBM）底下澆築一整塊地基，地基裡埋好了管道把各棟樓連通。

英特爾有自己的方案叫 EMIB（Embedded Multi-die Interconnect Bridge）。它不在底下鋪整塊地基，而是在需要連接的地方嵌入小矽橋，成本更低、散熱更好、能支援更大的封裝面積。2026 年 5 月，據 ZDNet Korea 報導，SK 海力士正在測試英特爾的 EMIB 封裝，作為 CoWoS 之外的備份方案。

對於輝達這種頂級算力卡，和 HBM 封裝到一起之後的核心參數是：H100 用了 80 GB 的 HBM3 記憶體，頻寬 3.35 TB/s。這些 HBM 堆疊就貼在 GPU 旁邊，走線距離只有幾毫米，延遲和功耗都比板級連接低得多。

六、為什麼 HBM 這麼緊俏

前沿大模型的參數規模可能達到千億到兆等級。模型生成每個 token 時，都要反覆從 HBM 讀取大量權重和中間資料，再送進 GPU 計算單元。HBM 把原本可能拖到秒級的等待，壓縮到更適合即時互動的量級。

你問 ChatGPT 它現在能秒回你，不是因為它的演算法比幾年前好了一百倍，更重要的是底層硬體讓它能在一瞬間讀取和處理海量的資料。

這個道理放到 AI 訓練上更加明顯。訓練一個前沿大模型，需要在幾千顆 GPU 上平行跑幾個月，每顆 GPU 都在持續不斷地從 HBM 讀寫資料。沒有 HBM 這類高頻寬記憶體，訓練效率會大幅下降，成本和周期都會被拉長。 (鄭好腹的隨筆)

科技