從 DDR 到 HBM:AI 為什麼需要 3D 記憶體

設想,你讓 ChatGPT 給你寫一段程式碼,或者讓 Image-2 生成一張圖片,模型需要想幾秒鐘,這幾秒裡,GPU 在瘋狂計算,但很多時候瓶頸不只是算力,而是資料能不能及時喂給 GPU。

一、算得越來越快,但資料搬不過來

過去十年,GPU 的計算能力幾乎每兩年翻一倍。輝達從 2018 年的 V100 到 2023 年的 H100,AI 訓練性能提升了超過 10 倍。不過,記憶體的頻寬遠遠跟不上這個速度。

傳統記憶體(就是我們電腦裡插的那種 DDR 記憶體條)的頻寬,每三到四年才能翻一倍。這就造成了所謂的"記憶體牆"(Memory Wall)。打個比方你更容易理解,GPU 是一個能做滿漢全席的超級大廚,每分鐘能切一千道菜。但配菜員(記憶體)一次只能從倉庫搬一小筐菜過來,大廚大部分時間手裡沒活幹,在等菜。

一個兆參數等級的 AI 模型,"參數"就是模型學到的知識,如果按常見精度儲存,光是把參數讀一遍就是 1-2 TB 量級的資料。用一條 64-bit DDR5 通道來搬,每秒大約能搬 60 GB,搬完要等十幾秒。大廚想炒菜,配菜員還在路上。怎樣做一個堆滿食材的冰箱,大廚伸手就能拿到?HBM(High Bandwidth Memory,高頻寬記憶體)就是這個冰箱。

二、傳統記憶體的問題在那

要理解 HBM 為什麼強,先要知道傳統記憶體為什麼不行。電腦裡用的記憶體叫 DDR(Double Data Rate)。它的工作方式是:記憶體晶片放在主機板上,通過一條狹窄的通道和 CPU 或 GPU 通訊。這條通道叫記憶體匯流排,DDR5 通常是 64-bit 寬。想像一條只有單車道的小路。一次只能過一輛車,那怕你有再多車要過,也只能排隊。

顯示卡裡用的 GDDR(Graphics DDR)好一些。它把記憶體晶片焊在顯示卡上,離 GPU 更近,但它仍然是平鋪在電路板上的:晶片在平面上擺開,訊號要走很長的路,功耗很高。頻寬提升靠提高頻率來硬扛,代價是發熱越來越大。

無論 DDR 還是 GDDR,晶片只能在一個平面上排列,相互之間的連接要走很遠的距離,通道做不寬,訊號傳不快,功耗還高。

三、HBM 的思路:蓋樓

HBM 其實就是建高樓,這個思路來自一個叫"矽通孔"(TSV,Through Silicon Via)的技術。簡單說,就是在每層晶片上打一些微小的垂直孔洞,注入銅,打通上下導電的通道。這樣,多層晶片就可以像蓋樓一樣疊起來,每層之間靠這些垂直的"電梯"連接,而不是像傳統方案那樣在平面上繞遠路。

疊起來只是第一步,HBM 的第二個創新叫寬介面。傳統 DDR5 的資料通道是 64-bit 寬,HBM3E 的通道是 1024-bit 寬,HBM4 更是到了 2048-bit。如果說 DDR 是一條單車道,那 HBM 就是一條 16 車道甚至 32 車道的高速公路,車道多、車速快,總的吞吐量自然就上來了。

把 3D 堆疊和寬介面結合起來,HBM3E 單顆堆疊的頻寬可以達到 1.2 TB/s,是 DDR5 的十幾倍。同時因為距離短、訊號弱,功耗反而更低,這就是 HBM 解決"記憶體牆"的方法。

四、HBM 是怎麼造出來的

HBM 的生產大致分四步:

第一步,造 DRAM 晶圓。SK 海力士、三星和美光是全世界最頂級的 DRAM 製造商。它們用先進的工藝生產出高密度的 DRAM 晶片,每顆只有幾十微米厚,比頭髮絲還薄。

第二步,打孔填銅(TSV)。在每層晶片上蝕刻出幾十微米深的微小孔洞,注入金屬銅,形成垂直導電通道。這個工序對精度要求極高,因為要在這麼薄的晶片上打孔又不能弄碎它。

第三步,堆疊封裝。把 8 層、12 層甚至 16 層 DRAM 晶片疊在一起,層與層之間用焊料連接,再注入保護材料填充間隙並固化。SK 海力士用的是 MR-MUF 技術,一次性加熱連接所有層,散熱好、效率高。三星用的是 TC-NCF,一層一層堆,精度高但工藝複雜。這一步解決的是散熱和可靠性:疊起來的晶片發熱非常集中,處理不好就會燒掉。

第四步,和 GPU 封裝在一起。HBM 堆疊做完以後,還不是一個可以直接用的產品,它需要和 GPU 晶片通過先進封裝技術粘在一起。

五、先進封裝:把 HBM 和 GPU 粘在一起

HBM 的頻寬優勢,只有緊貼著 GPU 才能發揮。如果把它們分開放到電路板上,走線距離一長,頻寬就大打折扣,所以業界發明了一種叫"中介層"(Interposer)的東西。

目前最主流的方案是台積電的 CoWoS(Chip-on-Wafer-on-Substrate)。簡單說,就是在 GPU 晶片和 HBM 堆疊的下面鋪一塊矽中介層,上面刻滿密密麻麻的導線,把 GPU 和 HBM 高速連接起來。相當於在幾棟樓(GPU 和 HBM)底下澆築一整塊地基,地基裡埋好了管道把各棟樓連通。

英特爾有自己的方案叫 EMIB(Embedded Multi-die Interconnect Bridge)。它不在底下鋪整塊地基,而是在需要連接的地方嵌入小矽橋,成本更低、散熱更好、能支援更大的封裝面積。2026 年 5 月,據 ZDNet Korea 報導,SK 海力士正在測試英特爾的 EMIB 封裝,作為 CoWoS 之外的備份方案。

對於輝達這種頂級算力卡,和 HBM 封裝到一起之後的核心參數是:H100 用了 80 GB 的 HBM3 記憶體,頻寬 3.35 TB/s。這些 HBM 堆疊就貼在 GPU 旁邊,走線距離只有幾毫米,延遲和功耗都比板級連接低得多。

六、為什麼 HBM 這麼緊俏

前沿大模型的參數規模可能達到千億到兆等級。模型生成每個 token 時,都要反覆從 HBM 讀取大量權重和中間資料,再送進 GPU 計算單元。HBM 把原本可能拖到秒級的等待,壓縮到更適合即時互動的量級。

你問 ChatGPT 它現在能秒回你,不是因為它的演算法比幾年前好了一百倍,更重要的是底層硬體讓它能在一瞬間讀取和處理海量的資料。

這個道理放到 AI 訓練上更加明顯。訓練一個前沿大模型,需要在幾千顆 GPU 上平行跑幾個月,每顆 GPU 都在持續不斷地從 HBM 讀寫資料。沒有 HBM 這類高頻寬記憶體,訓練效率會大幅下降,成本和周期都會被拉長。 (鄭好腹的隨筆)