過去一年多,生成式人工智慧(AI)應用的爆炸性成長刺激了對人工智慧伺服器的需求,以及對人工智慧處理器的需求激增。這些處理器中的大多數(包括AMD 和Nvidia 的計算GPU、Intel 的Gaudi 或AWS 的Inferentia 和Trainium 等專用處理器以及FPGA)都使用高頻寬內存(HBM),因為它提供了當今可能的最高內存頻寬。
因此,根據TrendForce 的說法,記憶體製造商美光、三星和SK 海力士在2023 年將HBM 產量提高以後,並在2024 年進一步提高,例如三星就在最近宣布了擴產計劃。
這些承諾將成為業界的挑戰。
雖然HBM很不錯,但有很多AI 處理器,特別是那些設計用於運行推理工作負載的處理利用GDDR6/GDDR6X 甚至LPDDR5/LPDDR5X 。
此外,還可以給運行AI 工作負載(針對特定指令進行優化)的通用CPU 準備使用商用內存,這就是為什麼在未來幾年我們將看到MCRDIMM 和MRDIMM 內存模組將顯著提高容量和頻寬達到新的水平。
但我們必須強調的是,HBM 仍將保持頻寬王者地位。
HBM:不惜一切為頻寬
考慮到現代類型記憶體的效能規格和功能,HBM 在頻寬需求大的應用程式中如此受歡迎的原因顯而易見。每個堆疊的速度約為1.2 TB/s,任何傳統記憶體都無法在頻寬方面擊敗HBM3E。但這種頻寬是有代價的,並且在容量和成本方面存在一些限制。
人工智慧工程聯盟MLCommons的執行董事David Kanter 表示:「HBM 不僅具有優越的頻寬,而且還具有功耗,因為距離很短。」 「主要弱點是它需要先進的封裝,目前限制了供應並增加了成本。「但HBM 幾乎肯定會永遠佔有一席之地。 」
HBM 的這些特性使得DDR、GDDR 和LPDDR 類型的記憶體也用於許多需要頻寬的應用,包括AI、HPC、圖形和工作站。美光錶示,這些容量優化和頻寬優化類型記憶體的開發正在迅速進行,因此人工智慧硬體開發人員對它們有明確的需求。
美光運算和網路業務部高級經理Krishna Yalamanchi 表示:「HBM 是一項非常有前景的技術,其市場未來成長潛力巨大。」 「目前應用主要集中在人工智慧、高效能運算等需要高頻寬、高密度、低功耗的領域。隨著越來越多的處理器和平台採用它,該市場預計將快速增長。”
有分析師指出,自2012 年以來,訓練模型以每年10 倍的速度成長,而且看起來[成長]並沒有放緩。 」
特別有趣的是,那些需要HBM 的公司往往會在一夜之間採用該標準的最新版本。
為此Gartner預測,高頻寬記憶體的需求預計將從2022 年的1.23 億GB 激增至2027 年的9.72 億GB,這意味著HBM 位元需求預計將從2022 年佔DRAM 整體的0.5% 增加到2027 年的1.6%這一激增歸因於標準AI 和生成AI 應用中對HBM 的需求不斷升級。
Gartner分析師認為,HBM營收將從2022年的11億美元增加至2027年的52億美元,而HBM價格相對2022年的水準將下降40%。 Gartner指出,由於技術進步和記憶體製造商的承諾不斷增加,HBM 堆疊的密度也將增加,從2022 年的16 GB 增加到2027 年的48 GB。同時,美光似乎更樂觀,預計在2026 年左右推出64 GB HBMNext (HBM4) 堆疊。 HBM3 和HBM4 規範允許建造16-Hi 堆棧,因此可以使用16 個32-Gb 裝置建立64 GB HBM 模組,但這將要求記憶體製造商縮短記憶體IC 之間的距離,其中包括使用新的生產技術。
鑑於Nvidia 佔據了計算GPU 市場的最大份額,該公司很可能成為業界最大的HBM 記憶體消費者,而這種情況將持續一段時間。
但我們也不得不承認,HBM難度極高。
HBM:太貴了,太難了
生產HBM 已知良好堆疊晶片(KGSD) 根本上比生產傳統DRAM 晶片更為複雜。首先,用於HBM 的DRAM 裝置與用於商用記憶體(例如DDR4、DDR5)的典型DRAM IC 完全不同。記憶體製造商必須製造8 或12 個DRAM 設備,對其進行測試,然後將它們封裝在預先測試的高速邏輯層之上,然後測試整個封裝。這個過程既昂貴又漫長。
「HBM 堆疊基於3D 堆疊DRAM 架構,該架構使用矽通孔(TSV) 垂直連接多個晶片,這與商用DRAM 根本不同,」Yalamanchi 說。 「這款具有TSV 的堆疊架構可實現非常寬的記憶體介面(1024 位元)、高達36 GB 的記憶體容量,並可實現超過1 TB/s 的高頻寬操作。DRAM 儲存體和資料架構從根本上進行了重新設計,以支援此類並行寬介面。”
這些並不是一個可怕的成本增加因素,這些工具和方法是根據3D NAND 建立的,您可以透過矽通孔進行連接,所需要做的就是移植現有的TSV 方法(來自3D NAND),」DataSecure 首席技術長兼Boolean Labs 技術長兼首席科學家Michael Schuette說。
但用於HBM 的DRAM 設備必須具有寬接口,因此它們的物理尺寸更大,因此比常規DRAM IC 更昂貴。這也是為什麼美光執行長Sanjay Mehrotra 認為,為滿足人工智慧伺服器的需求而增加HBM 記憶體產量將影響所有DRAM 類型的位元供應。
Mehrotra 在早期的電話會議上表示:「高頻寬記憶體(HBM) 生產將成為產業位供應成長的阻力。」「HBM3E 晶片的尺寸大約是同等容量DDR5 的兩倍。HBM 產品包括邏輯介面晶片,並且具有更複雜的封裝堆疊,這會影響良率。因此,HBM3 和3E 需求將吸收行業晶圓供應的很大一部分。HBM3 和3E 產量的增加將降低全行業DRAM 位元供應的整體成長,尤其是對非HBM 產品的供應影響,因為更多產能將被轉移到解決HBM 機會上。美光Mehrotra 在最近的電話會議上表示:「高頻寬記憶體(HBM) 生產將成為產業位供應成長的阻力。 ” “HBM3E 晶片的尺寸大約是同等容量DDR5 的兩倍。 HBM 產品包括邏輯介面晶片,並且具有更複雜的封裝堆疊,這會影響良率。因此,HBM3 和3E 需求將吸收產業晶圓供應的很大一部分。 HBM3 和3E 產量的增加將降低全產業DRAM 位供應的整體成長,尤其是對非HBM 產品的供應影響,因為將有更多產能轉移到解決HBM 機會上。 」
HBM3E 本質上是具有顯著減速的HBM3,因此雖然DRAM 製造商必須確保良好的良率,然後調整其生產方法以更有效地構建8-Hi 24 GB 和12-Hi 36 GB HBM3E KGSD,但新型內存將不代表HBM 生產的重大轉變。相比之下,它的繼任者將會。計畫的HBM3E 產能提升對我們的位供應能力也產生了類似的影響。 」
HBM3E 本質上是具有顯著減速的HBM3,因此雖然DRAM 製造商必須確保良好的產量,然後調整其生產方法以更有效地構建8-Hi 24 GB 和12-Hi 36 GB HBM3E KGSD,但新型內存將並不代表HBM 生產的重大轉變。相比之下,它的繼任者將會。
HBM4 將記憶體堆疊介面擴展至2048 位,這將是自八年前推出此記憶體類型以來HBM 規範最重大的變化之一。對於記憶體製造商、SoC 開發商、代工廠以及外包組裝和測試(OSAT) 公司而言,將I/O 引腳數量增加兩倍,同時保持相似的實體佔用空間,極具挑戰性。三星表示,HBM4 需要從目前用於HBM 的微凸塊鍵合(這已經很困難且昂貴)過渡到直接銅對銅鍵合,這是一種用於集成的最先進技術未來幾年的多晶片設計。
「如果我看看[即將推出的HBM4 規範] 和2048 位元寬接口,這將使引腳數達到約5500 個引腳,這與大多數伺服器CPU 或GPU [就引腳數而言] 處於同一水平,」Schuette說。 「如果您嘗試在小封裝設計中佈線,最終會得到20 層重新分佈層/中介層之類的東西,如果您選擇更大的封裝、更少的層數,最終會超過允許的最大走線長度」。
SK 海力士甚至設想HBM4 必須以3D 方式整合在系統單晶片上才能實現最大效率,但這將進一步增加成本。
「在接下來的幾年中,我認為我們可能會透過更緊密的整合(例如3D 堆疊)來獲得卓越的性能和效率,但這可能會更加昂貴,」Kanter說。
Schuette 認為,由於HBM4 的引腳數極高,使用具有插入器和重新分配層的傳統方法將具有2048 位元介面的HBM4 堆疊連接到主機處理器可能非常困難。
「最微小的扭曲就會導致連接不良,」Schuette 解釋道。 「如果它只是一個接地引腳,你可能不會注意到,但如果它是一個訊號引腳,你就完蛋了。
但3D 封裝技術將需要更複雜的設備,因此很可能至少在最初只有代工廠自己會在2025 年至2026 年的某個時候提供HBM4 整合。
據報道,為了不斷縮小DRAM 單元尺寸並控制記憶體功耗,三星打算在HBM4 中使用FinFET 電晶體。 FinFET 的結合預計將優化即將推出的HBM 裝置的性能、功耗和麵積縮放。然而,該技術對成本的影響仍不確定。此外,三星何時在標準DRAM IC 中採用FinFET 的時間表尚未確定。目前,三星僅確認FinFET 將用於HBM4。
Salvador 表示:“成本問題仍然存在,HBM4 的實施問題可能會延長HBM3/HBM3E 的使用壽命,特別是在成本更加敏感的地方。”
Yalamanchi 表示:“人們想要採用最快版本的HBM 並不是一個準確的假設,因為許多因素都會影響記憶體技術的選擇,例如成本、供應限制、平台準備和性能要求。”
由於架構和封裝成本根本不同,HBM 仍將是一種昂貴的記憶體類型,服務於不斷增長的利基市場。 Michael Schuette 部分同意這一觀點。他認為,雖然HBM 很好地服務於其目標市場,但它很難滿足更廣泛的市場需求。
「HBM 似乎仍然是一種利基產品,並且很可能仍然是一種產品,」Schuette 說。
HBM 能否在成本上與商品或專業記憶體競爭?
「我不想說永遠不會,因為那是一段很長的時間,」Kanter說。 「但HBM 要想具有成本競爭力,就需要大幅降低封裝成本和/或顯著增加GDDR 成本。或者可能是根本性的技術轉變——例如,如果GDDR 從高速銅訊號轉為光纖訊號。但我不確定那時是否會是GDDR。”
LPDDR:低功耗選項
雖然HBM 在性能方面無與倫比,但對於許多應用來說價格昂貴且耗電,因此開發人員選擇將LPDDR5X 用於其頻寬要求較高的應用,因為這種類型的內存為他們提供了價格、性能和功耗之間的適當平衡。
例如,蘋果多年來一直在其PC 中使用LPDDR 內存,然後才成為一種趨勢。到目前為止,該公司已經很好地完善了基於LPDDR5 的記憶體子系統,其性能是競爭解決方案無法比擬的。 Apple 的高階桌上型電腦— 由M2 Ultra SoC 提供支援的Mac Studio 和Mac Pro — 使用兩個512 位元記憶體介面可擁有高達800 GB/s 的頻寬。結合實際情況來看:AMD 最新的Ryzen Threadripper Pro 配備12 頻道DDR5-4800 記憶體子系統,尖峰頻寬可達460.8 GB/s。
像蘋果一樣,在其整個設備系列中使用LPDDR5 有一些額外的好處,例如LPDDR5 控制器IP 和PHY 在不同的SoC 中重複使用,以及大量採購此類內存,這為談判提供了更好的籌碼。蘋果當然不是唯一將LPDDR 記憶體用於高頻寬處理器的公司。 Tenstorrent 將這種記憶體用於其Grayskull AI 處理器。
「如今,它們似乎服務於不同的利基市場,並且存在差異化的廣泛趨勢,」Kanter說。 「HBM 更面向資料中心,LPDDR 更面向邊緣。話雖如此,絕對有人針對類似的市場使用不同的記憶體類型。以資料中心為例——有些設計使用HBM,有些設計使用GDDR,有些設計使用常規DDR ,有些設計使用LPDDR。”
LPDDR 記憶體晶片的顯著優勢之一是其相對廣泛的介面和相當快的運行速度。典型的LPDDR5 和LPDDR5X/LPDDR6T IC 具有32 或64 位元接口,支援高達9.6 GT/s 的資料傳輸速率,這比大量生產的DDR5 資料速率(8 或16 位元、截至2023 年10 月,速度高達7.2 GT /s)更好。此外,行動記憶體自然比客戶端PC 和伺服器的主流DDR 記憶體消耗更少的功率。
對於Tenstorrent 開發的應用程式來說,記憶體頻寬至關重要,但功耗也至關重要,這就是為什麼如今LPDDR 的使用範圍遠遠超出了智慧型手機和客戶端PC。
GDDR:價格與性能之間的平衡
Tenstorrent 為我們帶來了另一種類型的內存,該公司將在即將推出的Wormhole 和Blackhole AI 處理器中使用這種內存。同時,Nvidia 將GDDR6 和GDDR6X 用於各種用於AI 推理的GPU。
「GDDR 記憶體用於人工智慧和其他應用,對於人工智慧推理應用來說是一個不錯的選擇,因為GDDR 仍然提供比DDR 更高的頻寬和更低的延遲,」Yalamanchi 說。 「與HBM 相比,GDDR 的成本更低,複雜性也更低。例如,GDDR6可以在Nvidia用於人工智慧推理的Tesla T4 GPU以及用於人工智慧推理和圖形應用的L40S中找到。”
GDDR6 通常比LPDDR 消耗更多功率,且現代GDDR6/GDDR6X 晶片配備32 位元介面(即比某些LPDDR5X 更窄),但GDDR6/GDDR6X/GDDR7 記憶體的運作速度要快得多。
事實上,GDDR7 有望以高達36 GT/s 的速度運行,並且在如此高的資料速率下,基於它的記憶體子系統將比採用LPDDR5X 的記憶體子系統快得多,特別是要記住,我們正在談論潛在的寬記憶體接口,例如384 或512 位元。即使在32 GT/s 資料傳輸速率下,384 位元LPDDR7 記憶體子系統也可提供1,536 TB/s 峰值頻寬,遠高於512 位元LPDDR5X-9600 記憶體子系統(614.4 GB/s)。然而,我們可以猜測,LPDDR7 記憶體子系統也將比使用LPDDR5X 的記憶體子系統更加耗電,但考慮到其性能,我們認為這是一個公平的權衡。
MCR-DIMM 和MR-DIMM
如果沒有MCR-DIMM 和MR-DIMM,關於高效能記憶體解決方案的故事就不完整,它們是主要為伺服器設計的新型雙列DDR5 記憶體模組,目前正在開發中。這些技術背後的理念是,在每個CPU 的核心數量不斷增加的情況下,進一步提高記憶體模組的效率,並將其峰值頻寬提高到超過DDR5 支援的速度。
從較高層次來說,多工器組合列DIMM (MCR-DIMM) 是配備多工器緩衝區的雙列緩衝記憶體模組。此緩衝區可以同時從兩個佇列檢索128 位元組的數據,並且它設計為以約8800 MT/s 的高速與記憶體控制器配合使用(基於最近發布的美光路線圖),即400 MT/s高於原始DDR5 規範規定的最大資料速率。這些模組旨在增強性能,同時簡化大容量雙列模組的構造。 MCR-DIMM 得到了英特爾和SK Hynix 的支持,並將獲得英特爾第六代至強可擴展“Granite Rapids”平台的支持,而美光計劃於2025 年初推出MCR-DIMM。
多列緩衝DIMM (MR DIMM) 在概念上非常相似:它們是具有多路復用器緩衝區的雙列模組,可同時與兩個列交互,並以超出DDR5 指定速度的速度與內存控制器一起運行。該標準的第一代速度為8,800 MT/s,第二代為12,800 MT/s,第三代最終達到17,600 MT/s。該技術得到JEDEC、AMD、Google 和Microsoft 的支援。美光計畫於2026 年開始出貨速度為12,800 MT/s 的MR-DIMM。此類模組將提供巨大的頻寬和容量,這是由於資料中心CPU 內的核心數量不斷增加以及對頻寬的需求而需要的。
「如果不採用新的形式來實現分類內存,那將是愚蠢的,」Schuette 說。 “伺服器要求與客戶端不同,伺服器上始終需要ECC,而客戶端PC 上則不需要。”
奇異和混合記憶體子系統
雖然使用特定類型的記憶體可能是晶片和系統開發人員最明顯的做法,但也有人選擇使用不同類型記憶體的混合記憶體子系統。
例如,英特爾的Xeon Max CPU 搭載64 GB 封裝HBM2e,並支援高達6 TB 的六通道DDR5 內存,每個插槽最多使用16 個DIMM。這些CPU 主要針對高效能運算(HPC) 環境,可在HBM Only 模式、HBM Flat 模式(提供快速和慢速記憶體層)和HBM Caching 模式下運作。
另一個例子是D-Matrix 的AI 處理器,內部配備256 MB SRAM(150 TB/s),並支援高達32 GB 的LPDDR5 內存,但頻寬相當有限。這些晶片主要用於推理,其架構是針對此類工作負載量身定制的。
「一般來說,快取或片上SRAM 可以減少一些外部頻寬需求,」Kanter說。 「因此,作為推斷,如果我們可以接受小於100MB 的神經網絡,[緩存會有所幫助]。同樣,我們可以將內存集成得更緊密,以減少封裝外帶寬。但真正大型培訓系統的許多前沿工作,例如訓練下一代LLM,總是需要更多頻寬。”
雖然歷史上由不同類型內存組成的混合和奇異內存子系統已被廣泛使用,例如用於Xbox 360 遊戲機的ATI 的Xenos GPU 以及基於eDRAM 的“子芯片”或英特爾的Xeon Phi 7200-對於同時使用MCDRAM 和DDR4 記憶體的系列協處理器,Schuette 認為此類記憶體子系統效率不高。
「我的觀點是,你會得到兩全其美的結果,」他說。 「設計開銷巨大,複雜性很高,我甚至不想進行故障排除。
另一方面,根據定義,所有具有CPU 和加速器的系統都使用混合記憶體子系統,並且它們已被證明非常有效率。
「如今許多人工智慧系統都是混合系統,」Kanter說。 “例如,許多訓練系統傾向於使用HBM 作為加速器,但使用DDR 作為主機處理器,而主機處理器實際上在這裡做實際工作。資料中心推理系統也類似。”
綜上所述,HBM雖然很好,但一統不了江湖。(半導體產業觀察)