深度剖析DRAM的過去、現在和未來



DRAM 的往昔、當下與未來。


全世界越來越多地質疑摩爾定律的消亡,但悲劇的是,它早在十多年前就已經消亡,沒有引起任何轟動或引起任何關注。人們通常關注的是邏輯器件,但摩爾定律也一直適用於 DRAM。


原始縮放定律。來源:1965 年《整合電子學的未來》 - 戈登·摩爾

DRAM 不再可擴展。在輝煌時期,記憶體位密度每 18 個月翻一番,甚至超過邏輯。這意味著每十年密度增加 100 多倍。但在過去的十年裡,擴展速度已經大大放緩,密度僅增加了 2 倍。


來源:SemiAnalysis


如今,隨著人工智慧的爆發式發展,行業平衡被進一步打破。雖然隨著時間的推移,邏輯晶片的密度和每電晶體功能成本都有了顯著改善,但 DRAM 速度的提升卻十分緩慢。儘管存在大量 FUD,但台積電 3nm 和 2nm 節點的每電晶體成本仍在下降。而對於記憶體而言,頻寬的增加是由昂貴的封裝推動的。


來源:Nvidia、SemiAnalysis


高頻寬記憶體(HBM)乃是加速器記憶體的中流砥柱,其每 GB 的成本是標準 DDR5 的三倍甚至更多。客戶雖心有不甘,卻也只能被迫接受,只因若想打造具有競爭力的加速器套件,他們幾乎別無選擇。這種平衡並不穩固 —— 未來的 HBM 世代將持續變得更為複雜,層數也會更高。隨著模型權重本身趨近多 TB 等級,人工智慧對記憶體的需求正急劇增長。就 H100 而言,製造成本的 50% 以上歸因於 HBM,而對於 Blackwell,這一比例更是增長至約 60% 以上。

換言之,DRAM 行業已然陷入困境。計算方面的改進雖在放緩,但仍遠超記憶體。那麼,DRAM 的創新步伐怎樣才能重新加快呢?未來又有那些創新可用於改善頻寬、容量、成本和功耗呢?

存在諸多可能的解決方案。鑑於人工智慧的資本支出高達數千億美元,業界擁有強大的動力去推動這些解決方案的發展。

首先介紹 DRAM 的背景與歷史,接著闡述構成現代 “記憶體牆” 的每個問題以及可能的解決方案。我們將探討相對簡單的短期構想,例如擴展 HBM 路線圖,以及更為複雜的長期選擇,如記憶體計算(CIM)、鐵電 RAM(FeRAM)或磁性 RAM(MRAM)等新型記憶體類型,還有即將面世的 4F² DRAM 和 3D DRAM。


DRAM入門:工作記憶體

電腦中運用多種不同類型的記憶體。其中最快的當屬 SRAM(靜態隨機存取儲存器),它與邏輯處理技術相相容,位於 CPU 或 GPU 之上。由於 SRAM 處於邏輯晶片之上,所以它也是最為昂貴的記憶體類型 —— 每字節的價格比動態隨機存取儲存器(DRAM)高出 100 倍以上,因此其使用量極為有限。與之相反的類型包括非易失性的 NAND 固態驅動器、硬碟驅動器以及磁帶。這些記憶體雖然價格低廉,但對於許多工而言速度過慢。DRAM 則處於 SRAM 和快閃記憶體之間的 “黃金區域”—— 速度足夠快,價格也足夠便宜。


記憶層次結構。來源:Enfabrica


DRAM 可佔據非 AI 伺服器系統成本的一半之多。然而,在過去的十年間,它在所有主要邏輯和記憶體類型中擴展速度最為緩慢。16Gb 的 DRAM 晶片在八年前首次大量投放市場,但時至今日,它仍然是最為常見的類型;這些晶片在推出之時,每 GB 的成本約為 3 美元,最高曾達到近 5 美元,隨後在過去的 12 個月內又回落到 3 美元左右。其速度提升稍顯緩慢,而功率方面則取得了最大程度的改善,這主要得益於 LPDDR 的興起,這是一種採用更短、更高效線路的封裝變化,但這裡的提升門檻很低。DRAM 擴展缺乏進展,已然成為阻礙計算性能提升的瓶頸以及經濟上的制約因素。


DRAM 入門:基本架構

DRAM 的原理十分簡單。它由以網格形式排列的儲存單元陣列構成,每個儲存單元可儲存一位資訊。所有現代的 DRAM 均採用 1T1C 單元,也就是 1 個電晶體和 1 個電容器。電晶體負責控制對單元的訪問,電容器則以小電荷的形式儲存資訊。


基本 DRAM 電路:儲存單元陣列,每行通過一條字線連接,每列通過一條位線連接。啟動 1 條字線和 1 條位線可讀取或寫入它們相交處的單元


字線(WL)連接著一行中的所有單元;它們對每個單元的訪問電晶體進行控制。位線(BL)連接著一列中的所有單元;它們與訪問電晶體的源極相連接。當一條字線通電時,該行中所有單元的訪問電晶體都會開啟,並允許電流從位線流入單元(在寫入單元時)或者從單元流向位線(在讀取單元時)。一次只有一條字線和一條位線處於活動狀態,這就意味著只有活動字線和位線相交處的一個單元會被寫入或者讀取。

DRAM 是一種易失性儲存器技術:儲存電容器會洩漏電荷,因此需要頻繁進行刷新(大約每 32 毫秒一次),以維持儲存的資料。每次刷新都會讀取單元的內容,將位線上的電壓提升至理想水平,並讓刷新後的值流回電容器。刷新完全在 DRAM 晶片內部進行,沒有資料流入或流出晶片。這雖最大限度地減少了浪費的電量,但刷新仍會佔據 DRAM 總功耗的 10% 以上。

電容器與電晶體極為相似,已縮小至納米級寬度,不過其縱橫比也非常大,大約 1000 納米高,而直徑卻只有數十納米 —— 縱橫比接近 100:1,電容約為 6 - 7 飛法拉(fF)。每個電容器儲存的電荷極少,新寫入時約有 40000 個電子。

單元必須通過位線將電子輸入和輸出,然而施加到位線上的電壓會被連接在同一位線上的所有其他單元稀釋。總位線電容可能總計超過 30fF—— 稀釋度為 5 倍。位線也非常細,這會減慢電子的速度。最後,如果單元最近沒有刷新,那麼可能已大量耗電,因此只能輸送一小部分電荷。

所有這些因素都意味著,放電單元以讀取其值會產生極為微弱的訊號,必須將其放大。為此,感測放大器(SA)連接到每個位線的末端,以檢測從儲存單元讀取的極小電荷,並將訊號放大到有用的強度。隨後,這些較強的訊號可以在系統的其他地方被讀取為二進制的 1 或 0。

感測放大器具有巧妙的電路設計:它將活動位線與未使用的匹配鄰居進行比較,首先將兩條線的電壓設定為相似。活動位線上的電壓將與非活動鄰居進行比較,使感測放大器失去平衡,並使其將差值放大回活動位線,既放大了訊號,又將新的全值(高或低)驅動回仍與位線保持開放的單元。這可謂是一石二鳥:單元同時被讀取和刷新。

在讀取 / 刷新活動單元後,該值可以從晶片中複製出來,也可以通過寫入操作進行覆蓋。寫入操作會忽略刷新後的值,並使用更強的訊號強制位線匹配新值。讀取或寫入完成後,字線將被停用,從而關閉訪問電晶體,進而捕獲儲存電容器中的任何駐留電荷。


DRAM 入門:歷史(DRAM 仍在擴展時)

現代 DRAM 由兩項獨立而互補的發明實現:1T1C 儲存單元和感測放大器。

1T1C 單元由 IBM 的 Robert Dennard 博士於 1967 年發明,他也因同名的 MOS 電晶體縮放定律而聞名。DRAM 和縮放都基於 MOS 電晶體(金屬氧化物硅,電晶體柵極中的層)。


Dennard 的 1T1C 儲存單元架構原始專利。來源:美國專利 3,387,286


儘管發明了 1T1C(1 個電晶體和 1 個電容器)儲存單元結構,但英特爾在 1973 年推出的早期 DRAM 每個單元卻使用了 3 個電晶體,其中間電晶體的柵極充當儲存電容器。這是一個 “增益單元”,中間和最後一個電晶體能夠提供增益,以放大中間柵極上極其微小的電荷,使得單元能夠輕鬆讀取而不會干擾儲存的值。

從理論上來說,1T1C 電池更為優越:器件更少、連接更簡單、體積更小。那為何沒有立即被採用呢?原因在於讀取這種電池在當時還不具有實用性。

在發明之時,1T1C 單元的電容很小,無法正常運行。因此,需要第二個關鍵發明:感測放大器。

第一個現代感測放大器由西門子的卡爾・斯坦於 1971 年開發出來,並在加利福尼亞的一次會議上進行了展示,但完全被忽視了。在當時,1T1C 架構尚未被廣泛採用,西門子也不清楚該如何利用這項發明。斯坦被調往另一個職位,在那裡他擁有了與 DRAM 無關的成功職業生涯。


卡爾·斯坦的原始感測放大器專利。來源:美國專利 3,774,176


這種設計與位線間距完美匹配,並且能夠縮小尺寸以跟緊單元尺寸。感測放大器在不使用時完全斷電,如此一來,就可以在晶片上安裝數百萬個感測放大器而不會消耗電量。這著實是一個小奇蹟。

感測放大器的時代花了五年多的時間才姍姍來遲。Mostek 的 Robert Proebsting 獨立地(重新)發現了這一概念,到了 1977 年,他們採用 1T1C + SA 架構的 16kb DRAM 成為了市場領導者。這一成功模式一直延續下來 —— 近 50 年後,DRAM 的架構基本保持不變。


DRAM 入門:當 DRAM 停止擴展時

在 20 世紀,摩爾定律和登納德縮放定律統治了半導體行業。在巔峰時期,DRAM 密度的增長速度超越了邏輯。每 18 個月,DRAM 晶片的容量就會翻一番,推動了日本晶圓廠的崛起(1981 年,其市場份額首次超過美國,1987 年達到約 80% 的峰值),以及後來的韓國公司(其市場份額在 1998 年超過日本)。相對簡單的工藝使得晶圓廠能夠快速更替,為擁有資金建設下一代晶圓廠的新進入者創造了機會。


在 DRAM 規模不斷縮小的“黃金時代”,每位元價格在 20 年內下降了 3 個數量級。來源:Lee, KH,《2000 年後 DRAM 行業戰略分析》


這種速度無法長期持續下去,到了 20 世紀末至 21 世紀,邏輯的發展速度已經大大超越了記憶體擴展的速度。最近,邏輯擴展的速度已經放緩至每兩年密度提高 30% - 40%。但與 DRAM 相比,這仍然較為可觀,因為 DRAM 的速度比其峰值時期慢了大約一個數量級,現在需要十年時間才能將密度提高兩倍。


“這次不一樣”:記憶體周期已經成為行業的一部分 50 年了。來源:Lee, KH,《2000 年後 DRAM 行業的戰略分析》


這種規模擴張的放緩對 DRAM 的定價動態產生了連鎖反應。雖然記憶體傳統上是一個周期性行業,但密度擴張緩慢意味著在供應有限的情況下,成本降低的幅度要小得多,無法緩解價格上漲。增加 DRAM 供應的唯一方法是建造新的晶圓廠。價格的大幅波動和高額的資本支出意味著只有最大的公司才能生存:在 20 世紀 90 年代中期,有 20 多家製造商生產 DRAM,前 10 名製造商佔據了 80% 的市場份額。現在,前三大供應商佔據了 95% 以上的市場份額。

由於 DRAM 已經商品化,供應商本質上更容易受到價格波動的影響(與邏輯或模擬產品相反),並且必須在市場低迷時主要依靠其產品的原始價格進行競爭。邏輯產品只有在成本增加的情況下才能維持摩爾定律,而 DRAM 則沒有這種奢侈。DRAM 的成本很容易衡量,單位為美元 / GB。相對於早期,過去十年的價格下降緩慢 —— 在十年內僅下降一個數量級,而在過去只需要一半的時間。DRAM 特有的峰值和谷值行為也非常明顯。


DRAM 密度擴展速度每十年減慢 2 倍,而價格則受周期性影響。來源:DRAMExchange、SemiAnalysis


自進入 10 納米節點以來,DRAM 的位密度一直停滯不前。即使在三星的 1z 和 SK 海力士的 1a 節點中新增了極紫外光(EUV)技術,密度也沒有顯著提高。其中兩個顯著的挑戰來自電容器和感測放大器。

電容器的製作難度極大。首先,其圖案化要求非常高,因為孔必須緊密排列,且具有極為良好的臨界尺寸(CD)和覆蓋控制,以便接觸下方的訪問電晶體並避免出現橋接或其他缺陷。電容器的縱橫比極高,蝕刻出又直又窄的孔輪廓極為困難。此外,還需要更厚的硬掩模來實現更深的蝕刻,因為更厚的掩模需要更厚的光刻膠,而光刻膠更難進行圖案化。

接下來,必須在整個孔輪廓的壁上沉積幾納米厚的多個無缺陷層,以形成電容器。幾乎每一步都在考驗著現代加工技術的極限。


DRAM 儲存電容器需要在 100:1 縱橫比的孔中形成許多精緻的層(不按比例 - 實際電容器可能比圖中高 10 倍)。來源:應用材料


感測放大器與邏輯互連類似。它們曾經是事後才被考慮的因素,但現在其難度與 “主要” 功能(邏輯電晶體和儲存單元)相當,甚至更大。它們受到多方面的擠壓。必須進行面積縮放以匹配位線的縮小,感測放大器變得更不敏感,並且隨著尺寸變小而更容易出現變化和洩漏。同時,較小的電容器儲存的電荷較少,因此讀取它們的感測要求變得更加困難。

還有其他挑戰,結果是使用傳統方法以經濟的方式擴展 DRAM 變得越來越困難。新想法的大門已經打開 —— 讓我們來探索其中的一些……


短期縮放:4F² 和垂直通道電晶體

短期內,DRAM 的規模將繼續沿著其傳統路線圖發展。更大、更根本的架構變革將需要數年時間才能開發和實施。與此同時,該行業必須滿足對更高性能的需求,即使只是進行微小的改進。

短期路線圖中有兩項創新:4F² 單元佈局和垂直通道電晶體(VCT)。


三星 DRAM 路線圖。來源:SemiEngineering最初發佈的 Samsung Memcon 2024


請注意,包括三星在內的一些公司在其路線圖中將垂直通道電晶體(VCT)置於 “3D” 的旗幟之下。雖然從技術層面上講這是正確的,但這多少有些誤導,因為 VCT 與通常所說的 “3D DRAM” 並不相同。


標準的 6F² 佈局與採用垂直通道電晶體的 4F² 佈局對比鮮明。來源:CXMT IEDM 2023。


4F² 以最小特徵尺寸 F 來描述儲存單元面積,類似於標準邏輯單元高度(例如 “6T 單元”)的軌道度量。最小特徵尺寸通常是線寬或空間寬度,在 DRAM 中,這將是字線或位線寬度。這是表示單元佈局密度的簡單方法,並且易於比較 ——4F² 單元的大小僅為 6F² 單元的 2/3,理論上密度增加 30%,而無需縮小最小特徵尺寸。請注意,純單元佈局並不是密度縮放的唯一限制,因此實際收益可能低於理想的 30% 情況。

4F² 是單個位單元的理論極限。回想一下,特徵尺寸是線或空間寬度(即半間距),因此線 + 空間圖案的間距為 2F,而不是 F,因此最小可能單元尺寸是 4F² 而不僅僅是 F²。因此,一旦實現這種架構,水平擴展的唯一途徑就是擴展 F 本身 —— 這很快就會變得不切實際,甚至完全不可能。

自 2007 年以來,DRAM 一直使用 6F² 佈局,之前使用 8F²(有趣的是:現代 NAND 已經使用 4F² 單元,但特徵尺寸 F 明顯更大。SRAM 的數量級為 120F²,密度降低了 20 倍!)。

4F² 單元的關鍵推動因素是垂直通道電晶體。這是必要的,因為電晶體必須縮小以適合單元,並且兩個觸點(位線和電容器)也必須適合該佔位面積,因此,呈一條垂直線。在這些規模下,有必要垂直而不是水平建構電晶體,將其佔位面積縮小到大約 1F,大致匹配其上方的電容器,同時保持足夠的通道長度以使電晶體有效運行。當前的 DRAM 使用水平通道和具有水平分離的源極 / 漏極。這些是成熟且易於理解的架構。VCT 依次堆疊源極(連接到其下方的 BL)、通道(被柵極和控制柵極的字線包圍)和漏極(連接到上方的電容器)。在製造過程中存在權衡,有些步驟變得更容易,而其他步驟則更難,但總體而言,VCT 更難製造。

三星的工藝因使用晶圓鍵合而引人注目。在類似於邏輯背面供電的工藝中,單元訪問電晶體是在翻轉晶圓並將其鍵合到支撐晶圓之前在頂部形成位線的情況下製造的,因此位線現在被埋了起來。有趣的是,鍵合後的基座似乎不需要與 VCT 精確對準,儘管披露並未解釋外圍 CMOS 是位於翻轉的晶片上還是位於新鍵合的基座中。頂部變薄以露出電晶體的另一端,因此可以在其頂部建構儲存電容器。EVG 和 TEL 將從這種對晶圓鍵合工具的新需求中獲益。


DRAM 入門:當前變體

DRAM 種類繁多,每種都針對不同目標進行了最佳化。相關的最新一代類型包括 DDR5、LPDDR5X、GDDR6X 和 HBM3/E。它們之間的差異幾乎完全在於外圍電路。不同類型的記憶體單元本身較為相似,並且所有類型的製造方法也大致相同。下面讓我們簡單介紹一下各種 DRAM 類型及其作用。

DDR5(第五代雙倍資料速率)採用雙列直插式記憶體模組(DIMM)封裝,可提供最高的記憶體容量。LPDDR5X(低功耗 DDR5,X 表示增強型)能夠提供低功耗操作,但需要與 CPU 保持較短距離以及低電容連接,從而限制了容量,因此它被用於需要低功耗且佈局限制可容忍的手機和筆記型電腦。

最近,我們看到一些 AI 加速器、Apple 的專業工作站以及 Grace 等 AI 饋送 CPU 採用了容量更大的 LPDDR 封裝。這些新用途的推動因素是對高能效資料傳輸和高頻寬的追求。

在加速器中,LPDDR 已成為 “第二層” 記憶體的最佳選擇,與昂貴的 HBM 相比,它在較低(較慢)等級提供更便宜的容量。它在建構最高容量和可靠性功能方面有所欠缺,但勝過 DDR5 DIMM,因為它每位元吞吐量消耗的能量要少一個數量級。LPDDR5X 封裝在 Nvidia Grace 處理器上最高可達 480GB,這大約是 GDDR 組態容量限制的 10 倍(受電路板佈局規則和滿足消費者遊戲系統訊號要求的晶片封裝限制),與中型 DDR 伺服器組態處於同一範圍。使用 128GB 以上的 R-DIMM 可以實現更大容量的 DDR5,但由於封裝複雜性和 DIMM 上的額外暫存器(一種緩衝晶片),成本較高。

LPDDR5X 在功耗方面比 DDR 有巨大優勢,在成本方面比 HBM 有巨大優勢,但每位元能量無法與 HBM 抗衡,而且它需要很多通道(與 CPU 的連接),這會使大容量的電路板佈局擁擠不堪。它在糾錯(ECC)方面也表現不佳,這在大容量下變得更加重要,因為出現錯誤的可能性更大。為了彌補這一點,必須轉移一些容量來支援額外的 ECC。例如,Grace CPU 每個計算托盤有 512GB 的 LPDDR5x,但似乎為可靠性功能保留了 32GB,剩下 480GB 可供使用。

即將推出的 LPDDR6 標準幾乎沒有任何改進,每個晶片的通道數仍然很高,速度提升幅度相對較小,糾錯支援也有限。LPDDR6 不會成為 HBM 的競爭對手。

GDDR6X(G 代表圖形)專注於圖形應用,以低成本提供高頻寬,但延遲和功耗更高。雖然在遊戲 GPU 中很有用,但它的設計具有板級容量限制和功率水平,限制了可以使用它的 AI 應用程式的大小。

然後是 HBM3E(第三代高頻寬記憶體,帶有增強型 “E” 版本)。它優先考慮頻寬和電源效率,但價格非常昂貴。HBM 的兩個定義特徵是更寬的匯流排寬度和垂直堆疊的記憶體晶片。單個 HBM 晶片每個 I/O 有 256 位,是 LPDDR 的 16 倍,LPDDR 的匯流排寬度每個晶片只有 16 位。晶片垂直堆疊,通常為 8 個或更多,每 4 個晶片分組一個 I/O;總的來說,該封裝可以提供 1024 位頻寬。在 HBM4 中,這個數字將翻倍到 2048 位。為了充分利用 HBM,最好將其與計算引擎一起封裝,以減少延遲和每位的能量。為了在保持計算短連接的同時擴大容量,必須將更多晶片新增到堆疊中。

HBM 的高成本主要源於這種晶片堆疊需求。在典型的 HBM 堆疊中,8 個或 12 個 DRAM 晶片(路線圖上計畫增加到 16 個或更多)堆疊在一起,電源和訊號通過每個晶片中的硅通孔(TSV)布線。TSV 是直接穿過晶片的導線,用於連接晶片。與用於連接堆疊晶片的舊式引線接合方法相比,TSV 密度更高、性能更高,但成本也更高。在 HBM 堆疊中,必須通過 TSV 布線 1200 多條訊號線。必須為它們分配相當大的區域,使得每個 HBM DRAM 晶片的尺寸是相同容量下標準 DDR 晶片的兩倍。這也意味著對 DRAM 晶片的電氣和熱性能有更高的分級要求。

這種複雜性會降低產量。例如,三星的 DRAM 設計失誤及其使用落後的 1α 節點導致其 HBM 產量極低。封裝是另一個主要挑戰。由於產量相對較低,正確對齊 8 個以上的晶片(每個晶片有數千個連接)非常困難,因此成本高昂。目前,這是 HBM 供應商之間的主要區別之一,因為 SK 海力士可以使用其 MR-MUF 封裝成功生產 HBM3E,而三星則難以提高其產品的產量。美光有一個可行的解決方案,但需要大幅擴大生產規模。

儘管成本高昂且產量有限,HBM3E 目前仍是記憶體行業有史以來最有價值、利潤率最高的產品。這主要是因為對於大型 AI 加速器而言,沒有其他類型的 DRAM 是可行的替代品。儘管隨著三星提高產量以及美光擴大生產,利潤率可能會下降,但 AI 加速器對記憶體的需求將繼續增長 —— 在一定程度上抵消了這一新供應帶來的好處。


HBM 在頻寬和封裝密度方面佔據主導地位。來源:SemiAnalysis


簡而言之,高頻寬和極高的頻寬密度以及最佳的每位元能量和真正的 ECC(糾錯碼)功能使 HBM3E 成為目前 AI 加速器的明顯贏家。這就是 Nvidia 的 H100 和 AMD 的 MI300X 等產品使用它的原因。GDDR6/X 雖然容量很小,但按相同指標排在第二位。LPDDR5 和 DDR5 則更差,都不適合加速器的需求。

當前的 HBM 解決方案價格昂貴,而且擴展難度越來越大。我們為什麼會陷入這種境地呢?


HBM 路線圖

HBM 是一種圍繞傳統 DRAM 理念建構的封裝解決方案,但採用密度和相鄰性封裝,以嘗試解決 AI 和其他形式的高性能計算的頻寬和功率問題。

目前,所有領先的 AI GPU 都使用 HBM 作為記憶體。2025 年的計畫是 12-Hi HBM3e,配備 32Gb 晶片,每堆疊總共 48GB,資料速率為每線 8Gbps。在 GPU 伺服器中,首批支援 CPU 的統一記憶體版本已隨 AMD 的 MI300A 和 Nvidia 的 Grace Hopper 一起推出。

Grace CPU 具有高容量 LPDDR5X,而 GPU 具有高頻寬 HBM3。但是,CPU 和 GPU 位於不同的封裝中,通過 NVLink - C2C 以 900GB/s 的速度連接。這種模型整合起來更簡單,但在軟體方面更困難。連接到另一個晶片的記憶體的延遲要高得多,可能會影響大量工作負載。因此,記憶體並不完全統一,並帶來了自身的挑戰。



來源:三星、美光


HBM4 還需要幾年時間才能推出,三星和美光聲稱它將達到 16-Hi,每堆疊容量可達 1.5TB/s。這比我們目前的頻寬高出一倍多,而功耗僅為 1.3 - 1.5 倍,但這種擴展仍顯不足,因為記憶體的總體功耗還在繼續增加。HBM4 還將改為每堆疊 2048 位寬度,將資料速率略微降低至 7.5Gbps,這有助於降低功耗並實現訊號完整性。資料速率很可能會提高到 HBM3E 的水平或類似水平。

另一個重大變化是 HBM 基片。基片將採用 FinFET 工藝製造,而不是現在使用的平面 CMOS 技術。對於不具備這種邏輯能力的美光和 SK 海力士,基片將由代工廠製造,台積電已經宣佈他們將成為 SK 海力士的合作夥伴。此外,還將為個別客戶定製基片。

我們將發佈有關 HBM 定製的單獨報告,但這裡有一個快速入門指南:

HBM4 公告預測至少將使用 2 種不同形式的基礎晶片,從而允許針對不同的速度和長度最佳化記憶體介面。控制 DRAM 狀態機的功能可能會轉移到基礎晶片上,以更有效地控制 DRAM 晶片,而僅垂直連接可能會降低每位的能量。

定製 HBM 可以實現我們今天看到的傳統基於 CoWoS(Chip on Wafer on Substrate)的元件之外的多種其他封裝架構。可以使用中繼器 PHY 來菊花鏈連接多行 HBM—— 儘管超過 2 級的任何情況都會看到收益遞減。


來源:SK海力士


隨著 HBM4 及後續產品的推出,混合鍵合技術已被提出。這將允許更薄的 HBM 堆疊,因為凸塊間隙被消除,並且散熱效果更好。此外,它將允許 16 - 20 層以上的堆疊高度。它還可以減少少量功耗,因為訊號傳輸的物理距離將減少。然而,挑戰是巨大的 —— 生產 16 個以上晶片的鍵合堆疊並不容易,沒有一個晶片是完全平坦的 —— 目前還沒有人接近大批次製造的解決方案。

所有初始的 HBM4 都不會使用混合鍵合,並且我們預計這種情況將比大多數人希望的持續更長時間。

CPU、GPU 或加速器與記憶體之間的連接位於基礎晶片中。改進這種連接是克服記憶體限制的一種可能途徑。Eliyan 是一家由美光和英特爾等公司資助的初創公司,該公司正利用其 UMI(統一記憶體介面)自訂介面率先採用這種方法。





來源:Eliyan


這種 UMI 介面與 ASIC 晶片協同使用,其中 ASIC 晶片既可用作 HBM 堆疊的基礎晶片,也能充當其他記憶體類型的模組控製器。此晶片組涵蓋了記憶體控製器與記憶體晶片之間的物理互連(PHY)。UMI 向外與主機 GPU 以及連接到主機的結構相連接。它們通過全 CMOS 工藝進行製造,具備速度快且效率高的特點,運用先進的 “Nulink” 協議與主機相連,還能消除主機矽片上記憶體控製器所佔用的空間。

Eliyan 的封裝技術甚至能夠運用標準基板,並且相較於常規的先進封裝,其覆蓋範圍更大。這或許能允許 HBM 與 ASIC 晶片不相鄰,而是距離更遠,也就意味著可以容納更高的容量。他們的方法還在主機上佔用更少的面積和 “海岸線”,這意味著能夠增加通道寬度。標準化的 UMI 記憶體晶片能夠允許使用 HBM、DDR、CXL 記憶體等,而無需固定為特定的類型,從而顯著提高了靈活性。儘管這種方法可能會帶來短期的改進,但它並不能解決 HBM 根本的成本問題。


新興記憶

自從 DRAM 和 NAND 佔據主導地位以來,人們一直在對更好的替代方案進行研究。這些方案的統稱是 “新興儲存器”。不過,這個稱呼存在一定的不恰當之處,因為到目前為止,它們都尚未成功 “崛起” 成為大批次的產品。然而,考慮到圍繞人工智慧的新挑戰和激勵措施,它們至少值得我們進行簡略的探討。

在離散應用儲存器中,最具前景的是 FeRAM(鐵電隨機存取儲存器)。它們並非在儲存電容器中使用電介質(絕緣材料),而是採用鐵電體(在電場中可極化的材料)。FeRAM 具有非易失性這一理想特性,即能夠在關閉電源時儲存資料,並且不會在刷新上浪費電力或時間。美光在 IEDM 2023 上展示了令人鼓舞的成果,其密度可與 D1β DRAM 相媲美,同時還具有良好的耐用性和保留性能。換句話說,如果不是因為成本問題,它會是 AI/ML(人工智慧 / 機器學習)用途的良好候選者。但與傳統 DRAM 相比,它的製造過程更為複雜,並且使用了更多特殊材料,以至於目前它在成本方面根本不具備競爭力。

MRAM(磁性隨機存取儲存器)是另一個具有前景的研究領域。資料並非通過電荷儲存,而是通過磁性方式進行儲存。大多數設計採用磁隧道結(MTJ)作為位儲存單元。


磁隧道結 RAM,採用磁性機制而非電氣機制。來源:SK Hynix


在 IEDM 2022 上,SK 海力士和鎧俠展示了間距為 45 納米、臨界尺寸為 20 納米的 1 選擇器 MTJ(磁隧道結)單元。它們共同實現了迄今為止最高的 MRAM(磁性隨機存取儲存器)密度,即 0.49Gb/mm²,高於美光的 D1β DRAM(密度為 0.435Gb/mm²)。該單元甚至採用了 4F² 設計。他們的目標是以分立封裝的形式進行生產,作為 DRAM 的替代品。

目前,沒有任何一種替代儲存器能夠挑戰 DRAM 的地位。有些儲存器的單元更大或者速度更慢;有些儲存器的工藝更加昂貴;大多數儲存器的耐用性有限;還有些儲存器的產量較低。實際上,磁性儲存器或相變儲存器出貨的產品是以 MB(兆字節)而不是 GB(吉字節)為單位。這種情況或許會發生改變,因為這涉及到大量的資金,而且可能存在一種潛在的制勝組合,但在裝置和生產規模這兩個方面都還有很多工作要做。


記憶體計算

DRAM 從一開始就受到其架構的限制。它是一個簡單的狀態機,沒有任何控制邏輯,這雖然有助於降低成本,但也意味著它依賴於主機(CPU)來進行控制。

這種模式已經根深蒂固。現代 DRAM 製造工藝經過了高度最佳化和專業化,因此實際上無法生產控制邏輯。行業組織 JEDEC(聯合電子裝置工程委員會)在制定新標準時也要求儘量減少邏輯干擾。


控制邏輯與記憶體分開,因此命令必須通過緩慢、低效的介面。來源:SemiAnalysis


DRAM 晶片完全依賴於主機。所有命令都通過一個共享介面傳輸到記憶體中的多個儲存體,代表主機中的多個執行緒。每個命令都需要四個或更多步驟以精確的時間發出,以保持 DRAM 正常運行。DRAM 晶片甚至沒有避免衝突的邏輯。

使用古老的半雙工介面會加劇這種情況:DRAM 晶片可以讀取或寫入資料,但不能同時進行讀取和寫入。主機具有 DRAM 的精確模型,並且必須預測介面在每個時鐘周期應設定為讀取還是寫入。命令和資料通過不同的線路傳送,這降低了時序複雜性,但增加了線路數量和 GPU 或 CPU 上的 “灘頭” 擁擠。總體而言,記憶體介面的位元率、灘頭密度和效率比邏輯晶片使用的替代 PHY 低了一個數量級。

這些缺點的結果是,伺服器上最常見的 DDR5 DIMM 在主機控製器和介面上消耗了超過 99% 的讀取或寫入能量。其他變體略好一些 ——HBM 的能量使用大約 95% 用於介面,5% 用於記憶體單元的讀取 / 寫入 —— 但仍然遠未達到 DRAM 的全部潛力。

功能完全放錯了地方。當然,解決方案是將其移到正確的位置:控制邏輯應該與記憶體一起放在晶片上。這就是記憶體計算(CIM)。


記憶體計算:釋放儲存體潛力

DRAM 儲存體具有令人難以置信的性能潛力,但由於介面的原因,這些潛力幾乎被完全浪費了。

儲存體是 DRAM 構造的基本單位。它們由 8 個子儲存體組成,每個子儲存體有 64Mb(8k 行 ×8k 位)的記憶體。儲存體一次啟動並刷新 1 行 8k 位,但在任何 I/O 操作中僅輸入或輸出 256 個。此限制是由於感測放大器的外部連接:雖然行由 8k 個感測放大器支援,但只有 1/32 個感測放大器(256)連接到子儲存體外,這意味著讀取或寫入操作被限製為 256 位。


(a) 高電容器的密集墊限制了對感測放大器的訪問。來源:SemiAnalysis。(b) 聚焦離子束 [FIB] 拆解 DDR4 DRAM 的感測放大器區域。來源:Marazzi 等人。《HiFi-DRAM:通過使用 IC 成像揭示感測放大器實現高保真 DRAM 研究》,ISCA 2024 (c) 1β DRAM 中墊區邊緣的圖形。來源:美光


感測放大器位於一個“峽谷”中,四周被高大的電容器環繞著。在上面蘇黎世聯邦理工學院的 FIB(聚焦離子束)拆解圖中,可以看到較高處的布線需要延伸至下方的高通孔才能與感測放大器接觸。

即使介面有限,每次只能訪問 32 個中的 1 個,一個儲存體的峰值讀寫容量也大約為 256Gb/s,平均接近 128Gb/s,因為至少 50% 的時間用於切換到新的活動行。每 16Gb 晶片有 32 個儲存體,一個晶片的全部潛力為 4TB/s。

在層次結構的更上層,儲存體以儲存體組的形式連接,儲存體組又連接到 DRAM 晶片的介面。在 HBM 中,每個晶片有 256 條資料線,峰值吞吐量為每晶片 256GB/s。這個瓶頸只能利用儲存體潛在潛力的 1/16。


來源:SemiAnalysis


糟糕的是,將一個位元從晶片中傳輸出去需要 2pJ 的能量,這比將其移入或移出單元所需的能量多 20 倍。大部分能量發生在 DQ(資料問號,用於讀取和寫入的資料線)線兩端的兩個介面處,以及主機上的控製器邏輯中。

在這種浪費的架構下,不可避免地需要付出努力來獲取更多的潛在性能。


記憶體計算:DRAM 的全部潛力

即使是簡單的理論示例也表明,這裡存在巨大的潛力。實施 UCIe(通用小晶片互連)標準將允許每毫米邊緣實現 11Tbps 的吞吐量 —— 幾乎比 HBM3E 高 12 倍。每位元能量將從 2pJ 下降到 0.25pJ,降幅達一個數量級。UCIe 甚至不是最新的解決方案…… 僅舉一個例子,Eliyan 專有的 Nulink 標準就聲稱有更大的改進。


來源:Tom’s Hardware


需要注意的是,如果主機結構通過介面擴展,那麼就必須在 DRAM 端處理結構命令集的子集。每個儲存體都需要在本地實現狀態機(預充電、地址選擇、啟動、讀 / 寫、關閉等)。這就需要在 DRAM 上製造(相對)複雜的片上邏輯。


記憶體計算:前進之路和可能的贏家

當然,在 DRAM 晶片中新增邏輯並非易事。好消息是 HBM 包含一個 CMOS 基礎晶片,當 3D DRAM 出現時,幾乎可以肯定的是,良好的 CMOS 邏輯會繫結在記憶體堆疊的頂部或下方。換句話說,該架構適合在記憶體中包含一些計算功能,晶片製造商將有動力這樣去做。

這裡有一些容易實現的成果:想想如果 HBM 採用 GDDR7 速率(每條資料線 32Gbps),可以做些什麼。GDDR7 表明,DRAM 晶片上可以製造速度足夠快的電晶體,而 TSV 到基座堆疊的垂直距離不到 1 毫米,這應該可以將每位能量保持在 0.25pJ / 位範圍內。這就引出了一個問題:為什麼 JEDEC 不在這裡採用改進的標準呢?

基礎晶片上的外部介面可以大幅升級為現代設計,每毫米邊緣提供超過 1TB / 秒的傳輸速度,每位元僅消耗幾 pJ 的能量。有人將在這場智慧財產權戰爭中大獲全勝。雖然 JEDEC 可能會採用一種選擇作為標準,但更有可能的是,速度更快的記憶體 / GPU 供應商組合將完成這一選擇,因為 JEDEC 通常需要數年時間。


來源:SemiAnalysis


隨著第三方基礎晶片被接受,我們已經看到 HBM4 可能出現真正的變化,這必將引發各種實驗。我們可能會看到解除安裝通道控制、互連上的純結構擴展、在幾釐米的距離內每位元能耗降低,以及菊花鏈連接到遠離主機的其他 HBM 行,或者連接到第二層記憶體(如 LPDDR 組)。

通過這種方式,設計可以避開在記憶體堆疊內部進行計算的功率限制,而是使用基礎晶片上的現代化介面,讓相鄰晶片具有頻寬和低每位元能耗,就像在記憶體中進行計算一樣。 (半導體產業縱橫)