給他堆上癮了!AMD發表新論文,探索L2快取堆疊方案,容量大增延遲更低

一招鮮

WCCTech報導,AMD發表了一篇令人矚目的論文,題為《平衡延遲堆疊快取》,專利申請號為US20260003794A1。本文中,AMD披露了平衡延遲堆疊快取的技術,即堆疊快取系統包含第一個快取晶片和至少第二個快取晶片,且以堆疊排列排列,並與第一個快取晶片形成疊加。

首先我們知道,AMD在當下時代能奪取最佳遊戲處理器這一名號,就是源自於3D V-Cache技術。這項技術在CCD - 核心計算晶片疊加了一層L3快取,第一代的3D V-Cache將快取層疊加在CCD上方,而到了銳龍9000系,AMD將快取層轉移到了CCD下方。通過額外的快取層封裝,整個處理器獲得了大量的額外L3快取。

AMD的3D V-Cache或者被稱為X3D的解決方案已經從上至下應用在了EPYC霄龍資料中心處理器和消費級的銳龍處理器系列上。而在AMD繼續開發L3 3D V-Cache技術的同時,也在探索更多方法來堆疊更多快取,而本次談到的L2堆疊就是AMD的新項目。

根據AMD論文中提供的示意圖,我想大概是這樣,在CCD的Basedie上會有一顆晶片兩層封裝的L2 3D V-Cache,而在核心與L2的位置(也是CCX,計算核心複合體),則會有一顆晶片一層封裝的L2 3D V-Cache。

而對於其堆疊的L2快取設計,AMD也展示了一個包含四個512KB區域的快取模組,總共可提供2MB的L2快取,以及一個CCC(快取控制電路)。這一L2快取複合體可根據需要進行擴展部署,框圖中展示了最多4MB的方案。

本質堆疊方式還是和現有的3D V-Cache一致,將L2/L3堆疊層連接到Basedie和CCX,採用矽通孔技術進行配置。而如圖,該方案由兩個快取晶片組成,CCC負責控制資料的輸入輸出。

論文中,AMD以平面1MB L2和2MB L2快取配置為例,作者指出,1MB L2M快取在平面配置下典型延遲為 14 周期,而堆疊 1MB L2M 快取延遲為 12 周期。這表明堆疊L2快取不僅能提供更高容量,還能實現與典型平面方法相當甚至更好的周期延遲。

在所述技術的相關方案中,堆疊快取系統的配置減少了訪問堆疊快取時的響應延遲,並提供了節能特性。該堆疊快取系統提升了資料傳輸性能,其延遲低於建構在單個裸片(Die)上的傳統平面快取。值得注意的是,連接通孔(Vias)被佈置在堆疊快取系統的中心進出。這避免了像傳統平面快取那樣,為了將資料跨越快取的一部分傳輸到遠離資料介面(I/O)的區域而必須增加布線級(本文中也稱為流水線級)。
在所述技術中,路由至堆疊快取系統中心的連接通孔,在堆疊裸片(例如第一快取裸片與至少第二快取裸片)上的兩個快取半部之間建立了均衡(或一致)的延遲。例如,傳統的 1 MB 平面 L2M 快取具有 14 個周期的延遲,而採用所述技術實現的 1 MB 堆疊 L2M 快取僅有 12 個周期的延遲。這使得在實現比典型平面快取容量更大的堆疊快取時,仍能達到相同甚至更優的周期延遲。
因此,所述均衡延遲堆疊快取的各個方面降低了訪問請求的延遲,使資料從資料快取中返回的速度更快。由於訪問請求在更少的周期內完成,二級(L2)快取等元件的開啟時間縮短,從而實現了功耗節省;同時,快取能夠更早地從活躍狀態轉入空閒狀態,也帶來了額外的節能效果。此外,快取裸片內的布線長度更短,有效降低了電容並節省了功耗。由於訊號在處理訪問請求和資料返回時僅需傳輸一半的距離,訊號負載也隨之減小。進一步地,得益於功耗降低、電容減小以及訊號傳輸距離縮短,系統產生的熱量也相應減少。
——AMD Balanced Latency Stacked Cache(Google論文)

作者還表示,堆疊式L2快取不僅有更好的延遲表現, 還能節省電量。顯然我們還有相當的時間才能看到堆疊L2快取才能在實際晶片上發揮作用,但與堆疊式 L3 3D V-Cache 一樣,我們有充分的理由相信我們將看到它整合在 AMD 未來的晶片中,無論是 CPU 還是顯示卡。

這種 L2 堆疊技術對伺服器領域(EPYC 處理器)和專業開發人員的價值遠大於普通家用辦公。它能有效填補一級快取與三級快取之間的巨大性能鴻溝,使處理器在處理複雜邏輯、非線性資料結構時表現得像“資料就在核心旁邊”一樣順暢。

同時,遊戲雖然平均幀依賴L3容量,但是更快更大的L2快取,也將顯著改善最低幀 (1% Low FPS),減少微卡頓——這也將真正改寫銳龍處理器的體驗。 (AMP實驗室)