華為清華聯手,研發28nm存內計算晶片

論文入選ISSCC 2026。

芯東西2月26日消息,2月15日-19日,在被業界譽為“晶片設計國際奧林匹克會議”的國際固態電路大會(ISSCC 2026)上,清華大學、華為等大學與公司的研究人員發表論文,首次提出一款基於HYDAR框架的28nm混合存內計算(CiR)晶片的推薦系統(RecSys)加速器。

這款36M RRAM CiR晶片能實現390K QPS的吞吐率與1574K QPS/W能效比。其建構的多晶片系統可實現百萬級即時端到端推薦系統(RecSys)。

▲晶片顯微照片與系統概述

在實際推薦系統任務中,CiR通過擴展至576M規模的多晶片系統,QPS提升了66倍,QPS/W提升181倍,精準率與CPU相當

▲晶片性能與當前頂尖設計的對比

該晶片的核心優勢包括:採用DL-ADC實現非Top-K計算的早期終止;基於預測的預取調度流水線(PPSP)資料流提升不規則工作負載的吞吐量;由粗到細的檢索架構(coarse-to-fine)在保證系統召回精度的同時,可擴展至大規模應用。

01. 引入CiR,實現高吞吐高能效、高精度相似向量檢索

推薦系統中的核心運算單元是相似向量檢索(SVS),該方式通過計算查詢向量與大規模向量庫之間的距離,檢索出Top‑K最鄰近向量。

SVS會佔據推薦系統絕大部分的計算時間與功耗,主要原因是外部儲存器訪問(EMA)開銷。其中,採用混合鍵合技術的DRAM加速器成本高昂,基於NAND TCAM的加速器存在讀取延遲高、資料與距離表示精度有限等問題。

針對上述痛點,研究人員提出一種基於RRAM的數模混合存內計算加速器HYDAR,可實現高吞吐量、高能效、高精度的SVS。

基於RRAM的存內計算(Compute-in-RRAM,CiR)因能最大限度減少資料移動、儲存密度高、平行度極大,已被公認為深度學習加速的極具前景的技術路線。但將CiR應用於SVS仍會帶來額外挑戰,如能耗與延遲急劇增加、降低PE利用率與吞吐量、精度降低等。

▲面向高效推薦系統的、基於CiR的SVS加速器的研究動機與設計挑戰

HYDAR通過CiR PE(存內計算處理單元)、混合晶片設計與多晶片系統架構協同最佳化,解決了上述挑戰:

首先是帶動態延遲ADC(DL‑ADC)的CiR PE,其通過多位模擬CiR PE整合DL‑ADC,用於基於直方圖的相似向量檢索,可提前將距離與檢索閾值比較,並跳過非Top‑K向量,從而降低延遲與功耗。

其次是基於預測的搶佔式調度流水線(PPSP),通過這種混合晶片機制,預測每個PE的執行階段間、中斷不平衡任務、插入短任務來平衡負載,以適應動態SVS工作流,提升利用率與吞吐量。

最後是兩步由粗到精的檢索架構,其軟硬體協同設計框架,先在CiR PE上進行粗粒度檢索以保證高吞吐量,再在數字SVS引擎上進行精粒度檢索,在保證召回精度的同時最大化吞吐量。

在此基礎上,基於HYDAR框架,研究人員採用28nm工藝流片實現了一款CiR原型晶片,包含36M RRAM單元,分為16個平行PE,每個PE包含一個288×4096陣列。

▲HYDAR整體架構與核心特性及基於CiR的端到端檢索系統

02. 採用基於DL‑ADC的SVS高效過濾機制 降低60%延時、71%功耗

具體來看基於模擬存內計算單元的直方圖相似向量檢索(SVS)實現,以及支援計算提前終止的DL‑ADC設計。

其通過查詢向量與基礎向量之間的距離分佈直方圖來確定Top‑K檢索的截斷閾值(CK)。在歐氏距離框架下,距離超過CK的基礎向量由雙模DL‑ADC過濾,該ADC可動態監測比較結果,實現非Top‑K向量的計算提前終止。

歐氏距離計算可在288×4096的CiR陣列上完成,其中每個2T2R單元表示一個4位維度,每一列代表一個256維基礎向量及32維偏置。

本設計中,CiR PE在計算過程中將直方圖存入本地直方圖儲存器,隨後同步至跨PE直方圖單元(CHU),合併分佈式結果以生成CK。該論文設計了三條定製指令來執行該流程。

在DL‑ADC方面,基於逐次逼近暫存器(SAR)的結構支援提前終止模式(ET),將預生成的CK作為輸入,與每個周期生成的SAR碼一同送入按位比較器。

在迭代調整IDAC以逼近ADC輸入電流的過程中,任何一位不匹配都表明計算結果與CK存在差異,觸發提前終止,停止計算並輸出2位向量掩碼(vMask)。

最後,通過將DL‑ADC設定為ET模式,距離計算與過濾可同時執行。

▲基於動態延遲ADC(DL‑ADC)的直方圖式SVS的CiR實現

該ET機制在資料庫規模擴大時效果顯著,平均減少60%的計算時間和71%的功耗,宏單元面積開銷增加7%。

03. 預測搶佔式調度,利用率提升至91% 平均查詢延遲降低30%

其次是面向SVS負載提出的基於預測的搶佔式調度流水線(PPSP)。

查詢在不同PE間平行計算,而每個PE參與計算的基礎向量數量通常不同,這會造成計算周期差異與PE間同步開銷,進而引發調度停頓與流水線氣泡。

PPSP採用連續搶佔式調度與動態任務調度器(DTS)解決了這一問題。

DTS會對各PE上查詢執行的完成時間戳進行監測與預測。該論文提出的搶佔式調度機制允許新任務搶佔那些即將完成的正在運行任務,這可以消除流水線氣泡、讓任務更早完成、PE更快釋放,以服務後續查詢。

在接收到指令時,任務會佔用一個DTS槽位,並將其PE/段掩碼存入任務表,然後作為子任務路由到目標PE的兩個待處理緩衝區之一。

DTS同時監控每個任務的預測關鍵結束時間(PCET),其定義為所有子任務PET的最大值。其中的仲裁器檢查PE與正在運行任務的重疊情況,如果新任務的PET可以降低且不影響正在運行任務的PCET,則切換待處理緩衝區以搶佔式調度新任務,從而提升吞吐量、降低延遲。

此外,在查詢調度期間,DTS會在後端記憶體分配器中為每個查詢預分配地址空間,使得PE可以直接將結果寫入輸出緩衝區,無需PE間同步,從而實現PE快速釋放以處理新查詢。

▲面向動態SVS負載的、所提出的基於預測的搶佔式調度流水線(PPSP)

通過以上最佳化,PPSP將PE利用率提升至91%,平均查詢延遲降低30%,QPS吞吐量提升1.82倍。

04. 由粗到細兩步檢索 實現系統級四級流水線平行

最後是面向SVS、基於CiR的兩步檢索架構。

為提升系統精度,該架構整合了數字精檢索引擎,在高吞吐粗檢索結果中精確篩選向量。這使得即使在模擬CiR存在噪聲與低精度處理的情況下,仍能保持高召回精度。

該架構還通過多CiR晶片平行擴展了向量庫容量,並支援更廣泛的平行粗檢索,同時採用Thresh‑IVF流程與系統流水線,進一步提升吞吐量。

CiR PE分為三類:質心PE(CPE)儲存聚類中心坐標,採樣PE(SPE)儲存從每個聚類中採樣的少量向量,用於表徵分佈並生成CK;全量庫PE(FPE)儲存所有基礎向量,並全程運行在高能效的DL‑ADC提前終止(ET)模式下,在整個流程中佔據92.7%的向量儲存。

CiR專用的Thresh‑IVF工作流程包括查詢首先送入CPE,通過IT運算計算查詢與聚類中心的距離,識別最近的聚類;系統將查詢路由到所選聚類的SPE,通過IH在多晶片間生成直方圖,進而生成CK;CK被路由到步驟1所確定聚類的所有FPE,通過IC完成粗檢索ID生成。

這種系統級基於閾值的粗檢索,最小化了每個晶片輸出的過濾結果數量,避免了在各晶片上執行相同Top‑K計算帶來的冗餘ID過濾。最後,少量候選ID被送入數字引擎,以FP16格式進行精檢索,使系統級儲存頻寬需求降低97.44%。

▲兩步由粗到精檢索系統架構與工作流程

該設計實現了系統級四級流水線平行;同時晶片內不同PE也可平行處理不同任務。相較於傳統基於CPU的IVF方案,這種多晶片層級流水線可將延遲降低90.17%。

05. 結語:兼顧精度與效率推薦系統算力成本驟降

推薦系統在連接使用者與海量內容和服務方面發揮著至關重要的作用,已廣泛部署於電商和串流媒體平台,但作為其核心運算單元相似向量檢索佔據了推薦系統絕大部分的計算時間和功耗。

其中採用混合鍵合技術的DRAM加速器提升了頻寬以緩解EMA問題,但其成本高昂,且仍受限於DRAM與邏輯單元之間的資料傳輸瓶頸;基於NAND TCAM的加速器將計算整合到儲存陣列中以減少EMA,但存在讀取延遲高、資料和距離表示精度有限的問題。

基於此,這篇最新研究提出了一款高效的SVS加速器,能在保證高吞吐量檢索的同時,不犧牲召回精度,進一步降低推薦系統的功耗。 (芯東西)