#28nm
華為清華聯手,研發28nm存內計算晶片
論文入選ISSCC 2026。芯東西2月26日消息,2月15日-19日,在被業界譽為“晶片設計國際奧林匹克會議”的國際固態電路大會(ISSCC 2026)上,清華大學、華為等大學與公司的研究人員發表論文,首次提出一款基於HYDAR框架的28nm混合存內計算(CiR)晶片的推薦系統(RecSys)加速器。這款36M RRAM CiR晶片能實現390K QPS的吞吐率與1574K QPS/W能效比。其建構的多晶片系統可實現百萬級即時端到端推薦系統(RecSys)。▲晶片顯微照片與系統概述在實際推薦系統任務中,CiR通過擴展至576M規模的多晶片系統,QPS提升了66倍,QPS/W提升181倍,精準率與CPU相當。▲晶片性能與當前頂尖設計的對比該晶片的核心優勢包括:採用DL-ADC實現非Top-K計算的早期終止;基於預測的預取調度流水線(PPSP)資料流提升不規則工作負載的吞吐量;由粗到細的檢索架構(coarse-to-fine)在保證系統召回精度的同時,可擴展至大規模應用。01. 引入CiR,實現高吞吐高能效、高精度相似向量檢索推薦系統中的核心運算單元是相似向量檢索(SVS),該方式通過計算查詢向量與大規模向量庫之間的距離,檢索出Top‑K最鄰近向量。SVS會佔據推薦系統絕大部分的計算時間與功耗,主要原因是外部儲存器訪問(EMA)開銷。其中,採用混合鍵合技術的DRAM加速器成本高昂,基於NAND TCAM的加速器存在讀取延遲高、資料與距離表示精度有限等問題。針對上述痛點,研究人員提出一種基於RRAM的數模混合存內計算加速器HYDAR,可實現高吞吐量、高能效、高精度的SVS。基於RRAM的存內計算(Compute-in-RRAM,CiR)因能最大限度減少資料移動、儲存密度高、平行度極大,已被公認為深度學習加速的極具前景的技術路線。但將CiR應用於SVS仍會帶來額外挑戰,如能耗與延遲急劇增加、降低PE利用率與吞吐量、精度降低等。▲面向高效推薦系統的、基於CiR的SVS加速器的研究動機與設計挑戰HYDAR通過CiR PE(存內計算處理單元)、混合晶片設計與多晶片系統架構協同最佳化,解決了上述挑戰:首先是帶動態延遲ADC(DL‑ADC)的CiR PE,其通過多位模擬CiR PE整合DL‑ADC,用於基於直方圖的相似向量檢索,可提前將距離與檢索閾值比較,並跳過非Top‑K向量,從而降低延遲與功耗。其次是基於預測的搶佔式調度流水線(PPSP),通過這種混合晶片機制,預測每個PE的執行階段間、中斷不平衡任務、插入短任務來平衡負載,以適應動態SVS工作流,提升利用率與吞吐量。最後是兩步由粗到精的檢索架構,其軟硬體協同設計框架,先在CiR PE上進行粗粒度檢索以保證高吞吐量,再在數字SVS引擎上進行精粒度檢索,在保證召回精度的同時最大化吞吐量。在此基礎上,基於HYDAR框架,研究人員採用28nm工藝流片實現了一款CiR原型晶片,包含36M RRAM單元,分為16個平行PE,每個PE包含一個288×4096陣列。▲HYDAR整體架構與核心特性及基於CiR的端到端檢索系統02. 採用基於DL‑ADC的SVS高效過濾機制 降低60%延時、71%功耗具體來看基於模擬存內計算單元的直方圖相似向量檢索(SVS)實現,以及支援計算提前終止的DL‑ADC設計。其通過查詢向量與基礎向量之間的距離分佈直方圖來確定Top‑K檢索的截斷閾值(CK)。在歐氏距離框架下,距離超過CK的基礎向量由雙模DL‑ADC過濾,該ADC可動態監測比較結果,實現非Top‑K向量的計算提前終止。歐氏距離計算可在288×4096的CiR陣列上完成,其中每個2T2R單元表示一個4位維度,每一列代表一個256維基礎向量及32維偏置。本設計中,CiR PE在計算過程中將直方圖存入本地直方圖儲存器,隨後同步至跨PE直方圖單元(CHU),合併分佈式結果以生成CK。該論文設計了三條定製指令來執行該流程。在DL‑ADC方面,基於逐次逼近暫存器(SAR)的結構支援提前終止模式(ET),將預生成的CK作為輸入,與每個周期生成的SAR碼一同送入按位比較器。在迭代調整IDAC以逼近ADC輸入電流的過程中,任何一位不匹配都表明計算結果與CK存在差異,觸發提前終止,停止計算並輸出2位向量掩碼(vMask)。最後,通過將DL‑ADC設定為ET模式,距離計算與過濾可同時執行。▲基於動態延遲ADC(DL‑ADC)的直方圖式SVS的CiR實現該ET機制在資料庫規模擴大時效果顯著,平均減少60%的計算時間和71%的功耗,宏單元面積開銷增加7%。03. 預測搶佔式調度,利用率提升至91% 平均查詢延遲降低30%其次是面向SVS負載提出的基於預測的搶佔式調度流水線(PPSP)。查詢在不同PE間平行計算,而每個PE參與計算的基礎向量數量通常不同,這會造成計算周期差異與PE間同步開銷,進而引發調度停頓與流水線氣泡。PPSP採用連續搶佔式調度與動態任務調度器(DTS)解決了這一問題。DTS會對各PE上查詢執行的完成時間戳進行監測與預測。該論文提出的搶佔式調度機制允許新任務搶佔那些即將完成的正在運行任務,這可以消除流水線氣泡、讓任務更早完成、PE更快釋放,以服務後續查詢。在接收到指令時,任務會佔用一個DTS槽位,並將其PE/段掩碼存入任務表,然後作為子任務路由到目標PE的兩個待處理緩衝區之一。DTS同時監控每個任務的預測關鍵結束時間(PCET),其定義為所有子任務PET的最大值。其中的仲裁器檢查PE與正在運行任務的重疊情況,如果新任務的PET可以降低且不影響正在運行任務的PCET,則切換待處理緩衝區以搶佔式調度新任務,從而提升吞吐量、降低延遲。此外,在查詢調度期間,DTS會在後端記憶體分配器中為每個查詢預分配地址空間,使得PE可以直接將結果寫入輸出緩衝區,無需PE間同步,從而實現PE快速釋放以處理新查詢。▲面向動態SVS負載的、所提出的基於預測的搶佔式調度流水線(PPSP)通過以上最佳化,PPSP將PE利用率提升至91%,平均查詢延遲降低30%,QPS吞吐量提升1.82倍。04. 由粗到細兩步檢索 實現系統級四級流水線平行最後是面向SVS、基於CiR的兩步檢索架構。為提升系統精度,該架構整合了數字精檢索引擎,在高吞吐粗檢索結果中精確篩選向量。這使得即使在模擬CiR存在噪聲與低精度處理的情況下,仍能保持高召回精度。該架構還通過多CiR晶片平行擴展了向量庫容量,並支援更廣泛的平行粗檢索,同時採用Thresh‑IVF流程與系統流水線,進一步提升吞吐量。CiR PE分為三類:質心PE(CPE)儲存聚類中心坐標,採樣PE(SPE)儲存從每個聚類中採樣的少量向量,用於表徵分佈並生成CK;全量庫PE(FPE)儲存所有基礎向量,並全程運行在高能效的DL‑ADC提前終止(ET)模式下,在整個流程中佔據92.7%的向量儲存。CiR專用的Thresh‑IVF工作流程包括查詢首先送入CPE,通過IT運算計算查詢與聚類中心的距離,識別最近的聚類;系統將查詢路由到所選聚類的SPE,通過IH在多晶片間生成直方圖,進而生成CK;CK被路由到步驟1所確定聚類的所有FPE,通過IC完成粗檢索ID生成。這種系統級基於閾值的粗檢索,最小化了每個晶片輸出的過濾結果數量,避免了在各晶片上執行相同Top‑K計算帶來的冗餘ID過濾。最後,少量候選ID被送入數字引擎,以FP16格式進行精檢索,使系統級儲存頻寬需求降低97.44%。▲兩步由粗到精檢索系統架構與工作流程該設計實現了系統級四級流水線平行;同時晶片內不同PE也可平行處理不同任務。相較於傳統基於CPU的IVF方案,這種多晶片層級流水線可將延遲降低90.17%。05. 結語:兼顧精度與效率推薦系統算力成本驟降推薦系統在連接使用者與海量內容和服務方面發揮著至關重要的作用,已廣泛部署於電商和串流媒體平台,但作為其核心運算單元相似向量檢索佔據了推薦系統絕大部分的計算時間和功耗。其中採用混合鍵合技術的DRAM加速器提升了頻寬以緩解EMA問題,但其成本高昂,且仍受限於DRAM與邏輯單元之間的資料傳輸瓶頸;基於NAND TCAM的加速器將計算整合到儲存陣列中以減少EMA,但存在讀取延遲高、資料和距離表示精度有限的問題。基於此,這篇最新研究提出了一款高效的SVS加速器,能在保證高吞吐量檢索的同時,不犧牲召回精度,進一步降低推薦系統的功耗。 (芯東西)
DeepSeek震撼一年後:中國“非EUV路線”創新!
2025年1月,國產大模型DeepSeek-R1橫空出世,以28nm晶片+光子互聯實現千億參數訓練,被外媒稱為“中國AI最深度突圍”。一年之後,ICIS今日發佈長文對比中美AI競賽最新態勢:中國在論文高被引、開源模型數量上已反超美國;但在尖端算力、EDA/IP和2nm以下晶片仍落後約半代,整體技術差距從2024年的12個月壓縮至約6個月,進入“貼身肉搏”階段。史丹佛HAI資料顯示,2025年全球AI高被引論文前1%中,中國機構佔比29.8%,首次超過美國(29.4%)。DeepSeek、阿里、百度、華為、字節跳動五家合計開源67個十億級以上模型,同期美國Meta、OpenAI、Google僅開源43個。DeepSeek-R1在數學推理榜單AIME2025上得分與GPT-4.5持平,訓練成本僅為後者1/18。美國BIS自2024年10月將HBM3E、CoWo-S納入對華管制,中國被迫轉向成熟工藝+Chiplet+光子互聯。DeepSeek團隊披露,其最新兆模型使用國產14nm+28nm混合Chiplet,HBM2E國產替代率60%,訓練算力成本下降40%,但單卡性能仍比H100低35%。ICIS援引分析師指出,若2026年國產HBM3E順利量產,中美算力硬體差距有望從1.5代縮小至半代。2025年中國AI領域股權融資達260億美元,佔全球37%,僅次於美國。清華、北大、浙大AI專業本科招生人數三年翻倍,2026屆畢業生預計超4萬人。DeepSeek母公司幻方量化設立10億元“算力獎學金”,被業內稱為“中國版OpenAI Grants”。ICIS測算,2026年國產HBM將拉動中國高純硫酸、銅電鍍液需求增長22%,光刻膠消費量突破1.2萬噸,年復合增速18%。美國限制ArF光刻膠對華出口,促使南大光電、上海新陽加速研發,2025年國產ArF光刻膠驗證線已通過28nm工藝考核,目標2027年匯入14nm。報告認為,中國在AI工程化、資料規模和政府集聚度上具備優勢,但2nm以下GPU、EDA/IP、先進封裝仍受制;美國則依靠CUDA生態、2nm GAA和High-NA EUV保持半代領先。若2027年中國仍無法量產EUV級GPU,技術差可能重新被拉大至12個月。DeepSeek一周年表明,封鎖並未阻止中國AI崛起,反而加速“非EUV路線”創新。6個月的技術差已進入“同一世代”競爭,誰能率先在下一代2nm GAA、光子計算和開源生態上突破,誰就能定義2027年後的AI新格局。對於仍在擴產中的國產HBM、光刻膠與裝置企業而言,DeepSeek打開的窗口期,只爭朝夕。 (晶片行業)
中芯國際28nm製程產線擴建
錯過了一條昨天的訊息,10 月17 日,中芯國際宣佈啟動北京亦莊28nm 成熟製程產線擴建,年產能增加10 萬片,重點保障汽車電子和工業控制晶片供應。本次擴建是中芯國際"中芯京城" 計畫的重要組成部分。本計畫總投資不低於500 億元,由中芯國際(持股51%)、北京亦莊國投(24.51%)及國家大基金二期(24.49%)共同出資。其中,北京亦莊28nm 產線首期投資76 億美元,原計劃2024 年完工,但因美國出口管制導致設備交付延遲。此次擴建後,該產線年產能將達到120 萬片(月產能10 萬片),成為國內最大的28nm 邏輯晶片生產基地之一。中芯國際28nm 產線已大量採用國產設備,2025 年國產化率預估達35%。其中,中微公司的Primo AD-RIE™刻蝕設備用於32-28nm 工藝,北方華創的薄膜沉積設備進入產線驗證。上海微電子的SSA800 光刻機實現28nm 解析度量產,套刻精度達8nm,已進入臨港工廠產線,未來可望應用於亦莊擴建工程。圖示為SSA600西隴科學的光阻配套試劑(顯影液、剝離液)經中芯國際28nm 製程驗證,實驗室實現6.0μm 線寬突破,打破日美壟斷。安集科技的拋光材料、滬矽產業的矽片等國產材料也正在加速替代進口。28nm 製程包含低功耗(LP)、高效能(HP/HPC)等多個子版本,可靈活適配不同場景:期中LP 版本:用於物聯網感測器、藍牙晶片等,功耗較40nm 降低30%-50%。而HPC 版本:支援伺服器CPU、FPGA 等高效能運算,電晶體密度較40nm 提升2 倍。中芯國際透過自對準四重曝光(SAQP)技術,在28nm 設備上實現7nm 等效性能,良率達85%,接近台積電7nm 水準。重要的目標客戶是重點供應新能源汽車電池管理系統(BMS)、自動駕駛輔助系統(ADAS)等晶片。例如,恩智浦的28nm 雷達單晶片支援300 公尺檢測距離,已應用於特斯拉、比亞迪等車企。工業控制領域涵蓋工業機器人控制模組、智慧電網設備等,需求穩定性強,生命周期超過10 年。消費性電子方向,繼續為高通生產驍龍425 等28nm 處理器,同時承接華為海思的射頻晶片訂單。對於國產供應鏈來說,雖然美國對華技術制裁重心轉向5nm 以下先進製程,28nm 設備進口限制相對寬鬆。中芯國際抓住窗口期,在18 個月內完成28nm 產線全面國產化替代,實現車規級晶片自給率94%。此次擴建後,可進一步減少對台積電、三星的依賴,保障供應鏈安全。另外中芯國際在上海臨港、深圳坪山、天津等地同步推動28nm 擴產,形成全國產能網絡。例如,天津12 吋廠規劃月產能10 萬片,聚焦汽車電子和物聯網;上海臨港廠採用"雙子星" 設計,支援更高產能密度。2025 年中芯國際28nm 產能佔全球30%,預計2026 年達35%,成為該節點最大供應商。此舉將重塑產業定價權,削弱台積電、三星在成熟過程的議價能力。擴建工程預計為國產設備廠商帶來超92 億元訂單,推動北方華創、中微型公司等企業技術升級。同時,透過"設計- 製造- 封測" 協同創新,長電科技的3nm 先進封裝技術可與中芯28nm 製程結合,實現異構整合解決方案。GM尚未成功台積電計劃2026 年量產2nm 工藝,而中芯國際7nm 等效技術尚未實現大規模商用。需持續加大研發投入(2025 年研發佔比超30%),加速N+1/N+2 製程研發。由於28nm 製程單晶圓成本較EUV 製程高25%-30%,需透過規模化生產(2025 年總產能目標200 萬片/ 月)及高附加價值產品(如車規晶片)提升毛利率。儘管美國目前暫時放寬28nm 設備管制,但未來可能擴大製裁範圍。中芯國際需進一步完善"去美國化" 供應鏈,例如引進日本愛發科的真空設備、德國通快的雷射加工系統。中芯國際北京亦莊28nm 擴產是其"成熟過程反制先進封鎖" 戰略的關鍵一步,透過產能擴張、技術優化和供應鏈自主化,既滿足國內新能源汽車、工業自動化等領域的爆發式需求,又構建抵禦地緣政治風險的"安全墊"。此舉不僅鞏固中芯國際全球第三大晶圓代工廠的地位,更將推動中國半導體產業從"替代進口" 向"技術引領" 躍遷。建議持續關注國家大基金投資動向、ASML 設備出口政策及中芯國際先進製程研發進展。 (IT前哨站)
俄羅斯竊28nm晶片技術
據NRC報導,現年43 歲的俄羅斯工程師German A. 被指控秘密向俄羅斯提供ASML、NXP 和TSMC 的敏感技術資訊,據稱是為了幫助俄羅斯建造一座28nm 晶圓廠。他的非法收入約為40,000 歐元,目前面臨18 至32 個月的監禁。儘管German A. 一個人無法竊取半導體的完整設計,但一個協調一致的團體可能會協助俄羅斯的半導體生產。德國人A.被指控向俄羅斯提供ASML、GlobalFoundries、NXP、台積電和GlobalFoundries的機密技術資料,包括半導體生產手冊和各種晶片製造機器。據報導,調查人員發現他獲得了ASML的105份內部檔案和88份與台積電有關的檔案。這些材料並不包含製造晶圓製造裝置的完整藍圖或更重要的內容(例如,晶圓廠本身或如何設計工藝技術)。儘管如此,它們仍被標記為機密,可以支援建立一條基本的半導體生產線,該生產線能夠以28nm 級工藝技術生產晶片,這足以用於軍事應用。調查人員認為,他透過雲端儲存和訊息應用程式分享了這些資料,並在莫斯科交出了一個U 盤,據稱在此過程中賺了大約40,000 歐元。據報導,德國A. 還涉嫌試圖獲取化學氣相沉積工具,可能是為了裝備俄羅斯未來的晶片工廠。然而,據報導,該工具最初被轉運到以色列,但從未交付。2024 年8 月,德國A. 在收到國家情報機構的報告後被拘留。一個月後,ASML 和NXP 正式獲悉間諜嫌疑。他的案件目前正在法庭審理中,當局懷疑他與俄羅斯情報部門有聯絡。兩家公司都參與了調查,並已對這名前僱員提出投訴。雖然德國間諜A 不可能竊取在俄羅斯建造一座功能齊全的半導體生產設施所需的所有工具的藍圖,但此類間諜網路卻有可能完成這項任務,並恢復敵對國家的半導體生產。在2024 年被捕之前,德國人A 在半導體開發和生產行業工作多年。 2008 年和2009 年,他在比利時研究中心Imec 實習。之後,他加入了希臘研究機構NCSR,後來開始在GlobalFoundries 位於德勒斯登的工廠Fab 1 工作。 (半導體材料與工藝裝置)