頻寬戰爭前夜,“中國版Groq”浮出水面

在AI算力賽道,輝達憑藉Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻互動推理任務中的延遲短板愈發凸顯。

為破解這一痛點,輝達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。

這一金額不僅創下輝達歷史最大手筆交易、刷新了推理晶片領域的估值紀錄,更鮮明地昭示著輝達從“算力霸主”向“推理之王”轉型的意志。

緊隨這一動作,據技術博主AGF消息進一步披露,輝達計畫在2028年推出新一代Feynman架構GPU——採用台積電A16先進製程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度整合Groq那套專為推理加速而生的LPU(語言處理單元),相當於給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“頻寬牆”與“延遲瓶頸”。

這些動作表明:AI行業的競爭正從單純的算力比拚,轉向對單位面積頻寬的極致追求——這與輝達此前“大模型推理90%的延遲源於資料搬運,導致算力利用率常低於30%”的結論不謀而合。

無獨有偶,AMD通過3D V-Cache持續驗證儲存靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理晶片公司,更是聚焦流式執行與片上頻寬建構核心競爭力,用實際行動印證這一行業共識。

頻寬戰爭打響,誰是“中國版Groq”?

回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI晶片企業集體爆發並密集衝擊IPO,資本熱度居高不下。

然而,當輝達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“頻寬牆”問題,誰就握住了下一輪周期的入場券。

在這一背景下,國內賽道湧現出前瞻性佈局者。

近日,半導體行業觀察注意到,一家源於北京大學物理學院的AI晶片公司——寒序科技(ICY Technology),宣佈完成數千萬元人民幣新一輪融資。這家企業以“超高頻寬推理晶片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。

“中國版Groq”的名號,初見端倪。

實際上,寒序科技的技術披露並非偶然,而是源於在內部保密原則下的長期的低調深耕。

早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、電腦學院、積體電路學院,以及澳門大學模擬與混合訊號積體電路全國重點實驗室,先後承擔、主持兩項北京市科技計畫項目。他們前瞻性地鎖定0.1TB/mm²/s超大頻寬流式推理晶片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與頻寬指標。

這意味著,當Groq因LPU爆紅被視為“推理新範式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。

據瞭解,寒序科技採用“雙線佈局”建構核心競爭力:一方面,已發佈SpinPU-M系列磁機率計算晶片,推出1024位元全連接伊辛退火求解硬體,覆蓋組合最佳化與量子啟髮式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算晶片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機儲存器)為核心介質,建構超高頻寬磁性流式處理架構。

能看到,寒序科技並未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想像力的技術路線。

眾所周知,當前主流的AI計算範式面臨多重困境:採用HBM的GPU方案,頻寬受限於昂貴的2.5D/3D先進封裝,核心儲存器件HBM產能被海外巨頭壟斷且面臨出口管制;採用SRAM的Groq方案,則因SRAM單元面積大、成本高,單晶片儲存容量有限,難以規模部署千億參數大模型。

面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行儲存與計算。

而這種底層邏輯的革新,正是源於MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與快閃記憶體的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝相容性,能夠大幅降低對複雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。

與SRAM方案相比,MRAM技術的差異化優勢十分突出:

  • 儲存密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個儲存單元由6個電晶體(6T)組成,儲存密度低,儲存容量小,儲存典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU晶片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然採用1T1M(1個電晶體+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個電晶體的儲存功能,同等晶片面積和工藝節點下,儲存密度是SRAM的5-6倍。
  • 工藝成本更低:MRAM的物理結構優勢,使其在國產工藝製程即便落後一代的情況下,性能指標也能對標甚至超越採用先進製程的SRAM方案。這意味著MRAM無需追逐極先進製程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。
  • 非易失性與高能效:MRAM斷電後資料不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和雲端的大規模部署提供極佳能效優勢,大幅降低運行成本。

通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為晶片級系統性能。據悉,SpinPU-E晶片架構的目標是將訪存頻寬密度提升至0.1-0.3TB/mm²·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是輝達H100(0.002-0.003 TB/mm²·s)的數十倍。

據瞭解,輝達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,並通過多級快取、動態調度和共享儲存來適配高度平行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部儲存(HBM)和複雜記憶體層級的高度依賴。該計算過程呈現出強序列性、小批次和頻寬主導等特徵,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級快取和共享儲存來訪問,資料到達計算單元的時間並不固定,不同計算單元之間也需要反覆等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。

而寒序科技採用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,並圍繞推理資料流建構多級流水執行路徑,使權重和中間啟動在局部高頻寬範圍內按固定順序流動。通過在硬體層面同時約束儲存位置、訪存頻寬、通訊路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部儲存訪問依賴,實現更高的頻寬與更快、更穩定的推理性能。

值得關注的是,MSA架構並非簡單的存內計算概念,而是圍繞推理場景,對資料流組織、儲存-計算耦合方式以及執行節拍進行重新設計,在保證超高頻寬的同時,顯著降低對先進製程與複雜封裝的依賴。

有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的訊號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積頻寬與執行範式。

走出北大實驗室的秘密武器——

“天時地利人和”

SpinPU-E展現出的性能優勢,並非偶然的技術選擇,而是核心團隊跨學科積澱、全鏈條技術把控與前瞻性路線佈局的成果。

據報導,寒序科技是國內首個有能力跑通從物理、材料、器件到異質整合、晶片設計、演算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積澱,核心成員橫跨凝聚態物理、電子科學、電腦技術、人工智慧等多領域:首席執行長朱欣岳兼具凝聚態物理、人工智慧演算法與積體電路的交叉背景,曾主導多模態AI演算法開發、多顆高性能專用晶片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾於清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁儲存/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。

相比純粹的架構創新,寒序科技這種“材料-器件-晶片-系統-演算法”的全鏈條視野和全端攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同最佳化與突破,而非僅停留在邏輯和架構層面的修補。

這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。

回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理晶片起步,逐步延伸至加速卡、伺服器系統、資料中心叢集,最終建構了雲服務平台,形成了“晶片-硬體-系統-雲服務”的全端佈局。

沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯晶片為起點,向上建構硬體產品矩陣,最終通過雲服務觸達更廣泛市場的全端路徑,以建構更強的技術壁壘和產業競爭力。

更關鍵的是,這條路徑並非簡單的模式復刻,而是基於本土產業現狀的創新破局——當行業苦於HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新範式,在中國本土成熟供應鏈基礎上,築起了一座對標全球頂尖推理性能的頻寬高地。

這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。

MRAM開啟新型儲存“黃金時代”

  • 破局“頻寬封鎖”

寒序科技對MRAM技術的探索並非孤例,背後是一場從“備選”走向“必選”的新型儲存技術浪潮。尤其是在全球半導體產業的演進與地緣政治激盪背景下,為MRAM在內的新型儲存鋪就了一條通往AI算力核心舞台的“黃金賽道”。

2024年12月,美國商務部工業與安全域(BIS)發佈新出口管制規則,明確限制向中國出口記憶體頻寬密度超過2GB/s/mm²的尖端儲存器。

這一封鎖點,直指AI推理晶片的命門——頻寬。

目前,輝達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外儲存原廠壟斷,且受限於複雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM記憶體的單卡售價2萬美金),在先進製程微縮上也已近極限。

在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基於國產28nm/22nm等成熟製程實現超高頻寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。

有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一儲存技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落後局面和SRAM對先進製程的依賴,為AI算力產業打造自主可控的“第二曲線”。

  • 全球共振,商業化拐點已至?

當前,產業界正在用實際行動表明,MRAM不再只是實驗室裡的美好構想,而是憑藉獨特優勢正成為全球半導體產業佈局的重點。

其中,晶圓代工龍頭與晶片大廠均在積極佈局:台積電、三星、英特爾、SK海力士、IMEC等憑藉其先進的技術研發和大規模生產製造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和整合度。

恩智浦與台積電合作推出16nm FinFET車規級eMRAM,應用於其S32系列高端MCU,實現寫入速度比傳統快閃記憶體快10-15倍、耐久性超百萬次;瑞薩電子也推出了基於22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積澱。

據LexisNexis資料統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降並不代表興趣的下降,而是專利申請和公開之間的時間存在滯後。

這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。

回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型儲存技術的發展機遇,積極佈局相關領域。

RRAM領域湧現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真儲存、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對於RRAM基於電子電荷遷移,是一種統計物理範疇下的阻變器件;MRAM的存取機理是基於自旋的確定性兩態翻轉,更加可控、精準,大規模製造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被台積電等半導體巨頭作為下一代面向AI的儲存技術重點押注。

具體來看,本土MRAM廠商各有側重,多數主要集中於儲存、加密、嵌入式控制等傳統領域,例如:致真儲存專注於磁性隧道結(MTJ)的核心器件研發與製造工藝,掌握從材料研發到器件製造的全鏈路技術,擁有國內唯一的8英吋磁儲存晶片專用後道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研製出全球首顆8Mb容量自旋軌道力矩磁隨機儲存器晶片(SOT-MRAM),實現SOT-MRAM容量規模化突破。

馳拓科技專注於MRAM儲存晶片的技術研發與生產製造,建有12英吋MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,儲存器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。

凌存科技專注於儲存模組開發,致力於將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的儲存器MeRAM原型機及基於MeRAM的真隨機數發生器晶片,產品廣泛應用於車載電子、高性能運算、安全等領域。

寒序科技則獨闢蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質建構計算晶片,將MRAM的物理優勢轉化為算力與頻寬優勢,開闢了“磁性計算”這一全新賽道,致力於從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從儲存替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶佔全球“磁計算”的戰略高地。

綜合來看,從器件、裝置、製造到系統應用,國內產業鏈的前期佈局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從儲存到計算的關鍵空白,為後續誕生更多行業廠商提供了土壤和必然性。

  • 生態共建:國產MRAM的“磁計算”革命

根據市場研究機構Precedence Research資料顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。

雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同建構生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。

例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支援,積極推動MRAM這一有希望在頻寬領域實現“變道超車”的關鍵技術。

同時,借鑑台積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝最佳化,爭取儘早打通“設計-製造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM晶片的流片成本與量產門檻。

還有一點不可忽視。輝達收購 Groq核心技術,計畫在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。

這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI晶片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,建構差異化競爭力。

產業界正釋放清晰訊號:以MRAM為代表的新型儲存,已成為後摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積澱,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI晶片產業實現換道超車的關鍵抓手。

五年後,誰將主導下一代推理晶片?

當摩爾線程、沐曦、天數、壁仞等國產AI晶片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標誌著中國在基於傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收穫期。

如果說上一代AI晶片的競爭是“算力競賽”,那麼下一代的分水嶺將是“誰能率先跨過頻寬牆”。

在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上整合路徑,用極高成本將頻寬推向極限,並因此獲得了行業霸主輝達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型儲存介質路線,為突破頻寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。

數年後,當AI推理進入“頻寬決勝”的新時代,晶片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬於那些能夠率先在“頻寬戰爭”中沉澱出護城河的先行者。

正如Groq在矽谷用SRAM驚豔了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。

在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依託MRAM磁性計算的新範式,給出“中國版”的實現路徑——並且,這條路,他們早在多年前,就已開始默默鋪設。 (半導體行業觀察)