#可重構晶片
輝達攜Rubin重磅轉身,中美正瘋搶同一個未來
可重構計算AI芯片,誰主沉浮?1月5日,拉斯維加斯CES展。一身新皮衣的黃仁勳,再度向全球拋出的一枚“重磅炸彈”——Rubin晶片平台。一連串數字,勾勒出Rubin的超強實力:訓練性能是Blackwell的3.5倍,AI軟體運行性能飆升5倍;AI推理的token生成成本,更是僅為前代的1/10,堪稱“省油超跑”。但這種“性能狂飆、成本狂斬”的表現,卻是被逼出來的。實際上,TPU和可重構資料流架構(RPU)的崛起,正兇猛侵蝕輝達的霸權。去年11月,Meta擬採用GoogleTPU的傳聞一出,輝達一夜蒸發數千億美元。焦頭爛額的黃仁勳,不得不光速出手,將可重構資料流晶片公司Groq收入囊中。如今,Groq的併購與Rubin的發佈,共同指明了AI晶片的“收斂時刻”,那就是:更高性能的通用晶片,才是所有人要奔赴的終極戰場。01. 瘋搶高階TPU2026年的帷幕,在全球算力產業的喧囂中拉開。前有中國GPU公司壁仞、天數接連上市,大漲連連;後有百度崑崙芯IPO交表,期待滿滿……資本與技術的熱浪,撲面而來。但真正重塑產業格局的驚雷,早在2025年聖誕節的凌晨炸響。這一天,全球GPU巨頭輝達以200億美元(約1400億人民幣)的價格,買了一家“非GPU”的傳奇公司——Groq。這不是一次傳統收購,而是一次巧妙的“准收購”。輝達以其持有現金三分之一的巨資,打包買走了Groq的核心技術、圖紙和核心人才,留下公司空殼獨立營運。為什麼是“准收購”?因為正式收購,輝達要經過嚴苛、冗長的盡調、談判、反壟斷審查……但黃仁勳等不及了,於是砸錢、吃乾、抹淨。這是一次瘋狂的收購。三個月前,Groq的估值還僅為69億美元。如今,黃仁勳不惜拋出3倍溢價,豪擲百億美金,彰顯出對Groq志在必得。因為,這不是僅僅針對TPU的戰備防禦,而是一次極其前瞻的戰略佈局。Groq主攻的,是特有的LPU晶片技術,即用軟體定義硬體的“可重構資料流架構”。這種獨特的設計,能讓LPU在處理大模型時,實現Token“瞬時”+“準時”的吞吐,超越GPU、TPU的物理極限,實現比GPU快5-18倍、能效比高10倍的突破,加上Groq是由GoogleTPU之父創辦,因而被行業稱為“高階TPU”。這是輝達真正缺乏,或許也是讓黃仁勳心動不已的技術。而在AI從“訓練”向“推理”轉換的時代,可重構資料流架構將是GPU難以抵擋的存在。彭博社的報導,已經預見了這樣的未來:目前,訓練成本佔到資料中心支出的60%;但到2032年,這個比例將暴跌到20%。屆時,Groq這種又快又省的“高階TPU”,不但很可能吊打GPU,更會成為巨頭們瘋搶的對象。於是,前有Meta掉頭用GoogleTPU,令輝達股價暴跌,殷鑑不遠;後有輝達果斷出手,以免Groq被人截胡,令黃仁勳肝腸悔斷。感受到風向的不只輝達,英特爾同樣在瘋搶“高階TPU”。去年10月,英特爾已有意收購美國可重構AI晶片獨角獸SambaNova,要在可重構賽道施展拳腳。短短2個月,英特爾已與SambaNova簽下一份收購意向書。但猝不及防的是,輝達光速完成Groq的收購。這個消息猶如晴天霹靂,打亂了英特爾的收購節奏。可以想見,棋差一著的英特爾,很可能在後續收購談判中,面臨SambaNova估值的水漲船高。所以,瑞銀分析師精準地表示:“輝達買的是現在的入場券。”而在大洋彼岸的中國,一則中國晶片企業融資的消息,同樣意味深長。2025年12月2日,北京四大明星晶片公司清微智能宣佈,完成超20億元人民幣的C輪融資。清微智能打造的RPU,與Groq的LPU,屬於同源的可重構資料流技術路線。顯然,中美兩國的超級資本,幾乎不約而同將重注,同步押在“可重構”這個關鍵戰場。02. 2026,三大流派爭雄在“榜一大哥”們相繼投下重注後,2026年AI晶片三大技術流派至此可見端倪:一是GPU派,二是ASIC派,三是可重構資料流派。GPU派,以輝達、摩爾線程為代表,是當今AI晶片領域的絕對霸主。GPU架構猶如精密的工業流水線,計算單元像訓練有素的工人,在馮·諾依曼架構的框架下高效運轉。它的核心優勢,更在於用數十年構築的軟硬體生態“護城河”,讓開發者能夠即插即用,不但開發方便,同時也形成了極高的遷移壁壘。但GPU晶片的性能提升,非常依賴於半導體製程的極限突破,以及HBM頻寬的艱難提升。當“記憶體牆”、高功耗等問題席捲而來,GPU為通用性付出的代價,讓效率的進一步提升困難重重。但人類顯然不肯吊死在GPU這一棵樹上。於是,就有了ASIC派,以GoogleTPU、寒武紀、百度崑崙芯為代表。ASIC架構,走的是一種“特種兵路線”。它是一種為特定演算法深度定製的積體電路,通過將硬體與演算法深度繫結,實現AI運算的極致能效。所以,在AI運算上,它性能高、功耗低。像GoogleTPU,已在其全球資料中心大規模部署,並吸引了OpenAI等合作夥伴,充分證明其商業價值。但ASIC的短板也很明顯,一旦演算法迭代,硬體難匹配,晶片就有過時、甚至被廢的風險。那AI晶片,能不能“既要又要”呢?也就是,既能實現高性能、低功耗,又能夠根據演算法變化,實現硬體靈活重構?於是,有了“可重構資料流派”正式登場。像Groq的LPU、清微智能的RPU,都屬於這一派。它的核心,是“軟體定義硬體”。也就是說,RPU內部的硬體資源,可通過軟體指令、即時重組,所以像一條可以隨時調整工序的智能流水線。拿廚房,來打個比方。在“GPU廚房”裡,廚師(計算核心)要取菜、切菜、炒菜,只能在冷庫(記憶體)、菜墩、灶台之間不停跑來跑去。AI資料越多,廚師跑的越快,“記憶體牆”問題越大。而在“ASIC廚房”裡,廚房建成了傳送帶,食材(資料)會按固定演算法不斷流入,廚師(計算核心)只要在固定工位上處理,很快就能把飯菜做出來。這樣效率確實提高了,但問題也很明顯,“ASIC廚房”只能做幾道固定的菜(演算法),比如宮保雞丁。那客人突然要吃滿漢全席咋辦?這時候,就輪到“RPU廚房”大顯身手。它能隨時改變配菜的流水線(演算法),想吃煲仔飯、小炒肉、佛跳牆……流水線隨時變,又快又好。所以,這種兼具ASIC高效能和GPU靈活性的可重構晶片(RPU),又被稱為晶片界的“變形金剛”。它究竟有多強?以清微智能量產的TX81晶片為例。搭載可重構TX81晶片的AI訓推一體伺服器,同等功耗下,一台伺服器,就能搞定兆參數大模型的部署。像REX1032訓推一體伺服器,單機支援DeepSeekR1/V3滿血版推理,成本大降50%,能效比提升3倍。這樣的性能,純屬降維打擊。所以2026年開年之際,三大技術流派的定位,突然塵埃落定:GPU派在訓練和通用計算中雖然保持核心地位,但ASIC派,正用極致能效比,主攻特定模型的推理場景,讓雲廠商降本增效;而可重構資料流派,更以其靈活、高效、確定性,成為多元化AI晶片生態的重要力量。特別是輝達對Groq的收購,直接印證了可重構技術的產業價值,這個曾被國際半導體界譽為“未來最具前景的晶片架構”,正從細分走向主流,並成為頭部企業爭相佈局的核心方向。但在中國,這不是未來,而是現實。03. 高階超越之路2025年深冬,新疆雙河市,這裡距離阿拉山口口岸僅‌51公里‌。一座嶄新的中樹雲智算中心拔地而起,投入營運。▲中樹雲雙河智算中心實景這是全疆第一座基於可重構計算架構打造的綠色算力樞紐,其首期工程,全部基於清微智能的可重構計算晶片部署、打造。從底層架構到核心IP,它全鏈條自主可控,肩負起國家“東數西算”和“算力出海”數字節點的重任。更大的驚喜在於,清微智能剛剛發佈的新一代超節點方案,憑藉超越GPU和ASIC叢集的高算力和高視訊記憶體,將成為可重構AI計算領域的“大國重器”,令人期待。AI生態上,清微智能深度融入國產“眾智FlagOS”開源生態,並與寒武紀、崑崙芯、摩爾線程、華為昇騰、中科海光攜手,作為國內唯六的“FlagOS卓越適配單位”。此外,清微智能還在全國範圍展開“織網”,黑龍江、浙江、安徽、北京等多省市的千卡級智算中心相繼落地,算力卡訂單總量突破30000枚。IDC資料顯示,2025年上半年清微智能的出貨量已妥妥進入國內第一梯隊。所有這些,不僅意味著中國的可重構晶片從“可用”邁入“好用”的實戰階段,更從“技術突破”躍升到“規模落地”的新階段。即便放眼全球,中國可重構晶片技術的水平,也與國際主流並駕齊驅。清微智能的下一代晶片,更是瞄準了3D可重構架構,力圖將AI晶片有效頻寬提升10倍,能效比提升數倍,實現對國際主流高端AI晶片的超越。這是真正掀桌子的技術。即便面對Groq、SambaNova,中國人完全可以保持“平視”。所以,清微智能才會獲得國家積體電路產業投資基金(大基金二期)的垂青,而且是“大基金”唯一投資的新架構晶片企業。最新的C輪融資中,京能集團、北創投、京國瑞等北京國資巨頭更聯手入主,成為其未來發展的“壓艙石”。至此,清微智能正式躋身自主可控“晶片矩陣”,與摩爾線程、崑崙芯、寒武紀一起,納入北京AI晶片矩陣的“四大金剛”之列。仔細比對就會發現,“四大金剛”恰好實現對“三大技術流派”的全覆蓋。當國家級資本加碼與輝達天價收購一併發生時,兩件事看似獨立,實則指明了同一個趨勢,那就是:伴隨全球算力競賽的白熱化,AI晶片將進入非GPU(ASIC和可重構)全面參與角逐的新階段。行業預測,更是樂觀。據IDC預測,2028年中國AI加速卡市場中,非GPU產品的佔比有望從2025年上半年的約30%,提升至接近50%。佔據半壁江山。這意味著,中國的可重構企業在未來三年不僅迎來估值的全球對標,更會躋身算力主會場,成為決勝未來的關鍵力量。誠如國產新能源汽車,通過電動化、智能化、網聯化繞開西方燃油車的百年技術壁壘一樣;清微智能的可重構計算,走的同樣是一條“高階國產替代”之路——不沿著傳統巨頭的路線跟隨式替代,而是探索一條自主可控,符合國情的發展路線完成替代。一邊,是輝達豪擲200億美元,企圖用金錢買斷未來的不確定性;另一邊,以清微智能為代表的中國力量,正在用顛覆性技術,創造自己的未來。2026年已至,算力迎來大爭之世。是巨頭繼續壟斷,還是新銳崛起?所有人都在拭目以待。 (市值觀察)
可重構晶片,被人民日報點名!
引言「強化人工智慧晶片、演算法等關鍵領域的中國國產替代,探索可重構、存算一體、超規格高算力智慧晶片等新型架構晶片」——人民日報《搶抓人工智慧發展的歷史性機會》近日,人民日報刊文《搶抓人工智慧發展的歷史性機遇》,其中特別提到一項關鍵技術——“可重構晶片”,這種被寄予厚望的晶片,有望成為AI時代的“加速引擎”。今天,讓我們沿著科技發展脈絡,全方位瞭解其技術原理,探究它如何革新計算模式。全系列文章共分為五個篇章,今天為系列文章的第一篇。可重構晶片:資料驅動動態重構可重構晶片(Reconfigurable Processing Unit, RPU)是一種能夠動態組態運算資源的新型晶片。此類晶片的核心在於內含可程式設計的處理單元及互連網路,能夠基於具體應用的運算需求和資料流特性,在運行過程中利用動態重構技術實現計算單元、互連結構和資料通路的動態按需組態,從而以接近「專用電路」(ASIC)的方式進行資料驅動下的計算。硬體層面的動態重構不僅具有完整的可程式設計能力,支援各類演算法和應用;而且提供了更精確靈活的硬體調度能力,大幅提高了晶片的面積效率和能量效率。因此,高能效比、高擴展性和高度的靈活性是該類晶片的最大特點。技術原理:高效能運算晶片中的“變形金剛”正是因為這種高度的靈活性,曾有媒體將可重構晶片稱為晶片界的“變形金剛”,其革命性體現在兩大核心技術特徵:(1)資料流驅動架構透過資料流直接驅動晶片運算和資料傳遞。與傳統CPU的指令驅動模式不同,其硬體資源(處理單元和互連網路)由資料流特性即時動態對應,消除了指令解碼、分支預測等傳統開銷,能效比提升可達十倍量級。(2)多層次重構能力支援從微架構到電路層的多粒度重構:計算單元重構:透過組態參數定義運算器功能(如算符和精度切換)互連網路重構:動態調整計算單元間的連接拓撲儲存系統重構:根據資料存取模式最佳化快取分配策略可重構晶片的內部結構主要有以下幾個部分組成:運算陣列:由處理單元(PE)陣列構成,每個PE具有多種算術邏輯運算能力,透過可程式互連網路形成複雜的資料路徑。可重構控製器:發射“組態資訊”,動態調整計算陣列的連接方式和運算模式。這種分離設計(資料流與控制流獨立)使得晶片能夠像CPU一樣靈活可程式設計,同時保持接近ASIC的能源效率。記憶體:分為組態記憶體和資料記憶體。設定記憶體儲存運算陣列「設定資訊」;資料記憶體儲存運算陣列所需的原始資料、中間資料和結果資料。圖1.可重構晶片基本架構[1]動態重構是可重構晶片(RPU)的「核心殺器」。它以無指令驅動的資料流運算方式和動態重構能力,顯著區別於傳統CPU和GPU。與CPU的馮諾依曼指令驅動架構不同,其硬體資源(處理單元和互連網路)可直接由資料流對應任務需求,消除了指令解碼和分支預測等指令開銷,能效比更高;相較於GPU的固定並行化架構(依賴SIMD/Warp調度),可重構模式透過重構支援多粒化模式可重構晶片的動態重構能力使其在能源效率、靈活性和開發成本之間取得最優效能,尤其適合在演算法快速迭代或需求多變的領域應用。因此,可重構晶片也被學術界和產業界視為CPU、FPGA和GPU之外的第四類通用運算晶片。可重構計算進化史:從理論到實踐的跨越可重構晶片的發展歷程呈現出全球技術演進與國家戰略驅動的雙重特徵。自1991年「新機器範式」提出可重構運算架構以來,該領域逐步從理論研究走向產業實踐:1997年加州大學柏克萊分校啟動GARP項目,針對可重構運算架構進行概念驗證;2003年麻省理工學院啟動MORPHEUS項目,探索可重構計算在專用領域的應用。2006年清華大學成立可重構運算實驗室,研究可重構運算理論與架構實作。2015年清華大學在可重構晶片方面的研究成果榮獲國家技術發明二等獎。同年,國際半導體技術路線圖(ITRS)將可重構晶片列為「未來最具前景晶片架構技術」。2016年,美國電子復興計畫(ERI)明確將可重構運算(軟體定義硬體)列為未來運算晶片的核心架構技術。2017年,國務院在《新一代人工智慧發展規劃》中將可重構計算列入“新一代人工智慧關鍵共性技術體系”,重點支援其發展。2017年清華大學團隊突破動態重構、多粒度融合等關鍵技術,研發出「Thinker」系列可重構AI 晶片,實測表明,該晶片運行典型人工智慧任務時,能效比顯著高於同類GPU。 Thinker晶片被《麻省理工科技評論》專題報導。2019年初,清微智慧公司的首款可重構晶片,也是全球第一顆可重構商用晶片大規模量產。同年,賽靈思推出包含粗粒度可重構陣列(CGRA)架構的Versal系列產品,面向資料中心與高階智慧駕駛,算力達到128TOPS。2020年美國SambaNova公司發表基於可重構晶片的DataScale平台,並在多個美國多個算力中心、國家實驗室和研究機構規模部署。2021年Mobileye公司在L4自動駕駛晶片中嵌入粗粒度可重構陣列。2022年GoogleTPU v4借助可重構互連技術實現算力躍升(同等晶片數時,處理速度達A100的1.67倍)2023年日本採用可重構晶片建造了「富岳(Fugaku)」超級電腦,名列全球超算排行榜(TOP500)第二名,處理AI任務的性能達到A100叢集的6倍。從這項發展脈絡不難洞察,可重構晶片的價值正逐步獲得廣泛認知,並開始在實踐中得以深度應用。可重構晶片未來發展演進可重構晶片作為下一代運算範式的核心載體,將沿著智慧化融合與彈性化演進兩大主軸深度發展,透過架構創新與跨層技術協同,建構適應多元場景的算力基座。其演進路徑主要體現在以下三個維度:架構革新:動態異質與資源重複使用多層次重構能力:透過動態層次化重構技術(資料級/張量級/任務級)與混合粒度架構設計(如粗粒度可程式單元與細粒度加速器協同),實現運算資源在時空維度的彈性調度與高效復用,突破非規則計算負載的資源適配瓶頸。並行化擴展:支援從SIMD到資料流驅動的多樣化並行模式,結合非馮架構的存算一體化設計,顯著提升演算法對應效率,尤其適用於稀疏計算、圖計算等複雜場景。軟硬協同:敏捷開發與智慧編譯SDH(軟體定義硬體)範式深化:基於組態輕量化管理、執行時間自適應最佳化及AI驅動的智慧編譯框架,建構從演算法到硬體的敏捷開發鏈路,降低開發門檻並提升硬體資源利用率。多模態運算融合:整合存內運算、近似運算、模擬運算等新運算單元,結合3D整合與光互連技術,實現能效數量級提升,滿足AI大模型訓練推理、邊緣即時決策等場景的差異化需求。場景驅動:垂直最佳化與生態建構領域專用化演進:針對自動駕駛、工業物聯網、生物運算等垂直領域,形成可組態範本庫與敏捷開髮套件,加速演算法-晶片協同最佳化。開放生態延伸:透過多層次程式設計模型拓展(如RISC-V擴展、Triton框架)建立軟硬體解耦生態,推動跨平台工具鏈與開源社群建設,釋放長尾應用創新潛力。結語《人民日報》提及的可重構晶片,是實現高算力、高能效智慧運算的有效途徑之一。從技術原理而言,它透過「軟硬體雙程式設計」達成了靈活性與高能效的統一;從發展歷程來看,其突破既依託國際學術屆長期積累的成果,更離不開國內產學研多年的持續探索。當下,伴隨後摩爾時代的來臨,可重構晶片將成為解決「效能牆」「儲存牆」「功耗牆」難題的關鍵所在。正如電腦圖靈獎得主Patterson教授所說:“我們正進入運算架構的另一個黃金時代”,而中國實踐的一系列成果正在證實,可重構晶片必將在未來的科技發展浪潮中扮演愈發重要的角色。可重構晶片究竟藏有什麼「神秘魔法」?為何它是最有前景的AI運算架構?下一篇文章,我們將從多維度深度剖析其中奧秘。參考資料[1]DE SUTTER B, RAGHAVAN P, LAMBRECHTS A. Coarse-Grained Reconfigurable Array Architectures[M/OL]//BHATTACHARYYA SS, DEPRETTERE EF, LEUPERS R, 等. Handbook of Signal Processing Systems. Boston, MA: Springer, LEUPERS R, 等。[2]PODOBAS A, SANO K, MATSUOKA S. A Survey on Coarse-Grained Reconfigurable Architectures From a Performance Perspective[J/OL]. IEEE Access, 2020, 8: 146719-146743.[3]清微智能官網http://www.tsingmicro.com/ (半導體產業觀察)