#處理器
祝賀中國科大,取得重要突破!
近日記者從中國科學技術大學獲悉,該校潘建偉、朱曉波、彭承志、龔明等學者牽頭合作,基於可程式設計超導量子處理器“祖沖之2號”,首次在量子體系中實現並探測了高階非平衡拓撲相(HOTPs),取得了量子模擬在探索複雜拓撲物態方向上的重要突破。相關論文於11月28日發表於國際學術期刊《科學》上。拓撲相是近年來凝聚態物理與量子模擬領域的重要研究方向。與傳統拓撲相不同,高階拓撲相在更低維度的邊界上出現了區域態,挑戰了傳統對應關係。在量子體系中實現高階拓撲相一直是國際前沿的科學挑戰。當下,拓撲物態研究從平衡體系向非平衡體系拓展,已成為凝聚態物理的重要前沿方向。非平衡拓撲相表現出平衡體系所不具備的特性,揭示出拓撲與動力學之間複雜而深刻的內在聯絡,為在時間維度對量子態進行高精度、高穩定的超快操縱提供可能。然而,非平衡高階拓撲相的實驗實現長期面臨巨大挑戰。中國科大研究團隊基於“祖沖之2號”超導量子處理器的可程式設計能力,首次在實驗中實現了平衡與非平衡二階拓撲相的量子模擬與探測。該成果標誌著二維可程式設計量子模擬能力的顯著提升,為利用超導量子處理器在量子模擬問題上實現量子優勢奠定基礎。《科學》審稿人高度評價這一工作,認為該研究“在以往一維實驗的基礎上取得了重要突破,擴展到二維體系是一次顯著的提升,展示了豐富的實驗能力;所發展的測量與分析非平衡拓撲物態的理論方法具有新穎性和趣味性。” (芯榜)
突破難題,中國成功研製!
首次!突破世紀難題!中國成功研製出新型晶片近日,北京大學人工智慧研究院孫仲研究員團隊聯合積體電路學院研究團隊,成功研製出基於阻變儲存器的高精度、可擴展模擬矩陣計算晶片,首次實現了在精度上可與數字計算媲美的模擬計算系統。該晶片在求解大規模MIMO訊號檢測等關鍵科學問題時,計算吞吐量與能效較當前頂級數字處理器(GPU)提升百倍至千倍。相關論文於10月13日刊發於《自然·電子學》期刊。如何讓模擬計算兼具高精度與可擴展性,從而在現代計算任務中發揮其先天優勢,一直是困擾全球科學界的世紀難題。孫仲團隊選擇了一條融合創新的道路,通過新型資訊器件、原創電路和經典演算法的協同設計,建構了一個基於阻變儲存器陣列的高精度、可拓展的全模擬矩陣方程求解器,首次將模擬計算的精度提升至24位定點精度。在計算精度方面,團隊在實驗上成功實現16×16矩陣的24位元定點數精度求逆,矩陣方程求解經過10次迭代後,相對誤差可低至10⁻⁷量級。在計算性能方面,在求解32×32矩陣求逆問題時,其算力已超越高端GPU的單核性能;當問題規模擴大至128×128時,計算吞吐量更達到頂級數字處理器的1000倍以上,傳統GPU幹一天的活,這款晶片一分鐘就能搞定。同時,該方案在相同精度下能效比傳統數字處理器提升超100倍,為高能效計算中心提供了關鍵技術支撐。 (參考消息)
CPU被超!GPU成市場新主角
2024年GPU銷售額超越APU和CPU,成為各類處理器中銷售額冠軍。Yole Group 近日發佈《2025 年處理器產業狀況》報告,指出全球處理器市場正經歷由生成式 AI 與雲端基礎設施推動的深刻變革。Yole Group 提到,2024 年 GPU 銷售額超越 APU 和 CPU,成為各類處理器中銷售額冠軍。其銷售額達 1130 億美元,佔總處理器銷售額的 39%,一年內實現 126% 的增長。這一增長主要受 NVIDIA 主導地位及生成式 AI 模型對 GPU 需求增加的推動。Yole Group 認為,到 2030 年,GPU 市場規模將達 2390 億美元,是 2024 年的 2 倍以上,增長背後是伺服器 GPU 平均售價的上升。同時,美國出口限制已重塑競爭格局,尤其在中國市場。儘管當前 GPU 佔據市場主導地位,但專為人工智慧應用設計的積體電路(AI ASIC)正成為戰略替代方案。ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其定製程度相比於 GPU 和 FPGA 更高。ASIC 算力水平一般高於GPU、FPGA,但初始投入大,專業性強縮減了其通用性,演算法一旦改變,計算能力會大幅下降,需要重新定製。Google、亞馬遜(Amazon)、華為等超大規模雲端服務商,正大量投資專有解決方案,以減少對 NVIDIA GPU 的依賴。Google 早在 2013 年就秘密研發專注 AI機器學習演算法晶片,並用於雲端運算資料中心,取代輝達 GPU。這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。Google 其實在 2020 年的資料中心便建構 AI 晶片 TPU v4,直到 2023 年 4 月才首次公開細節。值得注意的是TPU是一種定製化的 ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。亞馬遜也推出了其自研 AI 晶片Trainium,以減少對輝達的依賴並提高自身在 AI 領域的競爭力。該公司投資大量資金用於技術基礎設施建設,並已定製晶片以提升資料中心效率,降低成本。亞馬遜與被收購的晶片初創公司 Annapurna Labs 合作,旨在打造自有的 AI 晶片,同時也在投資 AI 基礎設施。據預測,2024 年至 2030 年,AI ASIC 市場年複合增長率(CAGR)將達 45%,規模將從 2024 年的 90 億美元增長至 2030 年的 850 億美元,成為行業增長最快的部分。其他類型處理器銷售情況好壞不一:DPU 增長與人工智慧及伺服器需求相關,預計 2030 年將增長至 170 億美元;FPGA 2024 年銷售額出現下滑,但預計將逐步穩定,2030 年前規模達 80 億美元,增長主要受汽車應用支撐。市場層面,2024 年電信與基礎設施領域收入佔比首次超越移動與消費領域,達 53%。預計到 2030 年,這一比例將升至 66%,凸顯雲端人工智慧部署的核心作用。汽車行業,尤其是與 ADAS 及娛樂系統相關的應用,同樣是增長引擎,預計 2030 年前年增長率將達 15%。近日來自大摩的一份報告也給GPU市場熱度再添一把火。摩根士丹利(大摩)最新報告顯示,在與輝達管理層會談後,對其在人工智慧(AI)領域的短期及長期需求信心增強,維持“增持”評級,目標價設定為 210美元,對應總市值約 5.1兆美元。這一積極的評估,反映了市場對 GPU驅動的 AI 基礎設施建設的樂觀預期,以及輝達在這一領域的領先地位。報告指出,全球雲資本支出持續擴張,計算核心正從CPU 向 GPU 加速遷移。這一趨勢是輝達收入增長的主要動力。隨著 AI技術在各行各業的深入應用,對算力的需求呈現爆發式增長。輝達憑藉其在 GPU 領域的深厚積累,以及 CUDA 等生態系統的優勢,成為了 AI 基礎設施建設的核心供應商。大摩預計,到 2030年,AI 基礎設施市場規模有望達到 3至5兆美元,遠高於此前的預測,這無疑為輝達帶來了巨大的增長潛力。針對輝達與OpenAI 合作引發的供應商融資議題,摩根士丹利的分析師團隊認為,這種模式是“需求加速器”。輝達正通過投資 CoreWeave及英國主權基金等方式擴巨量資料中心產能,以滿足市場日益增長的需求。這種戰略不僅能夠加速 AI 基礎設施的建設,也為輝達帶來了更多的市場機遇。未來,這種合作模式有望複製到更多企業,進一步鞏固輝達的市場地位。 (半導體產業縱橫)
中興跨界RISC-V
近年來 RISC-V 晶片在全球尤其是中國市場發展迅猛,國內廠商活躍於各領域。中興通訊作為少被提及的巨頭,早在 2018 年就加入 RISC-V 國際基金會,深度參與標準制定。此前其較少披露 RISC-V 晶片細節,上月初透露在相關領域持續創新推動生態發展,旗下中興微電子將亮相 RISC-V 中國峰會。中興微電子發展近 30 年,晶片研發能力強、產品覆蓋廣,其 RISC-V 晶片備受期待。一、早早入局,參與標準制定早在 2018 年,中興通訊便前瞻性地加入了 RISC-V 國際基金會,並且是最早一批的高級成員。這一身份使其獲得了深度參與 RISC-V 技術標準制定的寶貴權利,能夠與輝達、三星、英特爾等科技巨頭站在同一平台,共同為 RISC-V 技術的發展方向出謀劃策。在指令集完善、架構最佳化等關鍵環節,中興通訊憑藉深厚的技術積累,將自身的研發成果與見解融入其中,為後續 RISC-V 技術在通訊、算力等核心領域的應用築牢根基,確保技術發展緊密貼合行業實際需求。二、投身研發,推動技術創新(一)參與香山開源處理器項目中興通訊積極投身於第三代香山 RISC-V 處理器(昆明湖架構)的研發工作,與中科院計算所、阿里、騰訊等產學研多方展開深度合作。通過整合各方優勢資源,香山處理器在性能與能效比方面實現了重大突破,能夠有力支援 AI 計算、邊緣推理等前沿場景。這不僅為 RISC-V 在新興領域的廣泛應用提供了堅實的技術支撐,也讓中興通訊積累了大量寶貴的處理器研發經驗,進一步強化了其在 RISC-V 技術堆疊的技術儲備。(二)存算一體技術研發在算力智能躍遷和算網融合的大趨勢下,中興通訊充分利用 RISC-V 的簡潔開放特性,積極開發存算一體多領域解決方案。其中涵蓋了板卡級 KVS 快取方案、晶片級近存方案、電路級存內處理以及材料級記憶體計算等先進技術。這些技術有效降低了資料傳輸能耗,大幅提升了資料處理效率,為未來高性能計算開闢了新的技術路徑,助力中興通訊在 RISC-V 與算力融合的前沿領域佔據重要的技術高地。三、產品落地,拓展應用場景中興通訊在通訊核心裝置中引入 RISC-V 架構,其 DPU 網路晶片通過該架構提升網路與儲存加速能力,適配 5G/6G 高資料處理需求。在 5G-A 及 6G 基礎設施中,RISC-V 核心降低裝置功耗、增強穩定性。同時,基於 RISC-V 開發的高性能計算晶片及存算一體技術應用於資料中心與智算場景,為雲服務、AI 訓練提供低功耗算力支援,提升伺服器晶片市場競爭力。四、生態建設,促進產業繁榮(一)開源生態合作中興通訊積極參與 RISC-V 開放原始碼專案。通過開源合作,整合行業資源,有效降低了研發成本,加速了 RISC-V 技術創新與應用推廣,為建構健康、繁榮的開源生態貢獻了重要力量。(二)行業生態拓展通過與輝達、Google等國際企業合作,中興通訊大力推動 RISC-V 在高性能計算和 AI 領域的應用。同時,與百度合作開發的資料中心 RISC-V 晶片,目標是實現與 x86/ARM 的 “無感切換”,進一步拓寬了 RISC-V 晶片的應用範圍,提升了 RISC-V 在行業內的影響力和認可度,吸引了更多企業參與到 RISC-V 生態建設中來。五、未來可期,迎接挑戰機遇目前,儘管中興通訊在 RISC-V 晶片領域已經取得了諸多令人矚目的成果,但高性能伺服器晶片的大規模商用仍面臨著生態適配(如商業軟體遷移)和成本控制等挑戰。隨著 RISC-V 在 AI、邊緣計算等領域的需求持續增長,憑藉深厚的技術積累、豐富的產品佈局以及積極的生態建設,中興通訊有望通過持續的技術迭代與生態整合進一步擴大市場份額。在全球半導體產業競爭日益激烈的背景下,中興通訊在 RISC-V 晶片領域的佈局將為其在通訊、計算等核心領域的長期發展注入強大動力,助力其在新興市場中搶佔先機,實現更大的突破與發展。 (芯榜)
高通發佈全球最快移動SoC,還有5GHz的PC處理器!
2025年9月24日,高通技術公司正式發佈了全球最快的移動SoC——第五代驍龍® 8至尊版移動平台,以及號稱目前最快、最高效的Windows PC處理器驍龍X2 Elite Extreme和驍龍X2 Elite。第五代驍龍8至尊版移動平台高通第五代驍龍8至尊版基於台積電最新的3nm(應該是N3P)製造,同時CPU/GPU/NPU/ISP/感測器中樞/基帶等都帶來了全面的升級,不僅更快、更高效,還全面融個性化智能體AI,號稱全球最快、最聰明的移動SoC。具體來說,第五代驍龍8至尊版基於高通自研的第三代Qualcomm Oryon  CPU核心,相比第一代自研CPU核心的性能提升39%,功耗降低了43%。在CPU核心架構方面,第五代驍龍8至尊版採用8核雙簇架構,包括2個主頻4.6GHz的超大核CPU,6個主頻3.62GHz的大核CPU,每簇擁有12MB快取,即整個CPU叢集擁有24MB快取。高通稱,第五代驍龍8至尊版CPU的Geekbench單執行緒性能提升20%,Geekbenck多執行緒性能提升17%,響應速度提升32%,CPU能效提升高達35%。在GPU方面,第五代驍龍8至尊版整合了全新的Adreno GPU,採用三切片架構,主頻為1.2GHz,這樣使得GPU計算資源的調配可以更加靈活高效。此外,新一代的Adreno GPU首次將視訊記憶體帶入到了移動端,其整合了18MB的獨立高速視訊記憶體,使得Adreno GPU無需再頻繁在與DRAM間來回搬運資料,這也使得GPU的能效可以進一步提升。高通稱,其整合獨立高速視訊記憶體的性能相比傳統的架構可以提升高達38%,功耗降低10%。高通稱,結合三切片架構和獨立的高速視訊記憶體的加持,新一代Adreno GPU相比前代性能提升23%,光線追蹤性能提升25%,能效提升20%。為了提升遊戲體驗,高通還聯合手機品牌廠商和遊戲廠商,提前針對一些大型遊戲進行了最佳化,使得這些遊戲(在驅動白名單當中)在Adreno GPU上能夠得到更好的運行,可以原生支援165幀的影格率。第五代驍龍8至尊版還整合了新一代的面向智能體AI的Hexagon NPU,其內部整合了一個大型的Tensor核心,支援加速LVM和經典AI模型;12個標量加速器,支援加速LLM和經典AI模型;8個向量加速器,支援23K(2bit)長上下文輸入。所有的核心均可實現高吞吐量和支援INT2、FP8資料格式。全新的Adren GPU還支援64bit記憶體虛擬化。高通稱,其全新的Hexagon NPU相比前代性能提升37%,每瓦特性能提升了16%,每秒可生成高達220個Token,支援終端側AI持續學習。在影像能力方面,第五代驍龍8至尊版整合了新一代的Spectra ISP,這是一款20bit三ISP,可以使得影像動態範圍提升4倍。此外,新一代的Spectra ISP還首次整合了高級專業視訊編解碼器(APV),使得此類視訊錄製更加高效。高通稱,其可以實現比PorRes錄製時間延長10%。這也使得第五代驍龍8至尊版成為了全球首個支援APV錄製的移動平台,賦能專業級視訊製作。為了支援端側即時感知的AI,高通第五代驍龍8至尊版整合了全新的感測器中樞,其內部擁有兩個即時感知的ISP,兩個Micro NPU(一個面向終端側AI個性化,一個面向個人偏好記錄),以及一個DSP和單獨的記憶體。據介紹,全新的感測器中樞能效相比上代提升了33%,擁有超低功耗,是智能體AI的入口,助力終端側AI的個性化。高通稱,得益於強大的Hexagon NPU和感測器中樞的加持,驍龍8系移動平台可以賦能真正的個性化智能體AI助手,可以跨應用為使用者提供定製化操作。通過持續的終端側學習和即時感知,多模態AI模型能夠深度理解使用者,從而實現主動推薦和基於情境的提示最佳化——同時確保使用者資料始終存放在終端裝置上。在聯網能力方面,第五代驍龍8至尊版整合了高通X85 5G基帶及射頻系統,其內部的AI賦能的資料流量引擎可以使得AI推理速度提升30%(應該是指需要聯網的雲端AI),首創Turbo DSDA,支援高效上行技術,支援最大頻寬400MHz,可以提供無與倫比的頻譜靈活性。全新的第五代驍龍8至尊版還配套了FastConnect 7900連接系統,首創AI最佳化Wi-Fi,首創Wi-Fi、藍牙和超寬頻(UWB)三合一整合,並支援鄰近感知AI功能。雖然第五代驍龍8至尊版整體性能大幅提升,但是功耗依然控制的非常好。據高通介紹,第五代驍龍8至尊版SoC整體功耗相比前代降低了16%,使得SoC整體續航時間相比前代可以延長1.8小時。同時,第五代驍龍8至尊版還加入了對於負極電池的支援。高通技術公司高級副總裁兼手機業務總經理Chris Patrick表示:“憑藉第五代驍龍8至尊版,使用者真正成為移動體驗的核心——該平台賦能的個性化AI智能體能夠看你所看、聽你所聽,即時與使用者同步思考。第五代驍龍8至尊版將突破個人AI的邊界,讓使用者現在就能體驗到的移動技術的未來。”在終端產品方面,中興、Xiaomi、vivo、索尼、三星、ROG、紅魔、REDMI、realme、POCO、OPPO、一加、努比亞、iQOO和榮耀等全球OEM廠商和智慧型手機品牌都將在其旗艦產品中採用第五代驍龍8至尊版。接下來,小米17系列、iQOO 15系列、一加15系列、中興努比亞紅魔11系列、榮耀Magic8系列和榮耀MagicPad3 Pro等搭載第五代驍龍8至尊版的旗艦手機都將在未來幾天陸續發佈。全新PC處理器平台:驍龍X2 Elite Extreme和驍龍X2 Elite驍龍X2 Elite Extreme和驍龍X2 Elite是高通技術公司最新宣佈推出的面向Windows PC的驍龍X系列產品組合中的全新一代頂級平台。其中,驍龍X2 Elite Extreme是比驍龍X2 Elite更高端的版本,也是全球首個主頻達到5GHz的Arm架構晶片。高通稱,憑藉卓越性能、多天電池續航和開創性AI,這兩款全新處理器號稱是目前最快、性能最強大、能效最高的Windows PC處理器。具體來說,全新的驍龍X2 Elite系列晶片均基於台積電3奈米(N3P)工藝節點製造。其中,驍龍X2 Elite Extreme(型號為 X2E-96-100)採用的是第三代Qualcomm Oryon CPU核心,擁有最高18個CPU核心,其中12個主頻4.4GHz的Prime 核(其中兩個核可以睿頻至5GHz)和6個主頻3.6GHz的Performance核。值得一提的是,整個CPU的快取規模也提高到了53MB。高通稱,與Windows PC競品處理器相比,其驍龍X2 Elite Extreme CPU可以為Windows帶來頂尖的性能與能效表現。以Geekbench 6.5單核性能來看,在相同CPU功耗下,驍龍X2 Elite Extreme的CPU性能領先競品高達44%;在達到與競品相同峰值性能的情況下,競品CPU的功耗需求相比驍龍X2 Elite Extreme的CPU功耗高144%。以Geekbench 6.5多核性能來看,在相同CPU功耗下,第五代驍龍8至尊版的CPU性能領先競品高達75%;在達到與競品相同峰值性能的情況下,競品CPU的功耗需求比驍龍X2 Elite Extreme的CPU高222%。驍龍X2 Elite Extreme還支援LPDDR5x-9523 MT/s核心,頻寬達到了228 GB/s。GPU方面,驍龍X2 Elite Extreme整合了高通新一代的專為Winodws PC定製的Adreno GPU,支援DirectX 12.2 Ultimate、Vullkan 1.4、OpenCL 3.0、增強的GMEM、光線追蹤改進。高通稱,驍龍X2 Elite Extreme整合全新高通Adreno GPU架構相比前代平台每瓦特性能和能效提升達2.3倍。與Windows PC處理器競品所整合的GPU相比,驍龍X2 Elite Extreme的GPU在性能功耗下,性能領先52%;在達到相同峰值性能的情況下,競品GPU的功耗需求要高92%。在遊戲性能方面,高通稱,驍龍X2 Elite 系列對比前代產品的遊戲內基準測試性能來看,也有著60%-120%的提升。驍龍X2 Elite Extreme配備的新一代Hexagon NPU最高性能可達80 TOPS(支援INT8),相比上一代的45 TOPS NPU 性能高出78%。高通表示,該 NPU“旨在處理Windows 11 AI+ PC的 Copilot+ 和並行AI體驗”。(Copilot+ 不包括實際的 Copilot,即主要在雲中運行的助手。)高通公佈的資料顯示,驍龍X2 Elite Extreme所整合的NPU是面向筆記型電腦的全球最快NPU。比如,在Procyon AI計算視覺測試當中,驍龍X2 Elite Extreme的得分達到了英特爾酷睿Ultra 9 285H的5.7倍,並且也大幅領先AMD銳龍AI 9 HX 370和英特爾酷睿Ultra 9 288V等AI PC晶片。高通表示,驍龍X2 Elite Extreme專為超高端PC打造,可輕鬆駕馭智能體AI體驗、計算密集型資料分析、專業媒體編輯以及科學研究。無論是插電使用還是移動辦公,頂尖極客、資深創作者和專業製作人都可在輕薄設計的PC上完成複雜的專業級工作負載。相比之下,驍龍X2 Elite則擁有兩個版本,型號分別為 X2E-88-100 和 X2E-80-100。其中,X2E-88-100 有 18 個CPU核心,包括12個主頻4.7GHz的Prime 和6個主頻4.7GHz的Performance核;而X2E-80-100隻有12 個CPU內核,包括6個主頻4.7GHz的Prime核和6個主頻4.4GHz的Performance核。其中,X2E-88-100 的CPU總快取與驍龍X2 Elite Extreme一樣為53MB,GPU也是與驍龍X2 Elite Extreme一樣的X2-90,主頻1.85GHz;而X2E-80-100的CPU總快取降低至34MB,GPU為X2-85,主頻1.7GHz。其他NPU方面基本與驍龍X2 Elite Extreme一致,記憶體也支援LPDDR5x,不過記憶體頻寬只支援152 GB/s。具體差異可參考下圖:高通指出,驍龍X2 Elite系列相比前代CPU單核性能提升高達39%,多核性能提升最高50%;GPU峰值性能相比前代提升高達2.3倍;NPU峰值性能相比前代提升高達78%。從整個SoC平台來看,相比前代平台,驍龍X2 Elite在相同功耗下性能提升高達31%,達到相同性能所需功耗降低43%,80TOPS NPU專為支援Windows 11 AI+ PC體驗及並行AI體驗設計。驍龍X2 Elite系列面向高端PC可以提供強大且高效的多工處理能力,覆蓋生產力、創作和娛樂等資源密集型工作負載。即便不連接電源,使用者也可以在輕薄裝置上充分發揮這些特性。此外,整個驍龍X2 Elite系列晶片均支援驍龍X75 5G modem-RG系統,峰值下載量高達10Gbps。它還支援Qualcomm FastConnect 7800,即Wi-FI 7/6/6E 和藍牙5.4 LE。高通的新 Guardian 是一種帶外管理功能,用於以業務為中心的遠端監督,類似於英特爾的博銳。高通技術公司高級副總裁兼計算與遊戲業務總經理Kedar Kondap表示:“驍龍X2 Elite強化了我們在PC行業的領導力,憑藉在性能、AI處理和電池續航方面的突破性提升,為消費者帶來所期待的體驗。我們不斷突破技術創新邊界,推出引領行業標準的突破性產品,並重新定義PC的無限可能。”據介紹,搭載驍龍X2 Elite的終端預計將於2026年上半年上市。 (芯智訊)
中國國產人形機器人,用的哪家處理器?
在複雜的物理世界中,人形機器人要實現自主導航、精準操作與環境互動,離不開強大的 AI 算力支撐,而這一切的核心需要強大的處理器支援。作為機器人產業鏈的算力基石,處理器的性能直接決定了人形機器人的智能水平與應用潛力。人形機器人產業爆發在即,晶片成關鍵變數全球人形機器人市場正處於爆發前夜,展現出驚人的增長潛力。資料顯示,2025 年全球人形機器人市場規模約為 90 億元,預計到 2029 年將飆升至 1500 億元,復合年增長率(CAGR)超 75%,其中工業搬運與醫療場景將成為驅動市場增長的核心引擎。隨著人形機器人軟硬體技術的持續迭代,應用場景的拓展成為產業關注的焦點。國際機器人聯合會(IFR)在 2025 年下半年發佈的最新論文中指出,儘管各國人形機器人發展路徑因技術基礎、應用目的不同而存在差異,但整體趨勢已明確:短期以試點補位為主,中期逐步進入製造與服務領域規模化應用階段,長期則有望普及至家庭日常場景。在此過程中,高階系統級晶片(SoC)的作用將愈發關鍵,成為支撐機器人複雜功能的核心部件。從技術原理來看,人形機器人的“智能運作” 依賴於一套完整的 “大腦 - 小腦 - 肢體” 協同體系:“大腦” 負責語音識別、環境感知等高層級認知功能,接收指令後進行任務拆解與規劃;“小腦” 則承擔路徑最優規劃等運動控制任務;最終通過驅動伺服系統控制 “肢體” 運動,完成指令任務。而在這一過程中,以 CPU、GPU、NPU 為代表的主晶片,是人形機器人實現複雜演算法運算與智能決策的核心基礎,堪稱機器人真正的 “智慧核心”。人形機器人,用的哪家處理器?當前,全球人形機器人市場的處理器供應主要由輝達(NVIDIA)、英特爾(Intel)兩大巨頭主導,國產晶片仍處於追趕階段。值得注意的是,在國內外眾多人形機器人廠商中,僅有特斯拉具備自主研發晶片的能力 —— 其 Dojo 晶片用於 AI 模型訓練,FSD 晶片則部署在機器人端側,負責即時運算與控制;其餘廠商大多依賴外購英特爾、輝達的晶片搭建算力體系,如優必選Walker X採用Intel i7-8665U (雙路,頻率1.9Ghz ) 和NVIDIA GT1030顯示卡(384核心),宇樹科技宇樹科技H1-2標配Intel Core i5(平台功能)或 Intel Core i7(使用者開發),選配Intel Core i7 或 Nvidia Jetson Orin NX(最多三塊)。具體應用情況如下表所示:從功能分工來看,人形機器人的“大小腦” 通常由不同類型的晶片承擔:“小腦”(運動控制):普遍採用英特爾 CPU,負責機器人的平衡維持、軌跡規劃、力控調節等底層運動控制任務,確保動作精準、穩定。“大腦”(認知決策):主要採用輝達 GPU,承擔環境感知、語音理解、任務規劃等高階認知功能。不過,由於輝達晶片算力高、價格也相對昂貴,通常僅在旗艦級或高端人形機器人產品中作為可選組態搭載。作為標配電控與平台功能晶片,Intel Core i5/i7具備多核心處理能力,i7 通常在核心頻率、執行緒數上優於 i5,可滿足機器人基礎控制、資料處理及使用者開發環境搭建需求,支撐非極致算力的演算法運行與系統管理。而輝達的晶片產品中,Jetson Orin 系列與 Jetson Orin NX 應用最為廣泛。其中,Jetson Orin 系列包含 7 個架構一致的模組,最高可提供 275 萬億次運算 / 秒(TOPS)的算力,性能是上一代多模態 AI 推理晶片的 8 倍,同時支援高速介面;其配套的軟體堆疊包含預訓練 AI 模型、參考 AI 工作流及垂直應用框架,能顯著加速生成式 AI、邊緣 AI 與機器人應用的端到端開發。Jetson Orin NX 則主打高性價比,最高提供 100TOPS 算力,可平行處理視覺感知、路徑規劃等複雜 AI 任務,成為中高端機器人的熱門選擇。2025 年 8 月 25 日,輝達進一步發佈了專為機器人設計的計算平台 ——Jetson AGX Thor 開發者套件及量產模組,目前已在全球範圍內(包括中國)正式上市,開發者套件起售價為 3499 美元。輝達 CEO 黃仁勳將其稱為 “推動物理 AI 和通用機器人時代的終極超級電腦”,宇樹科技創始人王興興、銀河通用創始人王鶴等行業大咖也紛紛認可其在機器人領域的實用性。根據 TrendForce 集邦諮詢的最新研究,Jetson Thor 以 Blackwell GPU 和 128GB 儲存器為核心,可提供 2070 FP4 TFLOPS 的 AI 算力,是前代 Jetson Orin 的 7.5 倍。在剛結束的 WRC 2025 大會上,銀河通用的人形機器人 Galbot 成為全球首批搭載 Jetson Thor 晶片的產品,現場展現了出色的自主搬箱能力。銀河通用創始人及 CTO 王鶴表示:“包括 NVIDIA 和銀河通用在內的所有機器人公司,如今的共同目標都是打造通用機器人。”國產突破:多廠商發力晶片研發,性價比與定製化成優勢面對國外晶片的市場主導地位,國內廠商已開始加速人形機器人晶片的自主研發,試圖在這一領域實現突破。行業普遍認為,人形機器人要實現規模化應用,必須將通用智能與實際場景需求深度結合,而這一目標的實現依賴演算法、資料、算力、硬體四大核心技術。中國在硬體供應鏈領域已具備強大的領先優勢,開發人形機器人處理器的“大小腦”是下一步的工作重點。瑞芯微的 RK3588 與 RK3588S 晶片,已被智元靈犀 X2、逐際動力 LimX Oli、高擎 Pi/Pi + 等人形機器人採用。兩款晶片的核心架構與算力完全一致,主要差異體現在介面擴展性、封裝尺寸與功耗上 ——RK3588 支援更豐富的介面,適用於對外部裝置連接需求較高的場景;RK3588S 則封裝尺寸更小、功耗更低,更適合對空間與能耗敏感的機器人產品。作為瑞芯微旗下的 8K 旗艦 SoC 晶片,RK3588 採用 ARM 架構,原本主要面向 PC、邊緣計算裝置、個人移動網際網路裝置及數字多媒體應用,如今在機器人領域展現出強勁潛力。其整合了四核 Cortex-A76 與四核 Cortex-A55 處理器,搭配單獨的 NEON 協處理器,支援 8K 視訊編解碼;同時內建多種高性能嵌入式硬體引擎,可針對高端應用最佳化性能。在 AI 算力方面,RK3588 的 NPU 支援 INT4/INT8/INT16/FP16 混合運算,運算能力高達 6TOPS,且相容性極強,基於 TensorFlow、MXNet、PyTorch、Caffe 等主流框架的網路模型均可輕鬆轉換適配。地平線旗下地瓜機器人最新推出的 RDK S100 開髮套件,創新性地將機器人 “大腦”(計算功能)與 “小腦”(控制功能)高度整合在單顆 SoC 晶片上,大幅簡化了機器人的硬體架構。該開髮套件採用板卡形式,提供豐富的外圍介面,可直接連接攝影機、感測器、執行器等元件,便於嵌入各類機器人系統。從技術架構來看,RDK S100 板載 CPU+BPU+MCU 異構計算架構,能同時承擔高性能 AI 計算與即時運動控制兩大核心任務,實現 “環境感知 - 決策規劃 - 底層伺服控制” 的全閉環功能 —— 這意味著一塊 RDK S100 開發板即可替代傳統的 “邊緣 AI 板卡 + 獨立控製器” 組合,成為機器人的 “智能中樞”,顯著降低系統複雜度與開發成本。具體到計算單元,RDK S100 的單顆 SoC 晶片整合了三類協同工作的核心:“大腦” 部分:由 6 核 CPU 與大算力 BPU(Brain Processing Unit)組成。6 核通用處理器負責複雜邏輯運算與任務調度;基於地平線新一代自研 “Nash” 架構的 BPU,專門針對深度神經網路(CNN/Transformer)最佳化,可提供 80TOPS(RDK S100)或 128TOPS(RDK S100P)的 AI 推理算力,滿足環境感知、語音理解等認知需求。“小腦” 部分:由 4 顆 Cortex-R52 + 核心構成獨立 MCU,採用 Lock-Step 鎖步模式運行,確保運動控制的高可靠性與功能安全性,可精準協調關節電機、維持機器人平衡。黑芝麻智能正與國內多家人形機器人企業合作研發具身智能技術,其中最具代表性的是與中國科學院院士、武漢大學工業科學研究院執行院長劉勝院士團隊的戰略合作—— 雙方以武漢大學自主研發的首個人形機器人 “天問” 為核心載體,黑芝麻智能為其提供 “華山A2000”(“大腦”)與 “武當C1236”(“小腦”)雙晶片方案。A2000晶片算力對標4顆輝達OrinX,支援具身智能演算法,可處理多模態環境資訊並做出智能決策;C1236晶片實現AI運算與控制任務平行處理,保障複雜環境下的穩定性。雲天勵飛也在投資者關係平台上表示,公司正在開發新一代“大腦”晶片DeepXBot系列,以加速人形機器人中的感知、認知、決策和控制的推理任務。從競爭優勢來看,國產晶片的核心亮點在於更高的性價比與更貼近市場的定製化服務。以地瓜機器人的 RDK S100 為例,其定價僅為 2799 元,幾乎是輝達同等算力方案價格的一半,大幅降低了中低端人形機器人的研發與生產成本;同時,國內廠商可根據機器人廠商的具體場景需求(如工業搬運、家庭服務、教育科研)調整晶片功能與介面,提供更靈活的解決方案。未來趨勢:“大小腦融合” 成破局方向與人腦的功能分工類似,當前人形機器人的控製器普遍採用“大腦-小腦”分離架構:“大腦”負責感知環境、規劃路線、智能決策(如識別手勢、聽懂語音、自主學習新技能);“小腦”則像“運動達人”,以每秒上千次的頻率協調關節電機,確保機器人跳舞不摔跤、搬東西手不抖。而“大小腦融合”架構,是指將認知決策系統(大腦)與運動控制系統(小腦)深度協同,通過軟硬體一體化設計實現“感知-決策-執行”的無縫銜接。這一架構的提出與演變,是具身智能發展的核心脈絡——其理念源於腦科學與AI的交叉融合,旨在模擬人類神經系統中高級認知與運動協調的分工協作機制,讓機器人的“思考”與“動作”更同步、更高效。當前主流的“大小腦分離”方案已逐漸暴露出明顯瓶頸:算力需求激增:機器人需同時處理即時控制(小腦)與複雜決策(大腦)任務,對異構算力的需求大幅增加,導致硬體成本上升。通訊延遲明顯:“大腦”與“小腦”分屬不同硬體系統,資料傳輸存在延遲,可能導致機器人動作與決策不同步,影響操作精度。開發成本高企:開發者需維護兩套獨立的程式碼體系——控制程式碼可能運行在Arm CPU或x86 CPU上,AI演算法則需在GPU或其他專用模組上運行,程式碼適配與偵錯難度大。感測器融合困難:硬體分離導致多種感測器(如攝影機、力感測器、陀螺儀)的資料難以高效整合,影響機器人對環境的綜合判斷。相比之下,“大小腦融合”架構可通過單晶片或一體化硬體設計解決上述問題,成為未來人形機器人控製器的主流發展方向。而就在最近,輝達與英特爾宣佈建立合作關係。公開資訊顯示,在資料中心領域,英特爾將為輝達定製x86 CPU,由輝達將其整合至人工智慧基礎設施平台並投放市場。在個人計算領域,英特爾將生產並向市場供應整合輝達RTX GPU晶片的x86系統級晶片(SOC)。輝達將以每股23.28美元的價格向英特爾普通股投資50億美元。值得注意的是,在人形機器人領域,目前大部分的方案都是英特爾CPU+輝達GPU的“大小腦”分離架構,但隨著此次雙方展開合作,未來或許會推出“大小腦融合”架構的SoC。融合架構的SoC可以更好的融入X86和CUDA生態,為開發者提供更強的智能核心。儘管人形機器人市場前景廣闊,但距離真正實現大規模量產商用,仍面臨諸多亟待解決的挑戰:資料積累不足:具身智能需要大量真實場景資料訓練模型,而當前人形機器人的應用場景有限,資料量與多樣性難以滿足通用智能的需求。硬體架構待最佳化:除“大小腦融合” 外,晶片的算力密度、功耗控制、散熱性能仍需提升,以適配機器人緊湊的空間與移動需求。成本居高不下:高端晶片、精密伺服電機、感測器等核心部件價格昂貴,導致人形機器人整機成本過高,難以普及至消費級市場。安全性待加強:機器人在與人類互動(如家庭服務、醫療護理)時,需確保運動安全(避免碰撞)、資料安全(保護使用者隱私),這對軟硬體的安全性設計提出更高要求。英特爾中國邊緣計算事業部 EIS 高級總監李岩的觀點頗具代表性:“以人形機器人為代表的具身智能行業發展迅速,但也存在系統架構非一致性、解決方案泛化能力不足、場景適配複雜性高等問題。” 未來,只有通過產業鏈上下游的協同創新(如晶片廠商與機器人廠商聯合研發、演算法公司與硬體廠商深度合作),才能逐步突破這些挑戰,推動人形機器人真正走進現實生活。 (鈦媒體AGI)
這一戰,Google準備了十年
9月3日,一則消息在科技圈引起了軒然大波:Google開始對外出售TPU了。據報導,Google近期已在接觸那些主要租賃輝達晶片的小型雲服務提供商,敦促他們在其資料中心也託管Google自家的AI處理器,也就是TPU。Google已與至少一家雲服務提供商——總部位於倫敦的Fluidstack——達成協議,將在紐約的一個資料中心部署其TPU。Google的努力不止於此。據報導,該公司還向其他以輝達為核心的服務商尋求類似的合作,其中包括正在為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的輝達“親兒子”CoreWeave。9月9日,花旗分析師因TPU競爭加劇將輝達目標價下調至200美元,預計2026年GPU銷售額將因此減少約120億美元。明眼人都能看出來的是,Google和輝達之間的大戰,已經開始了。而它們爭奪的,將是AI計算這個真正的兆美元市場。然而,Google對這一戰的準備,其實比我們想像的都要久。01. TPU,AI計算的最優解?早在2006年,Google的內部就討論過在自家的資料中心中部署GPU、FPGA或ASIC的可能性。不過,當時只有少數應用程式能夠在這些特殊硬體上運行,而Google大型資料中心的過剩算力也完全夠它們使用了。因此,部署特殊硬體的計畫被擱置。然而,到了2013年,Google的研究人員發現:如果人們每天使用語音搜尋並通過深度神經網路進行3分鐘的語音識別,那麼當時Google的資料中心需要雙倍的算力才能滿足日益增長的計算需求。而如果僅通過擴巨量資料中心規模來滿足算力需求,不但耗時,而且成本高昂。於是,在這個背景下,Google開始了TPU的設計。Google的TPU是為AI計算而生的ASIC晶片,它專注於實現兩個核心目標:極高的矩陣乘法吞吐量與卓越的能效。為了實現高吞吐量,TPU在硬體層面採用了“脈動陣列”(Systolic Array)架構。該架構由大量簡單的處理單元(PE)構成網格。資料流從陣列的邊緣輸入,在每個時鐘周期同步地、一步步地流經相鄰的處理單元。每個單元執行一次乘法累加運算,並將中間結果直接傳遞給下一個。這種設計使得資料在陣列內部被高度復用,最大限度地減少了對高延遲、高功耗主記憶體的訪問,從而實現了驚人的處理速度。而其卓越能效的秘訣,則在於軟硬體協同的“提前編譯”(Ahead-of-Time Compilation)策略。傳統的通用晶片需要高能耗的快取來應對多樣的、不可預測的資料訪問。TPU則不同,它的編譯器在程式執行前就完整規劃好了所有資料路徑,這種確定性使其無需複雜的快取機制,從而大幅降低了能耗。在TPU的設計上,Google主導整體架構與功能定義,博通Broadcom參與了部分晶片的中後端設計工作,目前,Google TPU主要由台積電代工生產。隨著大語言模型參數的急劇擴張,AI計算任務正在從“訓練”走向“推理”。這時,作為通用算力單元的GPU,開始顯露出成本以及功耗過高的問題。而TPU從設計之初就專門瞄準了AI計算,具有很高的性價比優勢。據報導,GoogleTPU算力成本僅為OpenAI使用GPU成本的1/5,性能功耗比更是優於同代GPU。因此,為了抓住市場,Google圍繞著自己的TPU架構,打造了一系列產品與生態。02. Google造芯這十年Google第一代TPU (v1) 於2015年推出,通過高度簡化的專用設計,實現了超越同期CPU與GPU的能效比,並在AlphaGo等項目中展示了其高效能,從而驗證了AI ASIC的技術路徑。隨著研發深入,訓練環節的算力瓶頸日益凸顯,促使TPU的設計方向轉向系統級解決方案。2017年發佈的TPU v2為此引入了BF16資料格式以支援模型訓練,並配置了高頻寬記憶體(HBM)。更為關鍵的是,v2通過定製的高速網路將256個晶片單元互聯,首次建構了TPU Pod系統。隨後的TPU v3通過增加計算單元數量和引入大規模液冷技術,實現了性能的顯著提升。TPU v4的發佈帶來了互聯技術的重大革新,其核心是採用了光學電路交換(OCS)技術,實現了TPU Pod內部網路拓撲的動態重構,從而提升了大規模訓練任務的容錯能力與執行效率。進入v5與v6 (Trillium) 階段,TPU產品線呈現出分化策略,形成了分別側重於極致性能的'p'系列與能效比的'e'系列,以適應多樣化的AI應用場景。2025年Google TPU的全年出貨量預計為250萬片。v5系列總出貨量預計為190萬⽚,其中v5e佔⽐約120萬⽚,v5p佔⽐約70萬⽚, v6系列預計總出貨量為60萬⽚,⽬前僅v6e在市場上銷售,⽽v6p將在第四季度上市,約10-20萬⽚左右。預計到2026年,總體TPU銷量將超過300萬片。在今年的Google雲大會上,Google發佈了第七代TPU,代號“Ironwood”。Ironwood是Google迄今為止性能最強、能效最高且最節能的TPU晶片,其峰值算力達到4614 TFLOPs,記憶體容量為192GB,頻寬高達7.2 Tbps,每瓦峰值算力為29.3 TFLOPs。此外,Ironwood首次支援FP8計算格式,並在張量核和矩陣數學單元中實現這一功能,這使得其在處理大規模推理任務時更加高效。Ironwood最高配叢集可擁有9216個液冷晶片,峰值算力可達42.5 ExaFLOPS,是世界上最大的超級電腦El Capitan的24倍以上。其支援大規模平行處理和高效記憶體訪問,適用於複雜的推理任務如大型語言模型和混合專家模型。事實上,Ironwood的整體性能已經十分接近輝達B200,甚至在一些方面還有所超越。當然,輝達的統治力不僅在於其硬體性能,更在於整個CUDA生態。Google深知這一點,因此,它也建構了JAX這樣的,能在TPU上運行的高性能計算Python庫。Google還發佈了其模型流水線解決方案“Pathway”,用於向外部開發者訓練大型語言模型(LLM)。將其作為訓練模型的必備手冊,研究人員無需重新設計模型即可開發Gemini等LLM。有了上述的一整個“軍火庫“,Google終於可以和輝達掰掰手腕了。03. Googlevs輝達投資銀行D.A. Davidson分析師Gil Luria在最新報告中指出,過去一年以來Google母公司Alphabet大幅縮小與輝達的差距,如今已成為“最好的輝達替代方案”。報告顯示,過去半年,圍繞Google Cloud TPU的開發者活躍度激增了約96%。Gil Luria與前沿AI實驗室的研究人員和工程師交流後發現,業內普遍看好GoogleTPU。因此Luria認為,若Google將TPU業務與DeepMind部門合併並將它們分拆上市,估值或將高達9000億美元。AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片來訓練模型,最近,該公司被發現正在招聘TPU核心工程師;馬斯克旗下的人工智慧公司xAI也對採購TPU表現出興趣。這一切都說明了業界對於TPU的認可。而Google自身也在積極行動。首先,Google有意在公司內部進行從輝達GPU到自研TPU的迭代。Omdia資料顯示,2024年估計Google訂購16.9萬台Hopper 架構GPU,在五大雲廠商中排名最後,約為微軟的三分之一。同時,Google內部已部署了約150萬顆TPU。Google的對外戰略,就是文章開頭提到的,對那些使用輝達晶片的資料中心供應TPU。據報導,為了與Floydstack達成合作,Google將提供最高32億美元的備選擔保支援,若Fluidstack無力支付紐約新資料中心的租賃費用,Google將補足差額。根據野村證券最新報告,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。輝達需要緊張起來了。04. 結語市場對GoogleTPU的積極接受,反映出越來越多的公司想擺脫輝達“一卡難求“的困境,尋求更高的性價比和更多元、穩定的供應鏈。而借此機會挑戰輝達的,也不只有Google一家公司。供應鏈資料顯示,Meta將於2025年第四季度推出其首款ASIC晶片MTIA T-V1。它由博通設計,具有複雜的主機板架構,並採用液冷和風冷混合技術。到2026年年中,MTIA T-V1.5將進行進一步升級,晶片面積將翻倍,超過輝達下一代GPU Rubin的規格,其計算密度將直接接近輝達的 GB200 系統。2027年的MTIA T-V2可能會帶來更大規模的CoWoS封裝和高功率機架設計。報告指出,根據供應鏈估計,Meta的目標是到2025年底至2026年實現100萬至150萬件ASIC出貨量。微軟、亞馬遜同樣有自研的ASIC晶片,正在對這片被GPU霸佔的市場虎視眈眈。對此,輝達也有自己的反擊手段。今年5月,輝達正式發佈NVLink Fusion。NVLink Fusion允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用,標誌著輝達正式打破硬體生態壁壘。近日,輝達執行副總裁暨首席財務官Colette Kress在高盛組織的會議上談及了對於AISC晶片所帶來的競爭看法,稱輝達GPU更具性價比。一場大戲已經拉開了帷幕。無論是兆美元的市場規模,還是未來AI時代硬體結構的定義權,都值得幾大巨頭為之瘋狂。這一戰,誰都有不能輸的理由。 (半導體產業縱橫)