#cpu
【CES 2026】AMD發佈Helios機架:18個2nm CPU+72個MI455,FP4算力2.9EFLOPS!
1月6日,在2026年國際消費電子展(CES 2026)上,處理器大廠AMD公佈了其即將推出的Helios機架級AI解決方案,其內部整合了下一代 Zen 6架構的EPYC“Venice” CPU和Instinct MI400系列AI加速器。根據AMD披露的資料顯示,“Venice”CPU將基於2nm製程,擁有多達256個Zen 6 核心,CPU到GPU的互聯頻寬將達到上一代的兩倍,CPU性能將提升70%,記憶體頻寬也將高達1.6TB/s。Instinct MI400 系列也基於2nm製程,並可帶來高達 40PFLOPs的算力輸出,並配備了432 GB HBM4 記憶體,頻寬為 19.6 TB/s(HBM容量和頻寬等方面將達到輝達Vera Rubin的1.5倍)。此前披露的MI430X同時面向主權AI計算和高性能計算需求,因此完全支援FP32和FP64技術計算以及傳統超級計算任務。最新披露的MI440X和MI455X將針對低精度工作負載進行最佳化,比如支援FP4、FP8和BF16計算。據介紹,Instinct MI430X、MI440X 和 MI455X 加速器預計將配備 Infinity Fabric 與 UALink 一同實現大規模連接,成為首批支援新互聯的加速器。然而,UALink的實際應用將取決於Astera Labs、Auradine、Enfabrica和Xconn等生態系統合作夥伴。Helios 機架級AI解決方案將整合18個 Zen 6架構的EPYC“Venice” CPU和配備了72個Instinct MI455X系列加速器,擁有總計31TB的HBM4記憶體,總記憶體頻寬為1.4 PB/s,預計AI推理時可實現最高2.9 FP4 exaFLOPS和1.4 FP8 exaFLOPS用於AI訓練。Helios 的功耗和冷卻需求都很高,因此設計用於配備足夠支援基礎設施的現代人工智慧資料中心。至於可擴展連接,AMD計畫為其Helios平台提供Ultra Ethernet乙太網路支援。與UALink不同,Ultra Ethernet可以依賴現有的網路介面卡,如AMD的Pensando Pollara 400G和即將推出的Pensando Vulcano 800G卡,這些卡能夠在已經使用最新技術的資料中心實現先進的連接。AMD還計畫推出基於MI440X 驅動 AMD 新的企業級 AI 平台,該平台不是機架級解決方案,而是標準機架伺服器,配備一台 EPYC “Venice” CPU 和八塊 MI440X GPU。AMD將該系統定位為一個面向企業級AI部署的本地平台,旨在處理訓練、微調和推理工作負載,同時在電力和冷卻方面保持與現有資料中心基礎設施的直接插入相容性,且無需任何架構更改。此外,AMD還將提供基於Epyc“Venice-X”處理器、擁有額外快取和單線程性能的主權AI和高性能計算平台,以及能夠處理低精度AI資料和高精度高性能計算工作負載的Instinct MI430X加速器。 (芯智訊)
【CES 2026】MI455X晶片+72卡機架,2027年沖2nm,蘇姿丰:4年算力漲1000倍
黃仁勳在CES2026上的演講過去不到3個小時,人稱“蘇媽”的AMD CEO蘇姿丰就帶著AMD的AI全家桶登台亮相。為了給自己產品鋪墊,蘇姿丰開場大談推理需求的暴漲,強調算力接下來將進入Yotta Flops時代(1Yotta Flops=1,000,000 ExaFLOPS,即每秒可執行10的24次方次浮點運算)。針對這一變化趨勢,AMD的解決方案是最新的MI455X GPU,並且基於72顆MI455X GPU和18顆Venice CPU,打造了一台開放式72卡伺服器“Helios”。蘇姿丰展示MI455X GPU蘇姿丰強調稱,MI455X系列相較於MI355X擁有10倍的性能提升,其公佈的路線圖顯示,2027年將推出基於2nm工藝,搭載HBM4e記憶體的MI500系列。“未來四年,要實現AI性能1000倍的提升,”蘇姿丰說。01蘇媽的“算力核彈”AMD GPU路線圖這張路線圖清晰地展示了AMD INSTINCT系列GPU路線圖。最強大的是2027年要上市的MI500,屆時將會匯入2nm工藝,採用HBM4e記憶體,AI性能又是一次巨大飛躍。如果MI455X的性能是MI355的10倍,對照官方折線圖,粗略量化一下,MI500的提升可能是MI455X的30倍。不過,拋開PPT上的故事,明年下半年的重點產品還是MI455X和“Helios”機架。不過這裡比較有意思,在說MI455X的時候,官方曬的是一張MI450的參數對比圖。按照蘇媽的說法,2026年上市的MI450,相當於MI300X+MI350,堪稱階梯式的創新和性能跨越。升級的核心思路和輝達的邏輯一樣,借助HBM記憶體,實現視訊記憶體、頻寬和算力三個維度擴展,打破AI推理的“記憶體牆”限制。這種升級的好處體現在三個方面:首先是更強的擴展能力(Scale-up),更大的視訊記憶體意味著能裝下更巨型的模型;其次是更高的生成效率,通過極高的頻寬解決了“出字速度”慢的問題,提升了每秒Token的輸出量;最後是極高的QPS(每秒查詢率),讓伺服器在單位時間內能同時響應更多使用者的提問。MI450在主流的FP8精度下提供了20PF的算力,性能表現接近初代的4倍。不僅如此,FP4精度下能達到40PF的極高性能。機架方面,根據官方資料,Helios總共18個計算托盤,一個計算托盤採用1顆Venice CPU+4顆MI455X GPU。部分細節雖未詳細說,但從現場的配置來看,其中Venice CPU採用2nm工藝,總計4600個核心,MI455X GPU則採用了3nm工藝,總計18000個計算核心,搭配總計31TB HBM4視訊記憶體和43TB/s的總頻寬,提供2.9Exaflops的FP8算力。AMD也強調,Helios是一個通往Yotta級計算擴展的開放式機架平台。02AI PC的故事端側AI不是附加值,而是必需品展示完機架級“算力核彈”之後,蘇姿丰將敘事重心拉回到個人裝置,並給AI PC下了一個明確判斷:AI PC並不是雲端AI的替代品,而是下一代個人計算的基礎設施。AMD在本次發佈中正式推出Ryzen AI 400系列處理器。該系列採用Zen 5 CPU架構與RDNA 3.5 GPU,整合最高60 TOPS的NPU算力,並已全面支援Windows Copilot+生態。蘇姿丰在現場多次提到,AI已不再是PC的附加功能,而是正在成為其“默認能力”。緊接著,AMD還正式發佈了面向高性能開發者和創作者的Ryzen AI Max平台。從現場大屏展示的參數來看,Ryzen AI Max並非一次常規的移動端升級,而是AMD對“本地AI計算單元”形態的一次重新定義。CPU最高配備16核/32線程Zen 5架構,GPU整合40個RDNA 3.5計算單元,NPU算力達到50TOPS,並配備128GB統一記憶體。這一配置不僅支撐多模態AI推理和生成,也能夠處理編譯、渲染、資料預處理等高負載任務。在此基礎上,AMD進一步向上延展,推出面向高性能本地AI場景的Ryzen AI Max平台。Ryzen AI Max被定義為面向遊戲玩家、內容創作者與開發者的“終極處理器”,其核心並不在於單一模組性能,而在於 CPU、GPU與NPU之間高度整合的記憶體架構,以提升本地 AI 推理時的頻寬效率和響應速度。真正引發現場討論的,則是擺在舞台一側的一個“小盒子”——Ryzen AI Halo。形態上,Ryzen AI Halo更像是一台迷你主機,體積遠小於傳統工作站,卻被蘇姿丰稱為“世界上最小的AI開發系統”。該裝置基於旗艦級Ryzen AI Max處理器打造,採用統一記憶體設計,最高可配置 128GB記憶體,以滿足本地運行大模型時對容量與頻寬的雙重需求。與傳統意義上的AI PC不同,Ryzen AI Halo的目標使用者並非普通消費者,而是開發者、研究人員以及小型創作團隊。AMD在現場明確強調,這並不是一台展示型硬體,而是一個開箱即可使用的本地AI平台。Ryzen AI Halo出廠即預裝多款主流開源模型,包括GPT-OSS、FLUX.2、Stable Diffusion XL(SDXL) 等,開發者無需複雜配置,即可在本地完成模型推理、偵錯和應用驗證。這一設計思路,顯然意在降低“使用AI的工程門檻”,而不是單純追求跑分或峰值算力。這一開箱即用的設計,不僅展示了Halo在實際應用場景中的便利性,也凸顯了AMD對本地AI平台的整體架構思路:它不僅是軟體友好,更是在硬體層面為開發者提供充足算力和統一記憶體支撐。Ryzen AI Max/Halo與MI系列GPU的核心共性在於:都通過大容量、高頻寬的統一記憶體設計,將算力單元與資料緊密耦合,以打破本地或節點間的記憶體瓶頸,實現高效推理與生成。與輝達DGX Spark的對比中,AMD並未強調絕對性能,而是提出了一個更貼近實際使用場景的衡量方式:tokens/dollar/second。這一指標背後,是AMD對AI PC的核心判斷,即未來的個人AI裝置,並不是“縮小版資料中心”,而是效率優先、隨時可用、成本可控的本地智能節點。從Ryzen AI 400系列筆記本,到Ryzen AI Max,再到“小盒子”形態的Ryzen AI Halo,AMD在CES 2026上給出的AI PC路線已經十分清晰:AI正在從雲端服務,下沉為每一台個人裝置中的常駐能力。03抱完OpenAI總裁,再抱李飛飛蘇姿丰與OpenAI總裁、聯創格雷格·布洛克曼CES 2026的舞台上,蘇姿丰不再單純堆疊參數、製程或峰值算力資料,也把時間留給了幾類“正在真實消耗算力的公司”。這些公司共同構成了AMD此次發佈中最重要的一條暗線:算力究竟流向了那裡,又在改變什麼。首先登台的,是OpenAI總裁、聯合創始人格雷格·布洛克曼(Greg Brockman)。他並未談論模型細節,而是反覆強調一個事實:OpenAI內部長期處於“算力緊張”狀態,模型能力的每一次躍遷,都會迅速吞噬掉新增的計算資源。蘇姿丰在台上半開玩笑地回應道:“每次我遇到你,你都在說需要更多算力。”這句玩笑背後,其實是一次非常直接的確認——通用大模型仍然是當前算力需求的上限場景。對AMD來說,OpenAI的存在並不只是一個客戶案例,而是為Helios、MI455X這類機架級產品提供了最直觀的合理性:只要模型規模和使用頻率持續上升,算力就永遠不夠。蘇姿丰與Luma AI首席執行長阿米特·賈恩緊接著,AMD將舞台交給了AI初創公司Luma AI。Luma AI首席執行長阿米特·賈恩(Amit Jain)展示了其最新一代多模態視訊模型Ray3以及即時編輯功能Ray3 Modify。這些模型已經能夠在4K、HDR 條件下生成和修改長視訊內容,並支援將真人拍攝素材與 AI 生成世界進行動態融合。賈恩特別強調,2025年是Luma從“模型展示”走向“商業部署”的一年,一些客戶甚至已經開始使用其系統生成90分鐘長度的完整影片。更關鍵的一點在於,目前約60%的Luma推理負載運行在AMD GPU上。這一比例本身釋放出一個明確訊號:推理正在成為比訓練更長期、更穩定的算力消耗來源。相比一次性的超大規模訓練,視訊生成、即時編輯、內容修改和多模態互動,對算力的需求更高頻、更持續,也更依賴單位成本與能效比。這正是AMD在本次發佈中反覆強調tokens/dollar/second的原因。蘇姿丰與Liquid AI首席執行長拉明·哈薩尼隨後登台的,是來自MIT孵化公司的Liquid AI。與前兩者不同,Liquid AI並不試圖擴大模型規模,而是試圖從根本上降低“智能的計算成本”。其首席執行長拉明·哈薩尼(Ramin Hasani)在現場發佈了Liquid Foundation Model 2.5,並預告了將於年內推出的LFM 3.0。這些模型主打高度量化、低延遲與原生智能體能力,能夠在本地裝置或企業系統中常駐運行,持續處理多語言音視訊輸入、函數呼叫和後台任務。在演示中,LFM 3.0可以代表使用者參加會議、處理日程,甚至在使用者不直接互動的情況下主動執行任務。蘇姿丰在一旁打趣道:“你確認我們會相信這個智能體?”但這句玩笑點出的,恰恰是AMD想要押注的下一階段趨勢:AI正從“生成工具”轉向“系統級參與者”。除了內容與企業軟體,蘇姿丰還明確表示,醫療是她個人最關注的AI應用領域之一,因為這裡既存在極高的算力需求,也存在對穩定性、可解釋性和長期運行能力的現實約束。當這些企業被串聯在一起時,一條清晰的邏輯逐漸浮現:從OpenAI這樣持續吞噬算力的通用模型平台,到Luma的內容生成工廠,再到Liquid AI的本地智能體,以及醫療等高可靠性場景,算力正在從集中式訓練中心,擴散為一個高頻、分佈式、長期運行的推理網路。蘇姿丰與李飛飛在這樣的背景下,“AI教母”、史丹佛大學教授李飛飛也受邀登台,分享其創辦的World Labs。World Labs的核心目標,並不是生成更精緻的圖像或視訊,而是讓AI理解現實世界的空間結構。李飛飛將其稱為“空間智能(Spatial Intelligence)”,即模型並非學習螢幕上的像素,而是學習世界本身的尺度、深度、結構與物理關係。在現場演示中,World Labs僅使用普通手機拍攝的少量照片,就生成了具有真實空間關係的3D世界模型。李飛飛指出:“過去需要幾個月的工作,現在只需要幾分鐘。模型跑得越快,世界就變得越即時。”值得注意的是,這些模型的訓練與推理同樣運行在AMD Instinct GPU與ROCm軟體棧之上。性能的提升,並不是簡單地縮短等待時間,而是在改變研究和創作的基本方式。從OpenAI的算力飢渴,到內容生成、智能體、醫療應用,再到空間智能的出現,AMD在CES 2026所呈現的,並不是一場單純的硬體發佈,而是一種判斷:當算力成本持續下降,AI 將不再只是模型能力的競爭,而是開始重塑我們理解和建構世界的方式。 (騰訊科技)
中國大晶片賽道,又跑出一個贏家
在近年這波人工智慧熱潮背後,輝達成為當之無愧的大贏家。能獲得這樣的表現,一方面固然得益於大家熟知的GPU。除此以外,輝達早幾年斥資69億美元收購Mellanox所獲得的網路技術和產品加持,也是他們能走到今天的另一個可靠保障。財務資料顯示,2025年第三季度,輝達的網路收入同比增長162%至 82 億美元,遠超收購Mellanox所付出的代價。由此可見,除了熟悉的算力和存力以外,網路也在人工智慧時代扮演越來越重要的角色。正因如此,過去幾年不少傳統巨頭和新貴都圍繞著AI資料中心的上述領域展開了激烈角逐。也有不少“大晶片”企業在激烈的競爭中紛紛折戟。然而,總有些企業憑藉其優秀的團隊和拔尖的技術成功突圍,半導體行業觀察在四年前關注過的雲豹智能,就是其中一個典型。AI時代,DPU的變與不變如果將時鐘拔回2020年前後,我們發現,當時除了GPU和CPU以外,新興的晶片賽道DPU也非常熱門。從當時的產業現狀看來,這是發展的必然。雖然當時大模型還沒有大紅大紫,但正如半導體行業觀察在當時的文章《二十年磨一劍,中國半導體迎來又一顆超新星》中所說,雲端運算的高速發展,人工智慧模型訓練參數越來越大,讓資料中心的系統規模越來越大且越來越複雜,各種晶片處理的任務越來越繁重,這時候就需要一個DPU分擔原本由CPU承擔的網路、解除安裝、安全、儲存等任務。輝達創始人黃仁勳在2020年的GTC大會演講中也表示:“資料中心已成為新的計算單元。DPU 是現代化、安全且加速的資料中心的關鍵組成部分,它將 CPU、GPU 和 DPU 整合到一個完全可程式設計、支援 AI 的單一計算單元中,能夠提供前所未有的安全性和計算能力。”現在回頭看,當時2021年的文章中寫的很多東西都一一應驗了。但對DPU而言,隨著ChatGPT在一年後橫空出世進而引爆全球“軍備競賽”後,DPU被賦予了更多的含義。還是以輝達為例。如上所述,在2021年的時候,AI還沒正式上牌桌,雲端運算還是當時的主流。但隨後幾年,人工智慧推動系統急速擴張。於是,在摩爾定律放緩,Scaling Law大行其道的當下,所有人都在大力砸錢搞晶片、搞超節點、搞叢集。這就引出一個問題,如何讓分佈在不同機架、節點間的硬體系統表現得更像一個整體。這時候,DPU又能扮演一個重要的角色。資料顯示,在打造基於H100的AI Infra的時候,輝達就曾經使用其BlueField-3 DPU去做網路支撐。在發佈BlueField-4 的時候,輝達也直言,憑藉軟體定義加速技術,該產品在 AI 資料儲存、網路和安全領域實現全面賦能,將資料中心轉型為安全、智能的 AI 基礎設施,旨在加速每個 AI 工廠中的每項工作負載。本土大模型新貴DeepSeek在新近一篇名為《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》的論文中頁對DPU的發展分享了他們的看法。通讀全文,DeepSeek是希望從硬體架構和模型設計的雙重角度出發,探討如何實現大規模訓練和推理的成本效益。文中,他們還特別強調了DPU在AI基礎設施中的關鍵作用。他們在文中明確提出,整合通訊協處理器的DPU有望成為下一代AI硬體的重要構想。“為了最大限度地提高線上推理的吞吐量,我們完全通過 NIC RDMA 執行 EP all-to-all通訊,從而避免 SM 資源爭用並提高計算效率。這凸顯了 RDMA 非同步通訊模型在計算和通訊重疊方面的優勢。”DeepSeek研究人員在論文中寫道。換而言之,DPU正在通過解除安裝GPU的計算負擔、最佳化資料預處理、加速通訊和儲存任務,逐漸成為大模型訓練和推理的重要助力。這正如DPU之前需要解除安裝CPU的功能一樣。可以肯定是,DPU在AI Infra中會越來越重要。但有一點我們需要注意的是,和GPU一樣,國內這個市場依然是輝達主導,國內網際網路廠商及營運商大多採用輝達的網路卡,其在國內中高端網路卡市場的份額更是超過80%。在通算CPU伺服器市場,目前國內大部分用的DPU網路卡也都是用美商的FPGA晶片。在全球這種競爭態勢下,打造本土的DPU,就顯得尤為重要,我們看到,過去幾年雲豹智能也正在朝這個目標奮鬥。雲豹智能,成功突圍筆者曾與雲豹智能創始人兼CEO蕭啟陽博士做過深入交流,在公司成立之初,蕭博士就信心十足,之所以有這樣的底氣,與他豐富且成功的過往經歷有著莫大的關係。無論是從24歲獲取美國史丹佛博士學位、出任MIT教授,還是創立晶片公司,或是被巨頭博通以37億美元收購從而轉任職業經理人,蕭啟陽博士在大晶片、人工智慧、網路與分散式運算領域都有著深厚的造詣和顯著的成就,成為國內為數不多涉足過DPU的創始人。在招募行業各領域專家二度創業以後,蕭啟陽博士領導的雲豹智能也獲得了騰訊、中芯聚源、深創投、同創偉業、東方富海、基石資本、IDG資本等產業資本和頭部投資機構的認可,這使得他們在發展中如虎添翼。在騰訊和中移動等客戶的應用場景支援下,雲豹智能一直在打磨升級產品,在這條賽道一騎絕塵。據瞭解,雲豹智能在成立兩年多後便一次性流片成功這種架構複雜的大晶片,不用修改一個電晶體就能讓客戶量產。作為一家初創企業能獲得這樣的成績,足以見證他們的實力。在發展期間,雲豹智能在DPU的可程式設計高性能網路處理技術、可程式設計低時延RDMA技術、DDP(Data Direct Path)資料直通技術和安全計算體系等多個關鍵領域掌握並引領著多項核心技術。得益於這些積累,雲豹智能已成功量產國內首顆400Gbps 吞吐量的DPU晶片, 達到全球頂尖水平。該晶片擁有每秒處理幾百萬個封包的儲存能力,遠端直接存取資料(RDMA)的時延低至5微秒。與其他傳統DPU方案相比,性能效率可提升4倍,同時,該晶片還具有低功耗、低成本特性。伴隨著這顆晶片的面世,雲豹智能讓中國有了可以與輝達掰手腕的DPU,也讓公司成為國內唯一能替代輝達網路卡的企業。正因為表現如此出色,雲豹智能系列晶片產品獲得工信部的推薦,入選國家博物館在12月29日舉辦的中國製造“十四五”成就展。值得一提的是,雲豹智能是本次三大獲邀的晶片企業之一,也是唯一獲得這個殊榮的DPU廠商,這足以證明雲豹智能的影響力和在國產大晶片中的地位。雲豹智能創始人兼CEO蕭啟陽參加中國製造“十四五”成就展據我們獲悉,雲豹智能明年還會推出一款800Gbps的網路卡產品,對標輝達的CX8網路卡。寫在最後如文章開頭所說,除了DPU以外,GPU、NPU和CPU等大晶片也是過去幾年國內晶片產業的工作重點。雖然屢經波折,但無論那個賽道,都終於迎來了收穫季。無論是此前以海光、龍芯為代表的CPU,還是以寒武紀、摩爾線程、沐曦、天數智芯和壁仞為代表的GPU或AI算力晶片,都紛紛IPO,這除了證明國內在這些領域取得了突破性進展外,還為本土大晶片進一步增加了更多的籌碼。正如四年前所關注,半導體行業觀察正在見證一顆超新星的崛起,雲豹智能,有望成為“中國DPU第一股”。 (半導體行業觀察)
DDR5暴漲:AMD AM4 CPU銷量突然大增!三星工廠火災價格雪上加霜
在PC硬體市場,“買新不買舊”是不少人的準則,但近期這一規律正被暴漲的記憶體價格打破。由於近期DDR5記憶體價格翻了數倍,組裝新一代平台的成本急劇攀升,這導致大量消費者開始“開倒車”,重返更加成熟、性價比更高的DDR4陣營,從而直接推高了AMD AM4老平台的銷量。德國知名零售商Mindfactory的資料顯示,AM4 CPU銷量正在快速攀升,僅在過去兩周內,AM4 CPU的銷量佔比就從24%暴增至34%,幾乎佔據了三分之一的CPU銷售份額。與此同時,原本佔據主導地位的AM5 CPU,其銷量份額從兩周前的70%下降至如今的不足60%,整體銷售榜單中,AM4平台的銳龍5000系列CPU共有三款進入前十名,而在前二十名中更是佔據了九個席位。在美國亞馬遜的CPU銷售榜單上,AM4平台同樣展現出強勁的勢頭,共有四款CPU進入前十名,前二十名中則有九款AM4 CPU。最令人意外的是,發佈已久的銳龍5 3600竟然衝到了亞馬遜CPU暢銷榜的第6位。甚至如果不是AMD此前停產了5800X3D和5700X3D等處理器,老平台銷量可能甚至與現在的7800X3D和9800X3D叫板。就在這個記憶體漲價關頭,當地時間12月24日上午10時02分左右,韓國京畿道華城市的三星電子華城工廠內一座研究樓發生火災。消防部門在接報後迅速出動30台裝置及77名人員趕往現場,並於10時23分將火徹底撲滅。火災期間,約120人被緊急疏散。目前,韓國警方與消防部門正在對起火原因展開調查。公開資料顯示,三星華城工廠是三星電子在韓國的重要半導體製造基地,主要負責生產DRAM顆粒與NAND Flash儲存晶片。值得關注的是,當前全球儲存晶片正經歷近年來最顯著的價格上漲周期。自今年9月以來,相關現貨價格累計漲幅已超過300%。多位消費電子企業負責人及儲存行業專家指出,這一趨勢將推動2026年手機、電腦等主要消費電子產品的價格進一步上漲。面對暴漲的價格,多家日本PC商店因無法維持成本及庫存,被迫宣佈暫停接受新訂單,目前至少有三家商店已經採取了暫停訂單的措施,並行布了延遲交貨的預警。這些商店原本就依賴於穩定的零部件供應和價格,但如今,記憶體和儲存的短缺以及價格的劇烈波動,使得他們現有訂單都難以履行,更不用說接受新的預訂了。首先是Sycom,其於12月16日至19日暫時關閉了其網站的訂單系統,儘管隨後重新開放,但交付時間預計將比以往更長。緊接著是TSUKUMO,旗下的G-Gear和eX.computer兩大整機品牌已全面停止接單,並宣佈2025年餘下的日子裡不再接受訂單。Mouse Computer於12月23日發佈聲明,宣佈包括NEXTGEAR、G-TUNE及DAIV在內的所有主力PC品牌從即日起至2026年1月4日暫停銷售。Mouse Computer坦言,此舉是為了維持對現有客戶的服務質量,不過更令玩家心碎的消息是,當恢復預定時,迎接消費者的將是上調後的“新價格”。(硬體世界)
CPU,為何「偷偷轉型」?
CPU的新任務包括調度異構系統,執行特定推理任務,以及提供大容量內存。Yole Group發佈的《2025年處理器產業狀況》報告確認了一個里程碑式的節點:2024年GPU銷售額首次超越了CPU。這標誌著半導體產業正式邁入了一個由加速運算主導的新周期。在這樣一個宏觀背景下,一個核心議題浮出水面:當GPU、NPU以及ASIC這些「加速器」逐漸接管大規模並行運算任務時,傳統的中央處理器會不會被邊緣化?或者說,它能在新的計算範式中找到不可取代的位置嗎?GenAI運算重心的轉移並未消除對主機處理器的需求,但卻徹底改變了對其效能指標的定義。過去三十年間,CPU主要依靠提升通用運算頻率和推測執行效率來推動摩爾定律。然而,在面對兆參數模型訓練與即時推理的高吞吐量需求時,這種通用設計原則正遭遇能效比與I/O瓶頸的雙重挑戰。產業正在重新審視CPU在AI叢集裡的位置。過去,它只是個簡單的邏輯控製器;現在,它正在演變成異質系統的調度中樞,不僅提供大容量記憶體,還直接負責特定的推理任務。這種轉變不僅重構了底層技術架構,也深刻影響市場格局和資本流向,從資料中心一直延伸到邊緣裝置。01. CPU的困境與“轉型”在傳統的以CPU為中心的運算架構中,資料處理流程通常由運行在CPU上的軟體堆疊進行管理,資料需要在網路介面、CPU記憶體和深度學習加速器(DLA)之間進行多次搬運。這種以軟體為基礎的資料控制機制在面對AI工作負載時,顯現出明顯的效率缺陷。主要問題體現在平行指令的衝突以及資料路徑的擁塞,這直接限制了後端加速器的使用率,導致昂貴的硬體資源處於等待狀態,進而推高了系統的整體功耗與成本。更為深層的技術矛盾,在於處理器微架構的設計哲學。現代CPU普遍依賴「推測執行」技術,透過分支預測來提前執行指令以保持管線滿載,這種機制在處理邏輯複雜的通用程序時表現優異。然而,AI和機器學習工作負載主要由大規模的向量和矩陣運算構成,且記憶體存取模式往往呈現出高度的不規則性。在這種場景下,推測執行容易出現預測失敗,導致管線頻繁刷新。被丟棄的計算指令不僅未能產生有效產出,反而造成了額外的能源浪費與延遲。針對通用架構在AI負載下的侷限性,處理器產業正經歷第一層維度的革新:微架構層面的去推測。近期獲得美國專利商標局專利認證的「基於時間的確定性執行模式」代表了一種新的設計想法。該模型摒棄了複雜的推測機制,引入具有時間計數器的向量協處理器,採用靜態調度策略。在這項架構下,指令僅在資料相依性完全解決且運算元就緒的確定時刻,才會被分發至執行單元。由於執行順序和時間是預先規劃且確定的,晶片設計可以省去複雜的暫存器重新命名和亂序執行控制邏輯,從而在矩陣計算等任務中以更低的電晶體開銷和功耗實現高可擴展性。這種確定性執行模型在保持與RISC-V等標準指令集相容的同時,從底層邏輯上適配了AI計算對高吞吐量和低延遲的剛性需求。第二層維度的革新則是系統級架構的「專用化分流」。為瞭解決I/O瓶頸,業界開始探索將網路排序、服務品質管理(QoS)及資料預處理功能從主機CPU的軟體堆疊中剝離,下沉至專用的硬體邏輯。這種被稱為「網路附加處理單元」(NAPU)的設計概念,透過在處理器內部整合DSP核心、視訊引擎及AI最佳化的網路介面,實現了資料路徑的硬體加速。這不僅釋放了通用CPU核心的算力資源,使其能專注於複雜的邏輯調度,也大幅減少了資料在不同元件間的無效移動。此外,主流x86處理器也正在透過整合AMX等專用加速指令集來進行自我進化,最佳化對bf16和int8等低精度資料類型的處理能力,從而在不依賴外部加速器的情況下,提升CPU自身處理矩陣運算的效率。02. AI 時代,CPU的應用場景技術架構的演進直接對應在市場需求的結構性變化。儘管訓練端對GPU的需求持續高漲,但推理端市場正呈現對成本與能源效率的敏感,這為新型CPU提供了廣闊的市場空間。根據Future Market Insights預測,美國資料中心CPU需求將維持7.4%的復合年增長率。這並非源自於對傳統通用算力的渴求,而是由AI應用落地過程中的實際「經濟帳」所逼出來的。在推理場景中,並非所有任務都需要昂貴的GPU叢集。對於大量參數量在7B至13B之間的中小模型,或是單一使用者的即時互動請求,現代伺服器CPU已經能夠提供足夠的吞吐量。英特爾的資料顯示,雙路伺服器在運行特定參數規模的Llama模型時,可以達到滿足即時讀取速度的Token產生率。更關鍵的是,根據亞信科技和Cast AI的統計,公有雲環境中存在大量使用率低於20%的閒置CPU資源。利用這些已部署的通用算力進行AI推理,相較於額外採購專用加速器,具有顯著的總擁有成本(TCO)優勢。因此,在長尾應用和非高並行場景下,CPU正在加入AI推理的主力軍,這種「夠用就好」的經濟邏輯支撐了資料中心CPU市場的持續成長。除了直接承擔推理任務,AI大模型對記憶體容量的渴望也重塑了CPU的市場價值。隨著模型參數量突破兆級,GPU的視訊記憶體容量日益成為限制推理效能的瓶頸,視訊記憶體溢位即意味著服務中斷。在這一背景下,CPU的主記憶體透過CXL等高速互聯技術與GPU共享,實際上充當了加速器的L4快取。在輝達的GH/GB系列以及華為昇騰的超節點方案中,高效能CPU與其搭載的大容量DDR記憶體成為了支撐大模型穩定運行的關鍵基礎設施。這意味著市場對伺服器CPU的評估標準正在改變,記憶體通道數量、頻寬以及與加速器的互聯速度,成為了比核心頻率更為關鍵的選用指標。再把視野放寬到邊緣運算和終端設備,市場對「異質協同」的需求已經超越了單一晶片的效能。在具身智慧、智慧終端這些領域,系統設計有嚴格的分工:CPU負責低延遲的邏輯控制和即​​時互動,GPU負責高並發運算,NPU處理持續運作的背景任務。業界專家指出,在語音轉文字、複雜邏輯調度及即時運動控制等場景中,CPU的反應速度優於需要批次才能發揮效率的GPU。例如在機器人領域,x86 CPU憑藉其在工業控制領域的軟體生態積累,配合嵌入式GPU所構成的主控方案,依然是主流選擇。這種異質運算的市場趨勢促使CPU必須具備更強的協同能力,能夠有效率地將特定負載卸載給NPU或GPU,同時維持對全域任務的精確調度。03. AI CPU,巨頭與後起之秀在技​​術轉型和市場需求的雙重驅動下,處理器產業的競爭格局正在重塑。一方面,專注於AI專用架構的新創公司開始冒頭;另一方面,傳統巨頭也忙著調整策略,進行生態融合。以色列晶片企業NeuReality就是專用化趨勢的典型。該公司近期完成了3,500萬美元的A輪融資,總融資額達4,800萬美元,商業化目標直指AI推理伺服器市場。 NeuReality推出的NR1晶片其實是傳統CPU架構的一次解構與重組,它被定義為「網路附加處理單元」(NAPU)。該晶片整合了Arm Neoverse核心,但其核心競爭力在於異質整合的十六個通用DSP核心、十六個音訊DSP核心以及四個視訊引擎。透過這種硬體設計,NeuReality試圖解決傳統CPU在處理AI資料流時的瓶頸,將網路排序、資料排序及同步等任務固化在硬體中。其公開數據顯示,相較於傳統的CPU中心架構,NR1能夠將AI應用的總擁有成本改善10倍。這種專用化晶片的出現,標誌著市場開始接受不再由通用CPU主宰一切,而是由專用宿主處理器來管理AI管線的概念。同時,傳統晶片巨頭也積極適應這項變化,透過資本運作與技術合作來鞏固生態地位。2025年9月,輝達宣佈向英特爾投資50億美元並進行基礎建設合作,這項商業動作具有強烈的訊號意義。儘管輝達在加速運算領域佔據主導地位,但其對x86生態的巨額投資表明,在未來相當長的時間內,高性能x86 CPU作為異質叢集的通用底座和生態入口,其戰略價值仍然不可撼動。這與其說是妥協,不如說是對現實的承認——再強大的GPU叢集,也需要強大的CPU來調度。在另一端,Arm架構正在伺服器領域發動強而有力的攻勢。數據顯示,Arm架構CPU在伺服器市場的份額持續攀升,預計2025年將佔據全球伺服器出貨量的21.1%。這項成長不僅得益於AWS等雲端廠商自研Graviton系列晶片的推動,也離不開富士通等廠商在歐洲市場的佈局。富士通與歐洲雲端服務商Scaleway達成的策略合作,旨在利用基於Arm架構的FUJITSU-MONAKA CPU平台建構高能效AI推理環境,這種方案避開了GPU算力的紅海競爭,轉而在綠色運算和低TCO推理領域尋找突破口。然而,互聯網大廠的實際部署策略也顯示出市場的複雜性。儘管自研Arm晶片在成本上具有優勢,但在核心的AI訓練叢集中,為了確保軟體生態的絕對相容性和穩定性,x86 CPU仍是首選配置。這表明,未來的處理器市場將不再是單一架構的零和博弈,而是進入了x86與Arm並存、通用CPU與專用AI CPU互補、CPU與加速器深度協同的複雜生態階段。在這種格局下,CPU廠商的競爭力將不再單純取決於核心數量或頻率,而在於其架構是否足夠開放,是否能高效地融入異構計算的流水線,以及是否能為日益多樣化的AI負載提供最具經濟效益的算力支援。 (半導體產業縱橫)
德國最大零售商:Intel CPU收入份額首次跌破5%!銷量前30都是AMD
最新資料顯示,Intel CPU在德國零售商Mindfactory上周的收入份額,首次跌破5%。據TechEpiphany分享的Mindfactory 2025年第49周銷量資料,Intel CPU所佔收入份額已從7%以上下降至不足5%,這可能是其近年來最低的水平。與此同時,競爭對手AMD則繼續保持絕對領先地位,其整體份額穩定在93.6%,收入份額更是高達95.05%。銷量方面,Mindfactory共售出近3655顆AMD CPU,而Intel在整周內僅勉強售出約250顆。在250顆Intel CPU中,Arrow Lake銷量僅為40顆,而LGA 1700平台(12、13、14代酷睿)售出約200顆,且沒有任何一款進入銷量排行前30名。而AMD方面,銳龍7 9800X3D持續主導銷量榜單,一周售出1290顆,緊隨其後的是7800X3D,此外銳龍9000、7000系列,乃至較舊的AM4平台銳龍5000系列仍在穩定貢獻銷量。值得注意的是,這種趨勢並非Mindfactory獨有,亞馬遜美國站的資料也顯示銳龍7 9800X3D和7800X3D的銷量超過了Intel全線CPU產品的總和。不過在移動端,Intel還是挺猛的,未來更猛!Intel下一代Panther Lake旗艦移動處理器酷睿Ultra X9 388H,近日出現在Geekbench上。測試結果顯示,Intel酷睿Ultra X9 388H處理器在Geekbench測試中,單核得分3057分,多核得分則為17687分。作為對比,在單核測試中,酷睿Ultra X9 388H的得分比其前代Ultra 9 285H提升了近15%,與AMD的旗艦級移動晶片銳龍AI Max+ 395相當。而且需要注意的是,銳龍AI Max+ 395默認TDP為55W,TDP範圍為45W-120W,而酷睿Ultra X9 388H的默認TDP為45W,TDP範圍預計接近前代,即45W-115W。在多核測試方面,酷睿Ultra X9 388H採用與前代不同的核心配置,採用了4+8+4的P/E/LP核心配置,其多核性能超越Ultra 9 285H約21%,此外Geekbench顯示,該晶片的最高加速頻率可達5.1GHz。雖然這仍是早期的工程樣品跑分,且Geekbench的測試結果可能有所波動,但看來Intel下一代移動處理器在CPU和iGPU性能方面都將帶來不小的改進。 (硬體世界)
吉姆·凱勒新作!性能最強RISC-V CPU來了,叫板輝達Arm
前蘋果晶片大神新作,專為高性能計算而生。今日,美國AI晶片企業Tenstorrent推出高性能RISC-V CPU——TT-Ascalon,宣告其性能超越當下所有市場上已有RISC-V CPU。該CPU適用於伺服器、AI基礎設施、汽車高性能計算(HPC)及高級駕駛輔助系統(ADAS)等廣泛場景。Tenstorrent產品戰略副總裁Aniket Saha談道:“RISC-V核心幾乎覆蓋所有應用,但此前一直缺乏真正的高性能產品。Ascalon填補了這一空白,作為專為先進計算設計的RISC-V CPU,具備完整的出口合規性和全球可用性。”▲Tenstorrent產品戰略副總裁Aniket Saha在講解產品Tenstorrent於2016年創立於加拿大,於2023年將註冊地和總部遷往美國,2025年由晶片產業傳奇人物、前蘋果A系列及特斯拉自動駕駛晶片主導研發人吉姆・凱勒(Jim Keller)出任CEO,其於2025年剛剛憑藉開放式芯粒架構(OCA)成為RISC-V生態核心參與者。該公司近期剛剛被傳出推進至少8億美元的新融資,目前已完成多輪累計超10億美元融資,估值達32億美元。投資者對Tenstorrent的興趣源自其被認為是撕開輝達集中市場一條口子的重要潛力,其已通過大量開源技術避免了使用輝達成本較高的頻寬記憶體(HBM)。回到Tenstorrent今日的最新發佈來看,Ascalon的架構具有多方面創新,其通過業界標準SPEC CPU基準測試驗證,單核性能達到22 SPECint 2006/GHz、>2.3 SPECint 2017/GHz和>3.6 SPECfp 2017/GHz,並可在Samsung SF4X工藝節點下實現>2.5 GHz主頻,展現了其強大的設計和在先進工藝節點上的可擴展性。▲TT-Ascalon架構性能情況據Tenstorrent RISC-V核心副總裁Divyang Agrawal介紹,該產品的一大特徵是完全相容RISC-V RVA23規範。軟體生態決定了開發者能實現什麼。那麼Ascalon架構的生態系統在那裡?如何確保它能融入整個RISC-V生態?RVA23配置檔案標準化了應用級處理器需實現的功能集,這將直接整合到軟體工具鏈中。通過標準化,它不僅支援各類標準、安全擴展,還支援最新的RISC-V向量擴展,這正是其CPU與AI產品線共同採用的一大核心技術。並且,Ascalon整合高性能RVV1.0向量引擎,支援硬體虛擬化、先進記憶體管理和高級中斷架構。此外,Ascalon還具備安全性和RAS(可靠性、可用性和可維護性)特性,包括側通道攻擊防護。在推出Ascalon的同時,Tenstorrent還宣佈Ascalon全面支援GCC、LLVM和Qemu,並已完成上游合入,開發者和客戶可立即部署使用。通過本次發佈,Tenstorrent確保為RVA23建構的軟體能在Ascalon及任何符合RVA23規範的處理器上無縫運行,為開發者提供可靠保障。▲Ascalon全面支援GCC等軟體生態Divyang Agrawal補充道:“通過Ascalon,我們為客戶提供了集高性能核心、系統IP、RVA23相容工具鏈和完整技術資料於一體的整體解決方案。這為客戶開發從高性能計算到機器人等計算平台提供了關鍵建構模組,助力開發者拓展RISC-V生態。”Tenstorrent在產品設計時的一大原則是:一個設計方案的最終實現形態,取決於其目標應用領域。因此,他們從一開始就通盤考量了基礎設施、工具鏈、設計方法學以及設計本身。其架構被設計為高度可配置和參數化。Tenstorrent同時強調IP設計要有遠見。擁有IP、一套可配置的參數固然重要,但這還不夠。Tenstorrent認為其還需要提供一套能夠立即部署的完整方案,Tenstorrent團隊希望強調的是其可擴展性。Tenstorrent提供了從單連接埠到最多8連接埠的可配置性,從單一核心擴展至最多包含八個核心、共享快取的叢集,並會持續演進。Ascalon連接埠被認為是Arm的重要替代選項。▲Tenstorrent提供了從單連接埠到最多8連接埠的可配置性最後,當晶片流片之後,晶片偵錯能力至關重要。Tenstorrent認為,在設計中嵌入強大的偵錯能力,並控製成本,這再次成為其區別於普通IP供應商的一個關鍵。目前市面上已有的開發平台,大多不允許開發者在上面進行真正意義上的高性能軟體開發。但Tenstorrent使得從高性能計算(HPC)到嵌入式設計的軟體開發成為可能。正如Divyang Agrawal所說,將所有要素整合,Tenstorrent提供的是一個完整的解決方案。▲Tenstorrent提供的是一個完整的解決方案在生態合作方面,Tenstorrent通過其Innovation License(創新授權)計畫,為合作夥伴提供自主創新的路徑,該計畫使合作夥伴能夠基於Tenstorrent技術建構差異化且自主可控的解決方案。同時,Tenstorrent已與CoreLab建立合作夥伴關係,推動區域客戶支援和設計最佳化,幫助客戶高效採用並快速部署其IP。此外,Tenstorrent還在今日與知名軟體定義汽車平台供應商AutoCore.ai達成戰略合作。Ascalon RISC-V處理器為後者的AutoCore軟體平台提供強大的算力支援,加速RISC-V在汽車領域的應用落地。 (芯東西)
吉姆·凱勒新作!性能最強RISC-V CPU來了,叫板輝達Arm
前蘋果晶片大神新作,專為高性能計算而生。芯東西12月4日報導,今日,美國AI晶片企業Tenstorrent推出高性能RISC-V CPU——TT-Ascalon,宣告其性能超越當下所有市場上已有RISC-V CPU。該CPU適用於伺服器、AI基礎設施、汽車高性能計算(HPC)及高級駕駛輔助系統(ADAS)等廣泛場景。Tenstorrent產品戰略副總裁Aniket Saha談道:“RISC-V核心幾乎覆蓋所有應用,但此前一直缺乏真正的高性能產品。Ascalon填補了這一空白,作為專為先進計算設計的RISC-V CPU,具備完整的出口合規性和全球可用性。”▲Tenstorrent產品戰略副總裁Aniket Saha在講解產品Tenstorrent於2016年創立於加拿大,於2023年將註冊地和總部遷往美國,2025年由晶片產業傳奇人物、前蘋果A系列及特斯拉自動駕駛晶片主導研發人吉姆・凱勒(Jim Keller)出任CEO,其於2025年剛剛憑藉開放式芯粒架構(OCA)成為RISC-V生態核心參與者。該公司近期剛剛被傳出推進至少8億美元的新融資,目前已完成多輪累計超10億美元融資,估值達32億美元。投資者對Tenstorrent的興趣源自其被認為是撕開輝達集中市場一條口子的重要潛力,其已通過大量開源技術避免了使用輝達成本較高的頻寬記憶體(HBM)。回到Tenstorrent今日的最新發佈來看,Ascalon的架構具有多方面創新,其通過業界標準SPEC CPU基準測試驗證,單核性能達到22 SPECint 2006/GHz、>2.3 SPECint 2017/GHz和>3.6 SPECfp 2017/GHz,並可在Samsung SF4X工藝節點下實現>2.5 GHz主頻,展現了其強大的設計和在先進工藝節點上的可擴展性。▲TT-Ascalon架構性能情況據Tenstorrent RISC-V核心副總裁Divyang Agrawal介紹,該產品的一大特徵是完全相容RISC-V RVA23規範。軟體生態決定了開發者能實現什麼。那麼Ascalon架構的生態系統在那裡?如何確保它能融入整個RISC-V生態?RVA23配置檔案標準化了應用級處理器需實現的功能集,這將直接整合到軟體工具鏈中。通過標準化,它不僅支援各類標準、安全擴展,還支援最新的RISC-V向量擴展,這正是其CPU與AI產品線共同採用的一大核心技術。並且,Ascalon整合高性能RVV1.0向量引擎,支援硬體虛擬化、先進記憶體管理和高級中斷架構。此外,Ascalon還具備安全性和RAS(可靠性、可用性和可維護性)特性,包括側通道攻擊防護。在推出Ascalon的同時,Tenstorrent還宣佈Ascalon全面支援GCC、LLVM和Qemu,並已完成上游合入,開發者和客戶可立即部署使用。通過本次發佈,Tenstorrent確保為RVA23建構的軟體能在Ascalon及任何符合RVA23規範的處理器上無縫運行,為開發者提供可靠保障。▲Ascalon全面支援GCC等軟體生態Divyang Agrawal補充道:“通過Ascalon,我們為客戶提供了集高性能核心、系統IP、RVA23相容工具鏈和完整技術資料於一體的整體解決方案。這為客戶開發從高性能計算到機器人等計算平台提供了關鍵建構模組,助力開發者拓展RISC-V生態。”Tenstorrent在產品設計時的一大原則是:一個設計方案的最終實現形態,取決於其目標應用領域。因此,他們從一開始就通盤考量了基礎設施、工具鏈、設計方法學以及設計本身。其架構被設計為高度可配置和參數化。Tenstorrent同時強調IP設計要有遠見。擁有IP、一套可配置的參數固然重要,但這還不夠。Tenstorrent認為其還需要提供一套能夠立即部署的完整方案,Tenstorrent團隊希望強調的是其可擴展性。Tenstorrent提供了從單連接埠到最多8連接埠的可配置性,從單一核心擴展至最多包含八個核心、共享快取的叢集,並會持續演進。Ascalon連接埠被認為是Arm的重要替代選項。▲Tenstorrent提供了從單連接埠到最多8連接埠的可配置性最後,當晶片流片之後,晶片偵錯能力至關重要。Tenstorrent認為,在設計中嵌入強大的偵錯能力,並控製成本,這再次成為其區別於普通IP供應商的一個關鍵。目前市面上已有的開發平台,大多不允許開發者在上面進行真正意義上的高性能軟體開發。但Tenstorrent使得從高性能計算(HPC)到嵌入式設計的軟體開發成為可能。正如Divyang Agrawal所說,將所有要素整合,Tenstorrent提供的是一個完整的解決方案。▲Tenstorrent提供的是一個完整的解決方案在生態合作方面,Tenstorrent通過其Innovation License(創新授權)計畫,為合作夥伴提供自主創新的路徑,該計畫使合作夥伴能夠基於Tenstorrent技術建構差異化且自主可控的解決方案。同時,Tenstorrent已與CoreLab建立合作夥伴關係,推動區域客戶支援和設計最佳化,幫助客戶高效採用並快速部署其IP。此外,Tenstorrent還在今日與知名軟體定義汽車平台供應商AutoCore.ai達成戰略合作。Ascalon RISC-V處理器為後者的AutoCore軟體平台提供強大的算力支援,加速RISC-V在汽車領域的應用落地。 (芯東西)