CPU的新任務包括調度異構系統,執行特定推理任務,以及提供大容量內存。
Yole Group發佈的《2025年處理器產業狀況》報告確認了一個里程碑式的節點:2024年GPU銷售額首次超越了CPU。這標誌著半導體產業正式邁入了一個由加速運算主導的新周期。在這樣一個宏觀背景下,一個核心議題浮出水面:當GPU、NPU以及ASIC這些「加速器」逐漸接管大規模並行運算任務時,傳統的中央處理器會不會被邊緣化?或者說,它能在新的計算範式中找到不可取代的位置嗎?
GenAI運算重心的轉移並未消除對主機處理器的需求,但卻徹底改變了對其效能指標的定義。過去三十年間,CPU主要依靠提升通用運算頻率和推測執行效率來推動摩爾定律。然而,在面對兆參數模型訓練與即時推理的高吞吐量需求時,這種通用設計原則正遭遇能效比與I/O瓶頸的雙重挑戰。
產業正在重新審視CPU在AI叢集裡的位置。過去,它只是個簡單的邏輯控製器;現在,它正在演變成異質系統的調度中樞,不僅提供大容量記憶體,還直接負責特定的推理任務。這種轉變不僅重構了底層技術架構,也深刻影響市場格局和資本流向,從資料中心一直延伸到邊緣裝置。
在傳統的以CPU為中心的運算架構中,資料處理流程通常由運行在CPU上的軟體堆疊進行管理,資料需要在網路介面、CPU記憶體和深度學習加速器(DLA)之間進行多次搬運。這種以軟體為基礎的資料控制機制在面對AI工作負載時,顯現出明顯的效率缺陷。主要問題體現在平行指令的衝突以及資料路徑的擁塞,這直接限制了後端加速器的使用率,導致昂貴的硬體資源處於等待狀態,進而推高了系統的整體功耗與成本。
更為深層的技術矛盾,在於處理器微架構的設計哲學。現代CPU普遍依賴「推測執行」技術,透過分支預測來提前執行指令以保持管線滿載,這種機制在處理邏輯複雜的通用程序時表現優異。然而,AI和機器學習工作負載主要由大規模的向量和矩陣運算構成,且記憶體存取模式往往呈現出高度的不規則性。在這種場景下,推測執行容易出現預測失敗,導致管線頻繁刷新。被丟棄的計算指令不僅未能產生有效產出,反而造成了額外的能源浪費與延遲。
針對通用架構在AI負載下的侷限性,處理器產業正經歷第一層維度的革新:微架構層面的去推測。近期獲得美國專利商標局專利認證的「基於時間的確定性執行模式」代表了一種新的設計想法。該模型摒棄了複雜的推測機制,引入具有時間計數器的向量協處理器,採用靜態調度策略。在這項架構下,指令僅在資料相依性完全解決且運算元就緒的確定時刻,才會被分發至執行單元。
由於執行順序和時間是預先規劃且確定的,晶片設計可以省去複雜的暫存器重新命名和亂序執行控制邏輯,從而在矩陣計算等任務中以更低的電晶體開銷和功耗實現高可擴展性。這種確定性執行模型在保持與RISC-V等標準指令集相容的同時,從底層邏輯上適配了AI計算對高吞吐量和低延遲的剛性需求。
第二層維度的革新則是系統級架構的「專用化分流」。為瞭解決I/O瓶頸,業界開始探索將網路排序、服務品質管理(QoS)及資料預處理功能從主機CPU的軟體堆疊中剝離,下沉至專用的硬體邏輯。這種被稱為「網路附加處理單元」(NAPU)的設計概念,透過在處理器內部整合DSP核心、視訊引擎及AI最佳化的網路介面,實現了資料路徑的硬體加速。
這不僅釋放了通用CPU核心的算力資源,使其能專注於複雜的邏輯調度,也大幅減少了資料在不同元件間的無效移動。此外,主流x86處理器也正在透過整合AMX等專用加速指令集來進行自我進化,最佳化對bf16和int8等低精度資料類型的處理能力,從而在不依賴外部加速器的情況下,提升CPU自身處理矩陣運算的效率。
技術架構的演進直接對應在市場需求的結構性變化。儘管訓練端對GPU的需求持續高漲,但推理端市場正呈現對成本與能源效率的敏感,這為新型CPU提供了廣闊的市場空間。根據Future Market Insights預測,美國資料中心CPU需求將維持7.4%的復合年增長率。這並非源自於對傳統通用算力的渴求,而是由AI應用落地過程中的實際「經濟帳」所逼出來的。
在推理場景中,並非所有任務都需要昂貴的GPU叢集。對於大量參數量在7B至13B之間的中小模型,或是單一使用者的即時互動請求,現代伺服器CPU已經能夠提供足夠的吞吐量。英特爾的資料顯示,雙路伺服器在運行特定參數規模的Llama模型時,可以達到滿足即時讀取速度的Token產生率。
更關鍵的是,根據亞信科技和Cast AI的統計,公有雲環境中存在大量使用率低於20%的閒置CPU資源。利用這些已部署的通用算力進行AI推理,相較於額外採購專用加速器,具有顯著的總擁有成本(TCO)優勢。因此,在長尾應用和非高並行場景下,CPU正在加入AI推理的主力軍,這種「夠用就好」的經濟邏輯支撐了資料中心CPU市場的持續成長。
除了直接承擔推理任務,AI大模型對記憶體容量的渴望也重塑了CPU的市場價值。隨著模型參數量突破兆級,GPU的視訊記憶體容量日益成為限制推理效能的瓶頸,視訊記憶體溢位即意味著服務中斷。在這一背景下,CPU的主記憶體透過CXL等高速互聯技術與GPU共享,實際上充當了加速器的L4快取。
在輝達的GH/GB系列以及華為昇騰的超節點方案中,高效能CPU與其搭載的大容量DDR記憶體成為了支撐大模型穩定運行的關鍵基礎設施。這意味著市場對伺服器CPU的評估標準正在改變,記憶體通道數量、頻寬以及與加速器的互聯速度,成為了比核心頻率更為關鍵的選用指標。
再把視野放寬到邊緣運算和終端設備,市場對「異質協同」的需求已經超越了單一晶片的效能。在具身智慧、智慧終端這些領域,系統設計有嚴格的分工:CPU負責低延遲的邏輯控制和即時互動,GPU負責高並發運算,NPU處理持續運作的背景任務。
業界專家指出,在語音轉文字、複雜邏輯調度及即時運動控制等場景中,CPU的反應速度優於需要批次才能發揮效率的GPU。例如在機器人領域,x86 CPU憑藉其在工業控制領域的軟體生態積累,配合嵌入式GPU所構成的主控方案,依然是主流選擇。這種異質運算的市場趨勢促使CPU必須具備更強的協同能力,能夠有效率地將特定負載卸載給NPU或GPU,同時維持對全域任務的精確調度。
在技術轉型和市場需求的雙重驅動下,處理器產業的競爭格局正在重塑。一方面,專注於AI專用架構的新創公司開始冒頭;另一方面,傳統巨頭也忙著調整策略,進行生態融合。
以色列晶片企業NeuReality就是專用化趨勢的典型。該公司近期完成了3,500萬美元的A輪融資,總融資額達4,800萬美元,商業化目標直指AI推理伺服器市場。 NeuReality推出的NR1晶片其實是傳統CPU架構的一次解構與重組,它被定義為「網路附加處理單元」(NAPU)。該晶片整合了Arm Neoverse核心,但其核心競爭力在於異質整合的十六個通用DSP核心、十六個音訊DSP核心以及四個視訊引擎。
透過這種硬體設計,NeuReality試圖解決傳統CPU在處理AI資料流時的瓶頸,將網路排序、資料排序及同步等任務固化在硬體中。其公開數據顯示,相較於傳統的CPU中心架構,NR1能夠將AI應用的總擁有成本改善10倍。這種專用化晶片的出現,標誌著市場開始接受不再由通用CPU主宰一切,而是由專用宿主處理器來管理AI管線的概念。
同時,傳統晶片巨頭也積極適應這項變化,透過資本運作與技術合作來鞏固生態地位。2025年9月,輝達宣佈向英特爾投資50億美元並進行基礎建設合作,這項商業動作具有強烈的訊號意義。儘管輝達在加速運算領域佔據主導地位,但其對x86生態的巨額投資表明,在未來相當長的時間內,高性能x86 CPU作為異質叢集的通用底座和生態入口,其戰略價值仍然不可撼動。這與其說是妥協,不如說是對現實的承認——再強大的GPU叢集,也需要強大的CPU來調度。
在另一端,Arm架構正在伺服器領域發動強而有力的攻勢。數據顯示,Arm架構CPU在伺服器市場的份額持續攀升,預計2025年將佔據全球伺服器出貨量的21.1%。這項成長不僅得益於AWS等雲端廠商自研Graviton系列晶片的推動,也離不開富士通等廠商在歐洲市場的佈局。富士通與歐洲雲端服務商Scaleway達成的策略合作,旨在利用基於Arm架構的FUJITSU-MONAKA CPU平台建構高能效AI推理環境,這種方案避開了GPU算力的紅海競爭,轉而在綠色運算和低TCO推理領域尋找突破口。
然而,互聯網大廠的實際部署策略也顯示出市場的複雜性。儘管自研Arm晶片在成本上具有優勢,但在核心的AI訓練叢集中,為了確保軟體生態的絕對相容性和穩定性,x86 CPU仍是首選配置。這表明,未來的處理器市場將不再是單一架構的零和博弈,而是進入了x86與Arm並存、通用CPU與專用AI CPU互補、CPU與加速器深度協同的複雜生態階段。
在這種格局下,CPU廠商的競爭力將不再單純取決於核心數量或頻率,而在於其架構是否足夠開放,是否能高效地融入異構計算的流水線,以及是否能為日益多樣化的AI負載提供最具經濟效益的算力支援。 (半導體產業縱橫)