#cpu
CPU,為何「偷偷轉型」?
CPU的新任務包括調度異構系統,執行特定推理任務,以及提供大容量內存。Yole Group發佈的《2025年處理器產業狀況》報告確認了一個里程碑式的節點:2024年GPU銷售額首次超越了CPU。這標誌著半導體產業正式邁入了一個由加速運算主導的新周期。在這樣一個宏觀背景下,一個核心議題浮出水面:當GPU、NPU以及ASIC這些「加速器」逐漸接管大規模並行運算任務時,傳統的中央處理器會不會被邊緣化?或者說,它能在新的計算範式中找到不可取代的位置嗎?GenAI運算重心的轉移並未消除對主機處理器的需求,但卻徹底改變了對其效能指標的定義。過去三十年間,CPU主要依靠提升通用運算頻率和推測執行效率來推動摩爾定律。然而,在面對兆參數模型訓練與即時推理的高吞吐量需求時,這種通用設計原則正遭遇能效比與I/O瓶頸的雙重挑戰。產業正在重新審視CPU在AI叢集裡的位置。過去,它只是個簡單的邏輯控製器;現在,它正在演變成異質系統的調度中樞,不僅提供大容量記憶體,還直接負責特定的推理任務。這種轉變不僅重構了底層技術架構,也深刻影響市場格局和資本流向,從資料中心一直延伸到邊緣裝置。01. CPU的困境與“轉型”在傳統的以CPU為中心的運算架構中,資料處理流程通常由運行在CPU上的軟體堆疊進行管理,資料需要在網路介面、CPU記憶體和深度學習加速器(DLA)之間進行多次搬運。這種以軟體為基礎的資料控制機制在面對AI工作負載時,顯現出明顯的效率缺陷。主要問題體現在平行指令的衝突以及資料路徑的擁塞,這直接限制了後端加速器的使用率,導致昂貴的硬體資源處於等待狀態,進而推高了系統的整體功耗與成本。更為深層的技術矛盾,在於處理器微架構的設計哲學。現代CPU普遍依賴「推測執行」技術,透過分支預測來提前執行指令以保持管線滿載,這種機制在處理邏輯複雜的通用程序時表現優異。然而,AI和機器學習工作負載主要由大規模的向量和矩陣運算構成,且記憶體存取模式往往呈現出高度的不規則性。在這種場景下,推測執行容易出現預測失敗,導致管線頻繁刷新。被丟棄的計算指令不僅未能產生有效產出,反而造成了額外的能源浪費與延遲。針對通用架構在AI負載下的侷限性,處理器產業正經歷第一層維度的革新:微架構層面的去推測。近期獲得美國專利商標局專利認證的「基於時間的確定性執行模式」代表了一種新的設計想法。該模型摒棄了複雜的推測機制,引入具有時間計數器的向量協處理器,採用靜態調度策略。在這項架構下,指令僅在資料相依性完全解決且運算元就緒的確定時刻,才會被分發至執行單元。由於執行順序和時間是預先規劃且確定的,晶片設計可以省去複雜的暫存器重新命名和亂序執行控制邏輯,從而在矩陣計算等任務中以更低的電晶體開銷和功耗實現高可擴展性。這種確定性執行模型在保持與RISC-V等標準指令集相容的同時,從底層邏輯上適配了AI計算對高吞吐量和低延遲的剛性需求。第二層維度的革新則是系統級架構的「專用化分流」。為瞭解決I/O瓶頸,業界開始探索將網路排序、服務品質管理(QoS)及資料預處理功能從主機CPU的軟體堆疊中剝離,下沉至專用的硬體邏輯。這種被稱為「網路附加處理單元」(NAPU)的設計概念,透過在處理器內部整合DSP核心、視訊引擎及AI最佳化的網路介面,實現了資料路徑的硬體加速。這不僅釋放了通用CPU核心的算力資源,使其能專注於複雜的邏輯調度,也大幅減少了資料在不同元件間的無效移動。此外,主流x86處理器也正在透過整合AMX等專用加速指令集來進行自我進化,最佳化對bf16和int8等低精度資料類型的處理能力,從而在不依賴外部加速器的情況下,提升CPU自身處理矩陣運算的效率。02. AI 時代,CPU的應用場景技術架構的演進直接對應在市場需求的結構性變化。儘管訓練端對GPU的需求持續高漲,但推理端市場正呈現對成本與能源效率的敏感,這為新型CPU提供了廣闊的市場空間。根據Future Market Insights預測,美國資料中心CPU需求將維持7.4%的復合年增長率。這並非源自於對傳統通用算力的渴求,而是由AI應用落地過程中的實際「經濟帳」所逼出來的。在推理場景中,並非所有任務都需要昂貴的GPU叢集。對於大量參數量在7B至13B之間的中小模型,或是單一使用者的即時互動請求,現代伺服器CPU已經能夠提供足夠的吞吐量。英特爾的資料顯示,雙路伺服器在運行特定參數規模的Llama模型時,可以達到滿足即時讀取速度的Token產生率。更關鍵的是,根據亞信科技和Cast AI的統計,公有雲環境中存在大量使用率低於20%的閒置CPU資源。利用這些已部署的通用算力進行AI推理,相較於額外採購專用加速器,具有顯著的總擁有成本(TCO)優勢。因此,在長尾應用和非高並行場景下,CPU正在加入AI推理的主力軍,這種「夠用就好」的經濟邏輯支撐了資料中心CPU市場的持續成長。除了直接承擔推理任務,AI大模型對記憶體容量的渴望也重塑了CPU的市場價值。隨著模型參數量突破兆級,GPU的視訊記憶體容量日益成為限制推理效能的瓶頸,視訊記憶體溢位即意味著服務中斷。在這一背景下,CPU的主記憶體透過CXL等高速互聯技術與GPU共享,實際上充當了加速器的L4快取。在輝達的GH/GB系列以及華為昇騰的超節點方案中,高效能CPU與其搭載的大容量DDR記憶體成為了支撐大模型穩定運行的關鍵基礎設施。這意味著市場對伺服器CPU的評估標準正在改變,記憶體通道數量、頻寬以及與加速器的互聯速度,成為了比核心頻率更為關鍵的選用指標。再把視野放寬到邊緣運算和終端設備,市場對「異質協同」的需求已經超越了單一晶片的效能。在具身智慧、智慧終端這些領域,系統設計有嚴格的分工:CPU負責低延遲的邏輯控制和即​​時互動,GPU負責高並發運算,NPU處理持續運作的背景任務。業界專家指出,在語音轉文字、複雜邏輯調度及即時運動控制等場景中,CPU的反應速度優於需要批次才能發揮效率的GPU。例如在機器人領域,x86 CPU憑藉其在工業控制領域的軟體生態積累,配合嵌入式GPU所構成的主控方案,依然是主流選擇。這種異質運算的市場趨勢促使CPU必須具備更強的協同能力,能夠有效率地將特定負載卸載給NPU或GPU,同時維持對全域任務的精確調度。03. AI CPU,巨頭與後起之秀在技​​術轉型和市場需求的雙重驅動下,處理器產業的競爭格局正在重塑。一方面,專注於AI專用架構的新創公司開始冒頭;另一方面,傳統巨頭也忙著調整策略,進行生態融合。以色列晶片企業NeuReality就是專用化趨勢的典型。該公司近期完成了3,500萬美元的A輪融資,總融資額達4,800萬美元,商業化目標直指AI推理伺服器市場。 NeuReality推出的NR1晶片其實是傳統CPU架構的一次解構與重組,它被定義為「網路附加處理單元」(NAPU)。該晶片整合了Arm Neoverse核心,但其核心競爭力在於異質整合的十六個通用DSP核心、十六個音訊DSP核心以及四個視訊引擎。透過這種硬體設計,NeuReality試圖解決傳統CPU在處理AI資料流時的瓶頸,將網路排序、資料排序及同步等任務固化在硬體中。其公開數據顯示,相較於傳統的CPU中心架構,NR1能夠將AI應用的總擁有成本改善10倍。這種專用化晶片的出現,標誌著市場開始接受不再由通用CPU主宰一切,而是由專用宿主處理器來管理AI管線的概念。同時,傳統晶片巨頭也積極適應這項變化,透過資本運作與技術合作來鞏固生態地位。2025年9月,輝達宣佈向英特爾投資50億美元並進行基礎建設合作,這項商業動作具有強烈的訊號意義。儘管輝達在加速運算領域佔據主導地位,但其對x86生態的巨額投資表明,在未來相當長的時間內,高性能x86 CPU作為異質叢集的通用底座和生態入口,其戰略價值仍然不可撼動。這與其說是妥協,不如說是對現實的承認——再強大的GPU叢集,也需要強大的CPU來調度。在另一端,Arm架構正在伺服器領域發動強而有力的攻勢。數據顯示,Arm架構CPU在伺服器市場的份額持續攀升,預計2025年將佔據全球伺服器出貨量的21.1%。這項成長不僅得益於AWS等雲端廠商自研Graviton系列晶片的推動,也離不開富士通等廠商在歐洲市場的佈局。富士通與歐洲雲端服務商Scaleway達成的策略合作,旨在利用基於Arm架構的FUJITSU-MONAKA CPU平台建構高能效AI推理環境,這種方案避開了GPU算力的紅海競爭,轉而在綠色運算和低TCO推理領域尋找突破口。然而,互聯網大廠的實際部署策略也顯示出市場的複雜性。儘管自研Arm晶片在成本上具有優勢,但在核心的AI訓練叢集中,為了確保軟體生態的絕對相容性和穩定性,x86 CPU仍是首選配置。這表明,未來的處理器市場將不再是單一架構的零和博弈,而是進入了x86與Arm並存、通用CPU與專用AI CPU互補、CPU與加速器深度協同的複雜生態階段。在這種格局下,CPU廠商的競爭力將不再單純取決於核心數量或頻率,而在於其架構是否足夠開放,是否能高效地融入異構計算的流水線,以及是否能為日益多樣化的AI負載提供最具經濟效益的算力支援。 (半導體產業縱橫)
德國最大零售商:Intel CPU收入份額首次跌破5%!銷量前30都是AMD
最新資料顯示,Intel CPU在德國零售商Mindfactory上周的收入份額,首次跌破5%。據TechEpiphany分享的Mindfactory 2025年第49周銷量資料,Intel CPU所佔收入份額已從7%以上下降至不足5%,這可能是其近年來最低的水平。與此同時,競爭對手AMD則繼續保持絕對領先地位,其整體份額穩定在93.6%,收入份額更是高達95.05%。銷量方面,Mindfactory共售出近3655顆AMD CPU,而Intel在整周內僅勉強售出約250顆。在250顆Intel CPU中,Arrow Lake銷量僅為40顆,而LGA 1700平台(12、13、14代酷睿)售出約200顆,且沒有任何一款進入銷量排行前30名。而AMD方面,銳龍7 9800X3D持續主導銷量榜單,一周售出1290顆,緊隨其後的是7800X3D,此外銳龍9000、7000系列,乃至較舊的AM4平台銳龍5000系列仍在穩定貢獻銷量。值得注意的是,這種趨勢並非Mindfactory獨有,亞馬遜美國站的資料也顯示銳龍7 9800X3D和7800X3D的銷量超過了Intel全線CPU產品的總和。不過在移動端,Intel還是挺猛的,未來更猛!Intel下一代Panther Lake旗艦移動處理器酷睿Ultra X9 388H,近日出現在Geekbench上。測試結果顯示,Intel酷睿Ultra X9 388H處理器在Geekbench測試中,單核得分3057分,多核得分則為17687分。作為對比,在單核測試中,酷睿Ultra X9 388H的得分比其前代Ultra 9 285H提升了近15%,與AMD的旗艦級移動晶片銳龍AI Max+ 395相當。而且需要注意的是,銳龍AI Max+ 395默認TDP為55W,TDP範圍為45W-120W,而酷睿Ultra X9 388H的默認TDP為45W,TDP範圍預計接近前代,即45W-115W。在多核測試方面,酷睿Ultra X9 388H採用與前代不同的核心配置,採用了4+8+4的P/E/LP核心配置,其多核性能超越Ultra 9 285H約21%,此外Geekbench顯示,該晶片的最高加速頻率可達5.1GHz。雖然這仍是早期的工程樣品跑分,且Geekbench的測試結果可能有所波動,但看來Intel下一代移動處理器在CPU和iGPU性能方面都將帶來不小的改進。 (硬體世界)
吉姆·凱勒新作!性能最強RISC-V CPU來了,叫板輝達Arm
前蘋果晶片大神新作,專為高性能計算而生。今日,美國AI晶片企業Tenstorrent推出高性能RISC-V CPU——TT-Ascalon,宣告其性能超越當下所有市場上已有RISC-V CPU。該CPU適用於伺服器、AI基礎設施、汽車高性能計算(HPC)及高級駕駛輔助系統(ADAS)等廣泛場景。Tenstorrent產品戰略副總裁Aniket Saha談道:“RISC-V核心幾乎覆蓋所有應用,但此前一直缺乏真正的高性能產品。Ascalon填補了這一空白,作為專為先進計算設計的RISC-V CPU,具備完整的出口合規性和全球可用性。”▲Tenstorrent產品戰略副總裁Aniket Saha在講解產品Tenstorrent於2016年創立於加拿大,於2023年將註冊地和總部遷往美國,2025年由晶片產業傳奇人物、前蘋果A系列及特斯拉自動駕駛晶片主導研發人吉姆・凱勒(Jim Keller)出任CEO,其於2025年剛剛憑藉開放式芯粒架構(OCA)成為RISC-V生態核心參與者。該公司近期剛剛被傳出推進至少8億美元的新融資,目前已完成多輪累計超10億美元融資,估值達32億美元。投資者對Tenstorrent的興趣源自其被認為是撕開輝達集中市場一條口子的重要潛力,其已通過大量開源技術避免了使用輝達成本較高的頻寬記憶體(HBM)。回到Tenstorrent今日的最新發佈來看,Ascalon的架構具有多方面創新,其通過業界標準SPEC CPU基準測試驗證,單核性能達到22 SPECint 2006/GHz、>2.3 SPECint 2017/GHz和>3.6 SPECfp 2017/GHz,並可在Samsung SF4X工藝節點下實現>2.5 GHz主頻,展現了其強大的設計和在先進工藝節點上的可擴展性。▲TT-Ascalon架構性能情況據Tenstorrent RISC-V核心副總裁Divyang Agrawal介紹,該產品的一大特徵是完全相容RISC-V RVA23規範。軟體生態決定了開發者能實現什麼。那麼Ascalon架構的生態系統在那裡?如何確保它能融入整個RISC-V生態?RVA23配置檔案標準化了應用級處理器需實現的功能集,這將直接整合到軟體工具鏈中。通過標準化,它不僅支援各類標準、安全擴展,還支援最新的RISC-V向量擴展,這正是其CPU與AI產品線共同採用的一大核心技術。並且,Ascalon整合高性能RVV1.0向量引擎,支援硬體虛擬化、先進記憶體管理和高級中斷架構。此外,Ascalon還具備安全性和RAS(可靠性、可用性和可維護性)特性,包括側通道攻擊防護。在推出Ascalon的同時,Tenstorrent還宣佈Ascalon全面支援GCC、LLVM和Qemu,並已完成上游合入,開發者和客戶可立即部署使用。通過本次發佈,Tenstorrent確保為RVA23建構的軟體能在Ascalon及任何符合RVA23規範的處理器上無縫運行,為開發者提供可靠保障。▲Ascalon全面支援GCC等軟體生態Divyang Agrawal補充道:“通過Ascalon,我們為客戶提供了集高性能核心、系統IP、RVA23相容工具鏈和完整技術資料於一體的整體解決方案。這為客戶開發從高性能計算到機器人等計算平台提供了關鍵建構模組,助力開發者拓展RISC-V生態。”Tenstorrent在產品設計時的一大原則是:一個設計方案的最終實現形態,取決於其目標應用領域。因此,他們從一開始就通盤考量了基礎設施、工具鏈、設計方法學以及設計本身。其架構被設計為高度可配置和參數化。Tenstorrent同時強調IP設計要有遠見。擁有IP、一套可配置的參數固然重要,但這還不夠。Tenstorrent認為其還需要提供一套能夠立即部署的完整方案,Tenstorrent團隊希望強調的是其可擴展性。Tenstorrent提供了從單連接埠到最多8連接埠的可配置性,從單一核心擴展至最多包含八個核心、共享快取的叢集,並會持續演進。Ascalon連接埠被認為是Arm的重要替代選項。▲Tenstorrent提供了從單連接埠到最多8連接埠的可配置性最後,當晶片流片之後,晶片偵錯能力至關重要。Tenstorrent認為,在設計中嵌入強大的偵錯能力,並控製成本,這再次成為其區別於普通IP供應商的一個關鍵。目前市面上已有的開發平台,大多不允許開發者在上面進行真正意義上的高性能軟體開發。但Tenstorrent使得從高性能計算(HPC)到嵌入式設計的軟體開發成為可能。正如Divyang Agrawal所說,將所有要素整合,Tenstorrent提供的是一個完整的解決方案。▲Tenstorrent提供的是一個完整的解決方案在生態合作方面,Tenstorrent通過其Innovation License(創新授權)計畫,為合作夥伴提供自主創新的路徑,該計畫使合作夥伴能夠基於Tenstorrent技術建構差異化且自主可控的解決方案。同時,Tenstorrent已與CoreLab建立合作夥伴關係,推動區域客戶支援和設計最佳化,幫助客戶高效採用並快速部署其IP。此外,Tenstorrent還在今日與知名軟體定義汽車平台供應商AutoCore.ai達成戰略合作。Ascalon RISC-V處理器為後者的AutoCore軟體平台提供強大的算力支援,加速RISC-V在汽車領域的應用落地。 (芯東西)
吉姆·凱勒新作!性能最強RISC-V CPU來了,叫板輝達Arm
前蘋果晶片大神新作,專為高性能計算而生。芯東西12月4日報導,今日,美國AI晶片企業Tenstorrent推出高性能RISC-V CPU——TT-Ascalon,宣告其性能超越當下所有市場上已有RISC-V CPU。該CPU適用於伺服器、AI基礎設施、汽車高性能計算(HPC)及高級駕駛輔助系統(ADAS)等廣泛場景。Tenstorrent產品戰略副總裁Aniket Saha談道:“RISC-V核心幾乎覆蓋所有應用,但此前一直缺乏真正的高性能產品。Ascalon填補了這一空白,作為專為先進計算設計的RISC-V CPU,具備完整的出口合規性和全球可用性。”▲Tenstorrent產品戰略副總裁Aniket Saha在講解產品Tenstorrent於2016年創立於加拿大,於2023年將註冊地和總部遷往美國,2025年由晶片產業傳奇人物、前蘋果A系列及特斯拉自動駕駛晶片主導研發人吉姆・凱勒(Jim Keller)出任CEO,其於2025年剛剛憑藉開放式芯粒架構(OCA)成為RISC-V生態核心參與者。該公司近期剛剛被傳出推進至少8億美元的新融資,目前已完成多輪累計超10億美元融資,估值達32億美元。投資者對Tenstorrent的興趣源自其被認為是撕開輝達集中市場一條口子的重要潛力,其已通過大量開源技術避免了使用輝達成本較高的頻寬記憶體(HBM)。回到Tenstorrent今日的最新發佈來看,Ascalon的架構具有多方面創新,其通過業界標準SPEC CPU基準測試驗證,單核性能達到22 SPECint 2006/GHz、>2.3 SPECint 2017/GHz和>3.6 SPECfp 2017/GHz,並可在Samsung SF4X工藝節點下實現>2.5 GHz主頻,展現了其強大的設計和在先進工藝節點上的可擴展性。▲TT-Ascalon架構性能情況據Tenstorrent RISC-V核心副總裁Divyang Agrawal介紹,該產品的一大特徵是完全相容RISC-V RVA23規範。軟體生態決定了開發者能實現什麼。那麼Ascalon架構的生態系統在那裡?如何確保它能融入整個RISC-V生態?RVA23配置檔案標準化了應用級處理器需實現的功能集,這將直接整合到軟體工具鏈中。通過標準化,它不僅支援各類標準、安全擴展,還支援最新的RISC-V向量擴展,這正是其CPU與AI產品線共同採用的一大核心技術。並且,Ascalon整合高性能RVV1.0向量引擎,支援硬體虛擬化、先進記憶體管理和高級中斷架構。此外,Ascalon還具備安全性和RAS(可靠性、可用性和可維護性)特性,包括側通道攻擊防護。在推出Ascalon的同時,Tenstorrent還宣佈Ascalon全面支援GCC、LLVM和Qemu,並已完成上游合入,開發者和客戶可立即部署使用。通過本次發佈,Tenstorrent確保為RVA23建構的軟體能在Ascalon及任何符合RVA23規範的處理器上無縫運行,為開發者提供可靠保障。▲Ascalon全面支援GCC等軟體生態Divyang Agrawal補充道:“通過Ascalon,我們為客戶提供了集高性能核心、系統IP、RVA23相容工具鏈和完整技術資料於一體的整體解決方案。這為客戶開發從高性能計算到機器人等計算平台提供了關鍵建構模組,助力開發者拓展RISC-V生態。”Tenstorrent在產品設計時的一大原則是:一個設計方案的最終實現形態,取決於其目標應用領域。因此,他們從一開始就通盤考量了基礎設施、工具鏈、設計方法學以及設計本身。其架構被設計為高度可配置和參數化。Tenstorrent同時強調IP設計要有遠見。擁有IP、一套可配置的參數固然重要,但這還不夠。Tenstorrent認為其還需要提供一套能夠立即部署的完整方案,Tenstorrent團隊希望強調的是其可擴展性。Tenstorrent提供了從單連接埠到最多8連接埠的可配置性,從單一核心擴展至最多包含八個核心、共享快取的叢集,並會持續演進。Ascalon連接埠被認為是Arm的重要替代選項。▲Tenstorrent提供了從單連接埠到最多8連接埠的可配置性最後,當晶片流片之後,晶片偵錯能力至關重要。Tenstorrent認為,在設計中嵌入強大的偵錯能力,並控製成本,這再次成為其區別於普通IP供應商的一個關鍵。目前市面上已有的開發平台,大多不允許開發者在上面進行真正意義上的高性能軟體開發。但Tenstorrent使得從高性能計算(HPC)到嵌入式設計的軟體開發成為可能。正如Divyang Agrawal所說,將所有要素整合,Tenstorrent提供的是一個完整的解決方案。▲Tenstorrent提供的是一個完整的解決方案在生態合作方面,Tenstorrent通過其Innovation License(創新授權)計畫,為合作夥伴提供自主創新的路徑,該計畫使合作夥伴能夠基於Tenstorrent技術建構差異化且自主可控的解決方案。同時,Tenstorrent已與CoreLab建立合作夥伴關係,推動區域客戶支援和設計最佳化,幫助客戶高效採用並快速部署其IP。此外,Tenstorrent還在今日與知名軟體定義汽車平台供應商AutoCore.ai達成戰略合作。Ascalon RISC-V處理器為後者的AutoCore軟體平台提供強大的算力支援,加速RISC-V在汽車領域的應用落地。 (芯東西)
中國算力晶片的“新十年” 圖片
軟體定義一切,也包括“成敗”。過去40年,處理器晶片呈現出“否定之否定”的螺旋式發展道路:自研-放棄自研-自研。最近5年,越來越多的整機和平台廠商,重新加入自研的“晶片戰爭”,並且顯現出一個新趨勢——以CPU為中心的同構計算系統,轉變成CPU聯合xPU的異構計算。“晶片戰爭”中的選手要直面幾個問題:其xPU架構創新有多少,持續創新空間有多大、應用規模能否攤薄硬體、生態的創新成本。剛剛公布的“十五五”規劃建議稿也提到,加快科技高水平自立自強,全面增強自主創新能力,大力實施“卡脖子”迭代攻關,聚焦半導體等關鍵技術環節。那麼,接下來的五年、十年,對於國產“算力晶片”來說,突破口在那裡?我們認為是指令系統結構(指令集架構)的統一。系統結構的一致性,更能推動架構層面的創新,比如把RISC-V作為統一指令系統,所有CPU/GPU/xPU都基於RISC-V及其擴展來開發,在擴大規模效應的同時,高效利用研發資源。指令集相當於軟硬體“連接器”,按標準編寫軟體,即可向硬體發出計算指令。經濟規模與生態成本,決定架構的“生與死”電腦差不多經歷了八十多年的歷史,早期特點是集中式處理,少數專業人員通過終端裝置才能訪問到昂貴的計算資源。20世紀80年代後以微處理器為基礎的PC和電腦網路出現,計算模式從集中式轉化為分佈式。後來又有了智慧型手機和雲端運算系統,計算模式進化為集中式的雲中心和“泛在分佈”的智能終端構成的複雜體系,且雲中心本身又是一個巨大的分佈式系統。計算進化到今天,最為核心的CPU,以兩種主導式的指令集為代表:PC和伺服器領域是x86架構,智慧型手機領域是ARM架構。x86等架構及相應特徵x86和ARM佔主導,是市場洗牌的結果。時間往回倒退,過去40年業內出現了許多有特色的架構和產品,但大部分都逐漸凋零了。例如:英特爾開發的RISC架構i860/i960、摩托羅推出的68000以及跟IBM、Apple聯合開發的PowerPC架構等等。指令集架構,從幾十款到幾款,快速收斂的原因各有不同。x86戰勝RISC,靠的是不斷向高端RISC“抄作業”,同時根據新應用需求不斷增加指令子集,拓展新功能;PC與伺服器的CPU同為x86架構,晶片出貨量大,分攤了伺服器CPU的研發成本,也是x86從競爭中脫穎而出的客觀條件。RISC CPU的失意,表面上是巨額的軟硬體投入成本,根源則是無法顛覆已有軟硬體生態系統——大量已存在的標準或事實標準的介面,如指令架構系統,這種生態的統治力,英特爾、惠普曾這類聯合體也無法撼動。回想起1990年代超算領域,如nCUBE,KSR、Thinking Machine等創業公司,既自研CPU,又開發MPP超算系統,在系統架構上提出了很多引人入勝的新方案。尤其是KSR,提出了名為Allcache的純快取儲存架構(COMA),實現了第一個基於純快取的平行超算系統,其CPU只跑20MHz,功耗、散熱等效率遠遠高於同期的英特爾486,後者主頻達到了50MHz。最終,各種創新性的架構都“輸給了”x86。不是說這些架構沒有創新性,根本上在於架構創新敵不過經濟規律。所以,在文章開頭,我們就呼籲,未來五年、十年,中國的算力晶片應該統一指令集架構。架構創新難,生態建構更難:壁壘在軟體與協同英特爾於2000年左右推出Pentium 4處理器,時脈頻率已達到4GHz。25年後的今天,很多產品時脈頻率還停留在這個水平。這是因為進入奈米工藝後,摩爾定律逐漸失效,電晶體開關速度放緩。現在,業界依賴電晶體數量的累積來提升性能,其基本的思路是平行,如增加資料位寬、增加功能部件、增加處理器核的數量等等。但增加了這麼多的部件,如何控制與管理?就要看電腦體系結構。電腦體系結構既是硬體與軟體的介面介面,也決定了硬體與軟體的分工,根據硬體與軟體分工的不同邏輯,大致可分為三種類型:激進的結構(完全動態最佳化):類似上文提到的純快取儲存架構,強調軟體在動態分析和最佳化方面能力有限,因此在硬體上做儘可能多的動態最佳化, 但這樣往往導致硬體過分複雜、功耗過高;保守的結構(靜態最佳化):硬體僅提供必需的設施, 如大量的暫存器或SRAM,依賴軟體來實現高性能,這種方案的好處是硬體簡化了,缺點是程式設計不便、性能沒有保障;折中的結構(動靜態相結合的最佳化):硬體做一些動態的最佳化, 如快取記憶體,軟體也仍有最佳化的餘地,通過軟硬體協同解決性能和程式設計問題。由於需要運行作業系統、編譯器及各種複雜控制應用,涉及的序列因素比較多,高端CPU經常採用激進的結構,但由於結構異常複雜,導致正確性難以驗證,研發工作量極大。隨著熔斷、幽靈等硬體漏洞的出現,這類結構也易受瞬態執行攻擊的問題也暴露出來。目前業界更傾向於基於這種結構——增加處理器核的數量,來提升性能,比如代表算力的xPU晶片,就是典型的眾核(Many Core)結構。這種架構可以匹配圖像處理、神經網路等天然依賴平行計算的特點,只要硬體提供足夠的運算部件、儲存單元、互連機制,並由軟體程序把平行性表達出來,就可以在平行硬體上高速地執行。輝達PASCAL和TURING架構GPU,擁有大量CUDA計算核心英特爾Xeon Phi,Google TPU等,都是專門設計的眾核加速器,而更流行的GPGPU則陰差陽錯的成為眾核加速器——一開始只用於圖形渲染,非專門為AI設計。不管是TPU還是GPGPU,眾核結構xPU的“算力晶片”大規模應用,首先要解決的還是生態系統問題——在處理器上運行的各類軟體的總和,包括各種應用軟體,及支撐應用軟體開發運行的系統軟體、中介軟體、庫函數等。在這方面,使用者之所以喜歡使用輝達的產品,就是因為CUDA擁有成熟的平行軟體生態。前面提到英特爾和惠普的合作項目。雙方於1994年,聯合開發了不與x86相容的EPIC架構的IA-64安騰處理器,前後花了十餘年時間,耗資巨大,終究未能成功。關鍵就在於經過40多年演進的x86架構,形成了任何處理器架構都無法比擬和複製的產業生態環境。英特爾、惠普的新架構、新產品,解決不了新的生態問題。這裡面還有一個洞察——Gartner分析了從2009到2018年的企業軟體市場,十年間,x86軟體的市場份額持續上升,到2018年,全球投入在x86軟體(含企業應用軟體、基礎設施軟體、垂直專用軟體)開發上的費用高達600億美元,IDC 2019年同期的資料表明,全球伺服器硬體的總收入也就800億美元。也就是說,軟體開發的費用遠遠高於硬體,新搞一個處理器架構已經很費錢了,基本不會有人給更多投資去開發配套的軟體。基於這一點,可以預判,未來很長一段時間,伺服器市場上x86 CPU仍居主導地位。有人也許要問,ARM-64的機會在那裡?它的核心看點在於打破英特爾在x86伺服器市場一家獨大的格局,因為英特爾的CPU毛利太高了,誰都想去分一杯羹,正如AI晶片廠商想去分輝達的蛋糕一樣。最終,ARM伺服器未來能夠取得成功,幾個原因可能是決定性的:一是掌控了全端技術(應用)的大廠放棄x86,如蘋果、亞馬遜,它們的生態遷移完全可控,產量或毛利率也是可控的二是端雲融合,ARM在終端的優勢瀰漫到雲端,如Android Cloud,ARM伺服器更適合支援Android Apps,應用可在雲和端間隨便遷移。還有雲遊戲在雲端也不需要依賴虛擬機器。x86的故事仍在繼續,ARM攻勢迅猛,開放原始碼的RISC-V則還需要努力。關於RISC-V,業內有很多討論,既有ARM“價格貴”的問題,也有開放性、可研究性的問題,但主要還是商業化的困境。近年來,RISC-V應用較多且相對成功的,都是軟體比較簡單的場景,即以微控製器(MCU)為代表的嵌入式領域,如希捷、西數等企業的儲存類產品。而以物聯網為代表的嵌入式場景,其需求非常碎片化,RISC-V雖然可以針對應用特點自訂對指令集的擴展,但這樣分門別類地定製晶片,就失去了積體電路產業的規模效應。軟體、應用之外,RISC-V的硬體生態也還不成熟——有競爭優勢的高性價比處理器核的種類少,也缺乏支援多核互連的高性能片上網路(NOC),尤其是片上網路,業內都還在用ARM方案,不過ARM不會單獨向RISC-V項目授權片上網路IP,而要搭售ARM CPU核心,成本又被拉上來了。一些觀點認為,隨著JAVA、Python等跨平台的語言/工具越來越流行,通過虛擬機器技術實現應用的跨平台遷移,還可以用模擬的方法用一種指令集模擬另一種指令集,寄希望於指令集架構重要性變低,進而重構x86、ARM的“壟斷”格局。不過,這也存在另一些相反的事實,例如英特爾一直在持續地擴展其指令集,增加新指令(子集),如近年看到的SGX、AVX512、AI擴展指令集等,說明硬體指令的直接支援對性能、能效比至關重要。又如,由於業界的各類基礎軟體和應用軟體,主要都是針對英特爾CPU最佳化的,即使同樣是x86的AMD CPU,能流暢支援的軟體配置種類就少得多。所以,阿里的公有雲平台只用英特爾的CPU產品,它們可以自如地支援各種老舊的OS類型、版本、配置。從這個角度來看,RISC-V進入以電腦為代表的通用平台,還有一段曠日持久的路程要走。統一指令集:中國算力晶片規模化的關鍵路徑近年來,系統和平台廠商又開始研發計算晶片了:美國有蘋果公司、Google、亞馬遜、微軟,中國公司也很多。所有自研的場景當中,雲廠自研晶片的模式是行得通的,因為企業盈利的基礎在於增值服務,不在硬體。雲廠商由於掌控全端軟硬體,生態移植的困難也較小,且因為自身規模大,可以負擔晶片研發的費用。不過,現階段多數企業自研還是用於內部,因此外部客戶仍然需要獨立的晶片供應商。眾多自研晶片的系統廠商當中,蘋果公司是一個非常成功的案例,基本實現了核心產品線處理器的全線自研——手機為A系列、平板和PC為M系列、手錶為W系列、耳機為H系列。蘋果自研晶片矩陣,資料更新至2025年9月“產品定價高”可以作為評判蘋果自研成功與否的一個表面指標。和公版的ARM CPU核相比,蘋果公司自研的CPU性能高、成本也高,但配合自研的系統軟體,整體達到最佳化的使用者體驗,同時加上行銷體系的助力,形成“高大上”的形象,就可以賣出高價錢。只不過,很多失敗的項目,只看到了蘋果公司“自研晶片”的表面指標,“自研晶片”,如果只是為了“使用晶片”,或者只是聚焦在紙面參數上,而忽略掉軟體的差異化、生態能力提升,進而共同推動使用者體驗的最佳化,未必有價值。軟體定義一切,也包括“成敗”。無論CPU還是GPGPU,都需要在軟體生態上,與現有成熟產品形成差異化,實現附加值提升,但這不等於一切都需要重構和創新,比如指令系統——指令系統越多,軟體生態方面就需要投入越多,“統一”起來困難重重。前面提過,軟體方面的投入比硬體研發的投入還要大,而軟體掉隊的負面現象,目前大量出現在當前的領域專用架構(DSA)和其它xPU研發領域。比如很多國產智算中心,投資規模很大,但受配套軟體不全等問題限制,實際利用率並不高,這其實就是軟體跟不上硬體“步伐”帶來的後遺症。回想架構之爭的年代,諸神混戰,最後也只有少數幾個架構活了下來。實際上,體系結構創新,未必一定要新架構,也可以在現有的指令系統框架內實現,RISC-V恰好在這方面具備很好的支撐。例如,國外Tenstorrent等企業基於RISC-V指令集,擴展支援AI的子指令集,進而開發了基於RISC-V的AI加速計算方案。又如,國內外不少大學和科研機構都在RISC-V上擴展了密碼學相關的子指令集,並在此基礎上實現了對後量子密碼的支援等等。所以,我們呼籲:把RISC-V作為統一指令系統,所有CPU/GPU/xPU都基於RISC-V及其擴展來開發,避免重複勞動和研發資源的無謂浪費。 (半導體產業縱橫)
輝達與富士通,樹立AI時代的合作範式
2025年10月3日,輝達總裁黃仁勳與富士通總裁時田隆仁,在東京的帕雷斯酒店面對100多名記者,宣佈輝達與富士通進行戰略合作。這一新聞迅速佔滿了翌日東京各大媒體的頭版。輝達總裁黃仁勳與富士通總裁時田隆仁宣佈戰略合作(圖片出自富士通發佈的記者會視訊)輝達是引領人工智慧(AI)浪潮的弄潮兒。輝達在全球AI計算和資料中心GPU市場佔據絕對主導地位,份額遠超90%;在PC獨立顯示卡市場,它也佔據領先地位,份額約80%-85%。富士通是日本國內有名的IT企業,在日本國內根基深厚、備受信賴。但在AI領域的全球知名度並非很高,其雲端運算領域的城堡,在全球雲巨頭的圍攻下,逐漸收縮。那麼,為什麼輝達會選擇富士通作為戰略合作夥伴呢?富士通的新聞通報這樣寫到:本公司將與輝達擴大戰略合作,旨在建構一個整合了AI 智能體的全端AI基礎設施,以便在維持企業在AI應用中的自主性的同時,助力企業通過AI提升競爭力。在本次合作中,雙方將共同開發並提供面向醫療保健、製造、機器人等特定領域的行業AI智能體平台,以及通過“輝達NVLink Fusion”技術,共同開發將“富士通-MONAKA”CPU系列與輝達GPU無縫整合的AI計算基礎設施。通過整合AI智能體平台和AI計算基礎設施,將實現一個由持續學習和進化的AI智能體驅動的全端AI基礎設施,從而加速AI產業革命。此舉將克服傳統通用計算系統的侷限,使建構一個跨行業、能自主進化的全端AI基礎設施成為可能。本公司通過這一舉措,首先將推動日本的產業變革,讓AI從日本普及至社會的各個角落,引領所有產業提升競爭力,推動可持續社會的實現。這裡有兩個概念需要說明。首先,什麼是 “AI智能體(AI Agent)”?AI智能體不再是簡單的聊天機器人或執行單一任務的工具。它指的是一個能夠感知環境、進行推理、制定計畫並自主執行複雜任務的AI系統。譬如,為你規劃一個周末出行的省錢的旅行計畫,製作一份你要求的PPT文字,等等。其次,什麼是 “全端AI基礎設施”? “全端” 意味著提供從底層到頂層的完整的、一體化的技術堆疊。打個不恰當的比方,就像蓋房子,你不能只有磚頭(晶片),還需要水泥(軟體)、圖紙(框架)、管道(網路)和施工隊(系統)。對於AI來說,“全端AI基礎設施”就是為AI的誕生和運行提供一切所需的技術層。主要包括:計算硬體層,硬體系統與網路層,軟體與框架層,AI智能體框架,以及模型與服務層。在計算硬體層,輝達擁有強大的AI計算晶片,主要是GPU(如輝達的H100/H200)和專用的AI加速卡。在硬體系統與網路層,輝達有高速網路連結技術NVLink。在軟體與框架層,輝達的CUDA、cuDNN提供了底層驅動與計算庫。全球AI工程師都在使用這些框架與庫檔案,形成了一個龐大的生態系統。因此,“AI智能體的全端AI基礎設施” 指的是一套完整的、從晶片到系統再到軟體的技術體系,其唯一目的就是為大規模開發、部署和運行複雜的AI智能體提供所需的全部能力和環境。如果將AI智能體比作一個自動駕駛計程車車隊,那麼,全端AI基礎設施就是為這個車隊服務的整個城市交通生態系統。一項簡單的AI應用(如文字生成)可能只需要呼叫一個API。但未來,真正變革行業的將是能夠自主處理複雜工作流的AI智能體。運行這些智能體需要極其龐大、複雜且協同最佳化的技術堆疊,任何單一公司都難以獨立建構。輝達正是看準了這一趨勢,其戰略目標就是成為這個 “未來AI智能體世界” 的 “國家電網” 和 “道路交通部”——提供從發電(GPU算力)到輸配電(網路/系統)再到用電標準(軟體/生態)的全端基礎設施。它與富士通的合作,正是為了在全球範圍內鋪設和推廣這套基礎設施。那麼,被輝達相中的富士通有什麼優勢呢?首先,富士通是ARM陣營的 “隱形冠軍”。富士通雖然總體CPU市場份額小,但在高性能ARM架構CPU領域是世界級的領導者。其設計的 “A64FX” CPU被用於曾經是全球最快的超級電腦 “富岳”上,證明ARM架構在極致性能上的潛力。富士通的ARM CPU已經發展到第二代以省電為特徵的MONAKA,可謂是同行中最先進的技術。其次,富士通擁有 “定製化能力” 與 “垂直整合” 的獨特價值。富士通擁有強大的ASIC(專用積體電路)和CPU設計團隊。他們不是簡單地使用ARM的公版設計,而是能進行深度定製,針對高性能計算、AI等特定工作負載進行最佳化。富士通不僅僅可以設計CPU,它是一家完整的IT解決方案提供商。從硬體(伺服器、儲存)、網路(5G裝置)到軟體和服務都能提供。我們再來看看GPU與CPU的關係。GPU是AI系統強大的 “引擎”,但要讓這台引擎在複雜的AI任務中發揮全部威力,需要一個與它完美協同的 “底盤和傳動系統”。這個角色,正是ARM架構CPU所要扮演的。輝達的GPU固然強大,但正是通過與ARM架構CPU的結合,它才能從一家 “頂級晶片供應商” 蛻變為 “未來計算平台的定義者”。在傳統的x86伺服器中,CPU和GPU是獨立的兩個部件,主要通過PCIe匯流排連接。這就像兩個頂尖的專家被關在不同的房間裡,只能通過一個小窗口傳遞紙條(資料)來協作,效率低下。其瓶頸在於,當GPU進行大規模平行計算時,需要不斷地從CPU和記憶體中獲取資料。PCIe通道的頻寬和延遲成為了巨大的瓶頸,GPU常常需要 “等待” 資料,其強大的算力被閒置。ARM架構的革新之處在於超高速互聯。它們採用NVLink-C2C等先進互聯技術,將CPU和GPU緊密地連接在一起。這相當於讓兩位專家坐進了同一個 “作戰指揮室”,可以即時、無障礙地交流。CPU和GPU可以共享一個巨大的、統一的記憶體空間。這意味著它們可以直接訪問同一份資料,無需在兩者之間進行緩慢的複製和搬運。GPU和CPU的結合,使得資料流動的延遲極大降低,頻寬極大提升,GPU的算力得以被100%地被釋放出來,甚至120%地被增強。這對於需要處理海量不規則資料(如推薦系統、圖神經網路)的AI智能體至關重要。還有一個重要的因素,是被稱為計算領域 “新貨幣” 的 “能效比”。在AI時代,算力的最大限制不再是電晶體數量,而是電力。資料中心的電力和冷卻成本已經成為天文數字。x86 CPU為了保持向後相容性,繼承了大量的複雜指令集和架構,這導致其在執行特定任務時,功耗較高。ARM採用精簡指令集,架構更簡單、更模組化。這使得ARM CPU可以根據特定工作負載(如AI、HPC)進行深度定製和最佳化,實現極高的 “性能功耗比”。MONAKA是富士通繼非常成功的A64FX(曾驅動 “富岳” 超算登頂世界第一)之後的新一代ARM架構伺服器CPU,它有極致的高性能與高能效比。MONAKA的目標是提供比競爭對手高2倍的能效。MONAKA 從一開始就設計為與輝達GPU通過NVLink-C2C技術進行高速互聯。這意味著CPU和GPU之間的資料交換延遲極低、資料頻寬極高,能極大緩解在傳統x86架構中常見的 “資料搬運瓶頸”,從而充分發揮GPU的AI算力。因此,MONAKA不是要做一個在所有場景下都最強的通用CPU,而是要做一個在特定HPC和AI場景下,能效最高、與輝達GPU協作最無縫的 “特長生”。當然,富士通不僅有先進的ARM架構CPU,富士通還提供AI應用服務,其AI解決方案涵蓋了製造業、零售業、與醫療領域。輝達通過與富士通的合作,可以打造出從晶片到系統、再到行業解決方案的完整“交鑰匙”方案,而不僅僅是賣GPU晶片。過去的輝達就像一家世界頂級的發動機(GPU)製造商,它的發動機性能無敵,但需要安裝在別人家的車架(x86伺服器)上。現在的輝達,則正在成為一家頂級高性能跑車的整車製造商。通過最佳化底盤、傳動系統(ARM CPU),並將其與自己的無敵發動機(GPU) 完美整合,打造出一台在賽道上所向披靡的完整賽車。輝達與富士通的戰略合作,站在輝達的立場,可以幫助輝達實現從 “發動機供應商” 到 “整車製造商” 的戰略轉型。站在富士通的立場,可以得到最先進的AI算力,有輝達的全球AI開發生態系統的加持,富士通的AI解決方案將如虎添翼。在越來越競爭激烈的AI全球市場,輝達與富士通的戰略合作或許會成為一個互補、雙贏的範例。在該戰略合作中,輝達提供全球最強的GPU加速計算能力和近乎壟斷的CUDA軟體生態。富士通提供世界級的高性能ARM CPU設計、強大的伺服器製造能力、深厚的5G網路技術,以及在日本和特定行業(如製造、金融)的市場管道。雙方的能力高度互補,幾乎沒有重疊,是純粹的 “1+1>2” 增益。 (客觀日本)
中國國產晶片的樣本:海光資訊,從技術引進到“自主航母”
2013年,中國資訊產業瀰漫著焦灼、擔憂。“棱鏡門”事件陡然發生、資訊安全刻不容緩,但中國高端伺服器核心處理器(CPU)市場,90%以上被海外x86架構產品壟斷。次年,海光資訊便在天津應勢而生。核心團隊源自中科院計算所體系,帶著“突破高端處理器技術壁壘,推動中國國產晶片自主可控”的明確使命,試圖在核心硬體壟斷的幕布下,撕開一道缺口。海光也經歷過“技術引進、突遭封禁、自主突破”的迭代之路。十餘年發展,如今,5000億的市值,位列科創板前列;AI浪潮之下,也被寄予厚望。而和海外晶片公司相比,無論“履歷”、還是市值,海光都依然有長足的發展空間。那麼,它會率先成為兆市值的晶片設計公司嗎?技術引進的始與終彼時的伺服器市場,x86架構佔據絕對主導地位,所有主流作業系統和應用軟體都圍繞其建構。為了更快落地產品,海光選擇了“技術引進”。2016 年,海光通過與AMD合資,以及簽署技術許可協議,獲得第一代Zen架構的 x86指令集使用權,並快速啟動了"海光一號"CPU研發。這種做法在當時也無可厚非。一是當時的地緣政治環境,並沒有現在這般;二是平地起高樓,難度巨大。引進再消化,則是多數選擇。龍芯拿到MIPS架構授權;華為買斷Arm V8架構授權。甚至也是對中國使用者痛點的把握。因為市場上的絕大多數客戶都是採用x86架構,而對於電信、金融、網際網路等關鍵行業而言,選擇一款中國國產晶片,最大的顧慮是生態遷移成本和系統穩定性。海光獲得x86許可協議,就可以快速融入該生態,確保產品快速、平滑地相容主流作業系統和上層應用軟體,提高穩定性、降低遷移成本。總結即為:先用相容性打開關鍵行業大門,在信創領域實現從“無”到“有”的替代。預期也如約兌現。2018年,海光首款中國國產x86伺服器CPU“海光一號”量產,開始在政務、金融、電信等關鍵領域嶄露頭角。本以為找到了技術突圍的捷徑,開始準備邁入更大規模的商業化時,最殘酷的考驗不期而至。2019年6月,美國商務部一紙“實體清單”禁令,猶如晴天霹靂,切斷了AMD對海光資訊提供第二代Zen架構技術支援的通道。這意味著海光Zen系列產品,面臨迭代中斷風險。更重要的是,這紙禁令,帶來的不僅是商業層面的障礙,更是對海光“技術引進”模式的重審。當時的技術引進,已經不再適合當前的境況。轉折點,自研加速幸運的是,美國的制裁,反而成為了海光資訊“壯士斷腕,浴火重生”的轉折點。海光資訊在已有的第一代Zen架構為基礎,迅速加大研發投入((2019年研發費用同比增長超50%)),組建“中科系”骨幹團隊,集中精力攻克CPU微架構設計、工藝最佳化等核心技術。而微架構的獨立研發,則被業內視為晶片是否獨立迭代發展的評判依據。制裁當年,海光資訊就推出了“海光二號”CPU,成功實現了在外部技術輸入被切斷後的首次產品自主迭代。遭遇制裁,也並非沒有衝擊。研發的加大,也導致海光資訊利潤受損,2019年虧損8300萬、2020年虧損3900萬。但這些投入是值得的。美國的禁令,也加大了中國國產信創市場的需求。海光資訊也借勢加速,鞏固了市場地位。2021年公司利潤就扭虧為盈,並在產品線上多點開花。海光資訊沒有止步於通用計算的突圍,而是開始步步為營,建構起其核心的“雙輪驅動”戰略,即通用計算與智能計算的平行發展。通用處理器(CPU)方面,小步快跑、持續領先,“海光三號”、“海光五號”相繼發佈,性,目標瞄向國際主流x86晶片。2024年,其伺服器CPU在信創領域的市佔率已超過60%。並在今年9月宣佈開放CPU互聯匯流排協議,加大c86生態建設。而DCU(資料計算單元)加速推進,意味著海光對智能時代的戰略卡位。DCU的研發始於2018年,以GPGPU架構為基礎,採用了類CUDA生態,適配主流AI軟體。這個做法,也再次體現了海光資訊對生態、相容性的理解。在AI晶片領域,輝達建構了廣闊的CUDA生態,下遊客戶同樣面臨著使用習慣和遷移成本。因此,海光DCU選擇相容“類CUDA”環境,意味著能夠最大程度地利用現有AI開發者社區和成熟模型,極大地降低了使用者從國際平台遷移到中國國產平台的門檻。在應用場景上,DCU已廣泛應用於AI訓練、推理、科學計算和巨量資料處理等領域,並成功適配DeepSeek等主流大模型,成為中國國產智能算力的重要提供者。這個佈局,讓海光資訊在CPU轉GPU的AI時代,沒有掉隊、還乘了東風。DCU收入佔比從2021年的10.3%迅速飆升至2024年的25%以上。DCU產品線也在快速追趕,從“深算一號”到“深算二號”(性能翻倍),現在已升級至“深算三號”。和純粹以GPU為主的公司相比,海光資訊的估值彈性雖然小了些,但CPU作為現金流的穩定來源,可以讓經營更穩健。合併的機遇、風險今年5月25日,中國國產算力產業迎來了重磅消息。海光資訊公告,籌劃通過換股方式吸收合併中國伺服器龍頭中科曙光,後者則終止上市。中科曙光是海光資訊的大股東,其產品伺服器,也是海光的下遊客戶,佔海光收入比為40%左右。如果交易完成,意味著海光將發生比較大的變化:首先,技術和產品之間的深度互補。海光專注核心處理器晶片的設計,是算力的“心臟”;中科曙光深耕伺服器、儲存和資料中心基礎設施,是算力的“載體”。合併就實現了“晶片設計”與“整機系統”的垂直一體化,可以從底層晶片到頂層應用,實現高度協同與性能最佳化。其次,也可以整合資源,用規模效應、產業鏈系統,加速中國國產突圍、生態形成。但,任何禮物都有價格;每個改變也都有機遇與風險。對於海光而言,風險包括:首先,客戶關係的潛在變化。過去,海光的晶片,是多家中國國產伺服器廠商的共同選擇,但當海光也成為伺服器生產商、開始和原有客戶競爭時,老客戶會如何選擇,這是需要時間檢驗的。其次,資源整合的難度。海光資訊是輕資產、高研發強度的晶片設計文化,而中科曙光則偏製造、重管道的伺服器文化,兩個組織、人力資源如何實現協同;以及雙線研髮帶來的財務、管理壓力等等,都是對管理層的考驗。而雙方管理層的融合,本身也是考驗。最後,也面臨著盈利能力與毛利率的稀釋。作為晶片設計公司,海光資訊的銷售毛利率大高達60%左右,銷售淨利率達到30%左右;而同樣的指標,中科曙光則分別為30%、15%;幾乎都是海光資訊的一半。盈利能力、結構的改變,也會改變市場對海光的估值體系。一旦規模效應和產業鏈協同的成本優勢,未能有效轉化為預期的業績增長,那麼就會面臨資本市場評估的壓力。這是一場協同效應與盈利質量、估值調整的賽跑。結尾海光資訊的發展,也是中國科技企業在過去十餘年的經歷縮影。起初採用“技術引進”的方式,快速切入成熟生態,開啟替代之路;隨後,這條本以為的捷徑,卻在地緣衝突中遭遇壓力;繼而頂住壓力,開始挑戰“技術自立”;再到如今,隨著產品逐漸性能改善,也開始建設生態整合。短短的幾十字,背後是興奮、焦慮、不甘、奮鬥、突破的疊加。回到海光成立的時刻來看現在,可以說,符合了當時的預期、堪當了大任。每一次嘗試與突破,也都在為中國資訊產業的自主可控之路添磚加瓦。但顯然,海光的面前,依然有很長的路要走。既要迎接合併後帶來的挑戰和機遇,也要在產品尤其是AI相關產品研發上繼續攀登。當海光資訊,離開了“信創”,依然是使用者最佳選擇時,也許才是更值得歡呼的時刻。也不得不說,溫柔鄉里難出戰士,對手甚至敵人,往往才是成長來源。那些殺不死你的,終將讓你更強大。 (董指導研究)
CPU被超!GPU成市場新主角
2024年GPU銷售額超越APU和CPU,成為各類處理器中銷售額冠軍。Yole Group 近日發佈《2025 年處理器產業狀況》報告,指出全球處理器市場正經歷由生成式 AI 與雲端基礎設施推動的深刻變革。Yole Group 提到,2024 年 GPU 銷售額超越 APU 和 CPU,成為各類處理器中銷售額冠軍。其銷售額達 1130 億美元,佔總處理器銷售額的 39%,一年內實現 126% 的增長。這一增長主要受 NVIDIA 主導地位及生成式 AI 模型對 GPU 需求增加的推動。Yole Group 認為,到 2030 年,GPU 市場規模將達 2390 億美元,是 2024 年的 2 倍以上,增長背後是伺服器 GPU 平均售價的上升。同時,美國出口限制已重塑競爭格局,尤其在中國市場。儘管當前 GPU 佔據市場主導地位,但專為人工智慧應用設計的積體電路(AI ASIC)正成為戰略替代方案。ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其定製程度相比於 GPU 和 FPGA 更高。ASIC 算力水平一般高於GPU、FPGA,但初始投入大,專業性強縮減了其通用性,演算法一旦改變,計算能力會大幅下降,需要重新定製。Google、亞馬遜(Amazon)、華為等超大規模雲端服務商,正大量投資專有解決方案,以減少對 NVIDIA GPU 的依賴。Google 早在 2013 年就秘密研發專注 AI機器學習演算法晶片,並用於雲端運算資料中心,取代輝達 GPU。這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。Google 其實在 2020 年的資料中心便建構 AI 晶片 TPU v4,直到 2023 年 4 月才首次公開細節。值得注意的是TPU是一種定製化的 ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。亞馬遜也推出了其自研 AI 晶片Trainium,以減少對輝達的依賴並提高自身在 AI 領域的競爭力。該公司投資大量資金用於技術基礎設施建設,並已定製晶片以提升資料中心效率,降低成本。亞馬遜與被收購的晶片初創公司 Annapurna Labs 合作,旨在打造自有的 AI 晶片,同時也在投資 AI 基礎設施。據預測,2024 年至 2030 年,AI ASIC 市場年複合增長率(CAGR)將達 45%,規模將從 2024 年的 90 億美元增長至 2030 年的 850 億美元,成為行業增長最快的部分。其他類型處理器銷售情況好壞不一:DPU 增長與人工智慧及伺服器需求相關,預計 2030 年將增長至 170 億美元;FPGA 2024 年銷售額出現下滑,但預計將逐步穩定,2030 年前規模達 80 億美元,增長主要受汽車應用支撐。市場層面,2024 年電信與基礎設施領域收入佔比首次超越移動與消費領域,達 53%。預計到 2030 年,這一比例將升至 66%,凸顯雲端人工智慧部署的核心作用。汽車行業,尤其是與 ADAS 及娛樂系統相關的應用,同樣是增長引擎,預計 2030 年前年增長率將達 15%。近日來自大摩的一份報告也給GPU市場熱度再添一把火。摩根士丹利(大摩)最新報告顯示,在與輝達管理層會談後,對其在人工智慧(AI)領域的短期及長期需求信心增強,維持“增持”評級,目標價設定為 210美元,對應總市值約 5.1兆美元。這一積極的評估,反映了市場對 GPU驅動的 AI 基礎設施建設的樂觀預期,以及輝達在這一領域的領先地位。報告指出,全球雲資本支出持續擴張,計算核心正從CPU 向 GPU 加速遷移。這一趨勢是輝達收入增長的主要動力。隨著 AI技術在各行各業的深入應用,對算力的需求呈現爆發式增長。輝達憑藉其在 GPU 領域的深厚積累,以及 CUDA 等生態系統的優勢,成為了 AI 基礎設施建設的核心供應商。大摩預計,到 2030年,AI 基礎設施市場規模有望達到 3至5兆美元,遠高於此前的預測,這無疑為輝達帶來了巨大的增長潛力。針對輝達與OpenAI 合作引發的供應商融資議題,摩根士丹利的分析師團隊認為,這種模式是“需求加速器”。輝達正通過投資 CoreWeave及英國主權基金等方式擴巨量資料中心產能,以滿足市場日益增長的需求。這種戰略不僅能夠加速 AI 基礎設施的建設,也為輝達帶來了更多的市場機遇。未來,這種合作模式有望複製到更多企業,進一步鞏固輝達的市場地位。 (半導體產業縱橫)