英特爾首席工程師聊GPU、記憶體之後的下一個市場機會

受訪專家是 Intel Corporation 資料平台與 AI 事業部的 Principal Engineer(首席工程師),主要負責資料中心和 AI 相關的軟硬體架構,長期關注伺服器、AI 系統、功耗、性能、訓練和推理等問題。

這次討論主要圍繞幾個問題展開:Agentic AI 為什麼會提高 CPU 的重要性,CPU/GPU 配比會怎麼變化,x86 和 ARM 誰更適合資料中心,CPU 為什麼可能漲價,以及為什麼記憶體、儲存和網路會成為 AI 基礎設施裡越來越重要的環節。

下面保留原始採訪的一問一答形式

提問者: 謝謝你抽時間。我們想多瞭解一下 CPU 市場。你能不能先介紹一下自己的背景?

專家: 當然。我是 Intel 的 Principal Engineer,主要做資料中心和 AI 相關工作。

提問者: 我們聽到一種說法:隨著 AI 工作負載變得更高級,CPU 和 GPU 的比例正在發生變化。你能講講這個變化嗎?現在這些比例大概是什麼樣?

專家: 可以。

最早 AI 剛起來的時候,主要是 ChatGPT、OpenAI 這類基礎聊天機器人。那時候大語言模型大多運行在 GPU 上,有時也運行在 TPU 這類 AI 加速器上。TPU 是一種 ASIC,不是 GPU。Cerebras 也是 ASIC 的一個例子。

那個階段,大部分 AI 負載都是跑在這些加速器上。

CPU 當時的角色更像 head node,也就是給 GPU 調度任務,同時處理 I/O。比如使用者向聊天機器人提問,系統會把問題傳送給 GPU;有時候 CPU 還會做 tokenization,也就是把文字通過演算法轉成 token,再交給 GPU 使用。

所以那時 CPU 的功能比較有限,主要是做一些相對簡單的調度和前處理。

如果看 NVIDIA 的 CPU/GPU 配比,比如 MGX 平台,過去通常大概是 1:8 或 1:4。也就是說,一個 CPU 對應八個 GPU,或者一個 CPU 對應四個 GPU。

但現在情況正在從普通聊天機器人演變到 Agentic AI。Agentic AI 不只是聊天機器人。它不是向大語言模型提問、得到一個答案這麼簡單,而是利用大語言模型這個引擎去完成一系列任務。

比如,你想查詢資料庫;你想在郵件裡找相關資訊;你想訪問一個網站並搜尋特定內容;你想預訂機票並生成旅行行程;同時還要檢查公司差旅政策,看這個行程是否合規;最後你還希望它把行程寫成一個總結。

這些事情,Agentic AI 都需要完成。

這些事情不是 GPU 或 AI accelerator 最擅長的。它們更適合 CPU 來做。

除此之外,這裡面還需要 orchestrate,也就是編排和協調。因為有很多決策邏輯、很多工具、很多 I/O、很多 agent。Agentic AI 會有很多 agent,需要協調不同資源、不同 agent、不同大語言模型、不同 GPU。

所以現在 AI 系統對 CPU 的需求比以前大得多。這是一個大的變化。

提問者: 如果過去是 1:8 或 1:4,那現在是什麼水平?你預計未來會是什麼水平?

專家: 它正在演進。

今天如果看 NVIDIA 這邊,比如 Vera Rubin 之前的 Grace Hopper,CPU/GPU 配比已經是 1:4。

對於 Agentic AI,我們看到它可能會下降到 1:2,甚至 1:1。未來可能還會更多,也許會變成 2:1,也就是兩個 CPU 對一個 GPU。

提問者: 為什麼會需要更多 CPU?你剛才說 GPU 不擅長這些任務,那為什麼 CPU 擅長,而 GPU 不擅長?

專家: CPU 不管是 x86 還是 ARM,本質上都是 CPU。還有第三種正在發展,叫 RISC-V,不過它目前還沒有真正進入資料中心,因為性能還不夠。

不管是那種 CPU,它們本質上仍然是馮·諾依曼架構。這個架構的核心是很多 ALU,也就是 arithmetic logic unit,算術邏輯單元,用來處理數學運算和邏輯運算;同時搭配很多 cache,也就是快取。

Cache 可以理解為 CPU 內部的記憶體。它容量更小,但速度和頻寬遠高於 CPU 外部的記憶體。

CPU 裡面還有很多複雜機制,比如 out-of-order execution(亂序執行)、branch prediction(分支預測)等。這些東西讓 CPU 更適合處理複雜任務。

GPU 相對更簡單。它主要是做大規模平行的算術計算,沒有 CPU 那麼多複雜的亂序執行、分支預測等機制。

所以 CPU 更適合處理複雜、變化多、分支多的任務;GPU 更適合大量重複、規則、可以平行的數學計算。

Agentic AI 裡面有很多工具呼叫、I/O、決策邏輯和流程編排,這些就是 CPU 更擅長的部分。

提問者: 如果 CPU 需求大幅增加,那 CPU 市場裡主要有那些玩家?是不是主要就是 AMD 和 Intel?

專家: AMD 和 Intel 都做 x86,這是一類 CPU 架構。但除了 x86,還有 ARM。

ARM 是一家英國公司,傳統上提供 ARM IP。比如 Qualcomm 會從 ARM 獲得 CPU IP,用來做手機晶片。

在伺服器領域,現在比較大的玩家包括 Amazon。Amazon 基於 ARM 架構做伺服器晶片,產品叫 Graviton,這是 AWS 的晶片。

Microsoft 的雲是 Azure,它們也在做類似事情,也使用 ARM,產品叫 Cobalt。

Google Cloud,也就是 GCP,也從 ARM 購買 IP,產品叫 Axion。

Oracle Cloud Infrastructure,也就是 OCI,也在進入這個領域。Oracle 收購了 Ampere,Ampere 也是做 ARM CPU,產品叫 AmpereOne。

這些是美國主要雲廠商的情況。

在雲服務領域,通常會說 hyperscaler 或 superscaler。美國主要是 AWS、Azure、GCP,現在也加上 Oracle。

中國也有類似的雲和網際網路公司,它們也在用 ARM 做類似事情,比如 Alibaba、Tencent、ByteDance、Baidu。

這些 CSP,也就是 cloud service providers,資金很多,工程資源也很強,所以有能力做自研晶片。

提問者: 這個格局很有幫助。換個角度看,記憶體好像真正能做的就幾家公司,但 CPU 這邊玩家多得多。CPU 和記憶體的差別是什麼?

專家: 記憶體主要是 Micron、Samsung、SK hynix 三家。中國還有一家正在上來,叫 CXMT。

CPU 和記憶體的差別在於,記憶體更多是製造導向。

在半導體行業裡,DRAM 的核心是一個 transistor 加一個 capacitor,也就是一個電晶體加一個電容,形成一個 DRAM cell。這非常依賴製造。

所以你不會看到雲服務商自己跳進去做記憶體,因為這需要晶圓廠。

CPU 過去也有點類似。Intel 一直自己製造。AMD 以前也自己製造,但大概十幾二十年前,它把製造業務剝離出去,也就是現在的 GlobalFoundries。AMD 當時負擔不起繼續投入製造。

GlobalFoundries 現在落後了,因為半導體製造需要持續的大額資本投入。每座 fab,也就是晶圓廠,可能需要幾十億到上百億美元。

它不僅資本密集,也依賴 IP 和長期積累。需要大量時間和智慧財產權投入。因此 CSP 不會輕易進入記憶體製造。

提問者: 所以可以理解為,記憶體更製造導向,也更商品化;CPU 差異化程度更高?

專家: 可以這麼理解。

半導體工藝大體可以分為三類。

第一類是 logic circuit,也就是邏輯電路。CPU 屬於這一類,DSP 也屬於這一類。

第二類是 analog mixed-signal,也就是模擬/混合訊號。比如 Texas Instruments、Analog Devices,以及國防和航空航天公司會用到這類工藝。雷達、雷射雷達、自動駕駛感測器等都需要這類工藝。

第三類是 memory,也就是儲存晶片。三類工藝都不一樣。

如果你聽到別人談 leading-edge node,也就是先進製程節點,通常指的是邏輯晶片,因為邏輯工藝演進最快,資本投入也最大。

傳統上,memory 是商品化產品。除了伺服器,記憶體還大量用於 PC、手機、消費電子。消費電子的 ASP,也就是平均售價,通常較低,所以記憶體長期偏商品屬性。

但現在資料中心和 AI 正在改變這個情況。

你應該聽過 HBM,也就是 high bandwidth memory,高頻寬記憶體。

HBM 本質上還是傳統 DRAM,只是把 DRAM 堆疊起來。它使用 TSV,也就是 through-silicon via,矽通孔,把不同 die 垂直連接起來。

現在記憶體需求主要由資料中心和 AI 驅動。你會看到記憶體廠商正在減少商用、PC 和手機記憶體產量,把產能轉向 GPU、CPU 相關需求,因為 ASP 和利潤率更好。

這會改變行業格局。記憶體廠商會加強技術推進,而不再只是像過去那樣做商品化產品。

提問者: 我聽說 CPU 價格在上漲,但不知道漲了多少。這個說法是真的嗎?

專家: 是真的。市場上大家都知道。

提問者: 如果需要更多 CPU,為什麼不能直接生產更多?為什麼價格必須上漲?

專家: 這是需求、供給和製造產能限制共同作用的結果。

AMD 使用 TSMC。TSMC 非常忙,要服務很多關鍵客戶,比如 NVIDIA 的 GPU、Apple 的晶片、Qualcomm,以及其他客戶。

Intel 其實也有一部分製造放在 TSMC,但大部分還是在 Intel 內部。就 Intel 自己的產能來說,我們的 fab 是滿載的,甚至超過滿載。我們追不上需求。

還有一點,現在每個晶片的 die size 都很大。你從外部看是一個晶片,但實際上內部是很多晶片封裝在一起,我們叫 chiplet。即使看其中每一個 chiplet,它本身也已經很大。

因此,一片晶圓現在不能像以前那樣生產出那麼多 die 或 chiplet。這也限制了供應。

記憶體也是類似的。需求、供給、製造產能都會限制供應。半導體是一條很長的供應鏈:從資料中心的使用需求,到伺服器,到 GPU、CPU、記憶體,再到製造,再到 fab。

而且設計本身就需要一到兩年。製造也一樣。如果投資建一個半導體 fab,光建廠房就需要一到兩年,因為這些廠房非常特殊,要安裝專門裝置,然後開始試生產。

前提是你已經完成製造工藝的研發。邏輯工藝非常複雜,研發過程通常需要很長時間。即使工藝完成、裝置安裝好,也要花幾年時間微調工藝,才能真正量產。

進入量產後,還要持續提高良率。良率非常重要。整個製造流程從頭到尾跑完也需要很多個月。

所以一旦產能受限,擴產需要很長時間。

提問者: 聽起來 CPU 需求很大,新供應又很難上線。如果需求保持強勁,價格應該繼續上漲?

專家: 這是簡單的市場邏輯。我同意。

提問者: 還有什麼你認為重要、或者我應該問但沒有問到的事情?

專家: 我們已經談了很多。一個是 CPU,一個是記憶體,另一個是半導體製造。

如果看公開市場,記憶體公司本來就有限。美國有 Micron,韓國有 SK hynix 和 Samsung。設計方面不能說不重要,但記憶體更多還是製造導向。

CPU 這邊更複雜。Intel 是 IDM,也就是 integrated device manufacturer,設計和製造都在同一家公司裡。AMD 是 fabless,因為它現在沒有自己的 fab,使用 TSMC 生產。AMD 當年把製造業務拆成了 GlobalFoundries。

Fabless 公司裡還有 Qualcomm。Qualcomm 也想進入伺服器 CPU 市場,不過還剛開始。

還有 CSP,比如 Amazon、Microsoft、Google。Oracle 過去是資料庫公司,現在也在進入雲,並通過 Ampere 進入 CPU 業務。

當然還有 NVIDIA。NVIDIA 主要在 GPU,但它也在做 Vera CPU,所以它既有 CPU 也有 GPU。AMD 也是既做 CPU 也做 GPU。

這些公司很多都可以看作 fabless。Fabless 公司必須向 TSMC 支付製造費用。TSMC 的利潤率很健康,所以 fabless 公司要承受一層疊加利潤。

如果 Intel 過去沒有執行失誤,按邏輯來說,因為 Intel 設計和製造一體化,利潤率本來應該更好。這就是 fabless 與 IDM 模式的差別。

提問者: 從 CPU 架構角度看,x86、ARM、RISC-V 之間應該怎麼看?

專家: x86、ARM,以及正在發展的 RISC-V,是三類不同架構。

RISC-V 現在性能還太低,主要用於簡單裝置,比如 IoT,所以先放一邊。

尤其在 Agentic AI 這個領域,CPU 要做的事情比過去多很多。它不再只是支援簡單聊天機器人,而是要處理複雜任務。這意味著 CPU 性能需求更高。

到今天為止,從 CPU 性能看,x86 仍然領先 ARM。兩者都領先 RISC-V。那怕在 x86 或 ARM 內部,不同公司也會有性能差異。

從純性能角度看,x86 通常比 ARM CPU 更適合伺服器和資料中心。ARM 過去主要用於手機或 PC,而不是高性能伺服器。

但硬體不是全部。要在 AI 或 Agentic AI 裡把性能用好,還需要軟體。硬體和軟體協同非常重要。

x86 和 ARM 的架構差異,在技術上叫 ISA,也就是 Instruction Set Architecture,指令集架構。x86 有很長的軟體遺產。那怕今天在 PC 上,也能看到很多應用要麼不能在 ARM 上跑,要麼跑得不好。

這對 Agentic AI 很重要。問題在於你能不能從 ARM 上釋放出足夠性能。很多 workload 不能在 ARM 上運行,或者在 ARM 上性能不如 x86。這是需要關注的角度。

提問者: 最後還有什麼想補充的嗎?

專家: 我們已經覆蓋了 CPU,尤其是 Agentic AI 裡的 CPU,也談到了不同類別和關鍵供應商。

你也對記憶體感興趣,因為現在記憶體非常熱門。但我還想提第三個類別:storage,也就是儲存。儲存和 memory 不太一樣。

提問者: 可以展開講講儲存嗎?

專家: 我還是從上往下講。

對大語言模型來說,模型規模非常重要。這也是為什麼公司越來越往 frontier model 推進。Frontier model 通常意味著參數越來越大。一般來說,更大的模型在理解和建模世界方面會更好。

中國公司比如 DeepSeek,可以做 distilled model、MoE,也就是 mixture of experts,通過這些方法減少模型大小,用更少的計算基礎設施支撐模型。

對於越來越大的模型,一方面需要 compute,也就是 GPU、CPU 等提供多少 teraflops 的算力;另一方面需要 memory bandwidth,也就是記憶體頻寬,我們前面談了 HBM。

但還有一個關鍵點,很多投資者可能沒有完全理解,那就是 storage。

大語言模型今天主要基於 transformer 模型。Transformer 有一個重要特徵:token 是迭代生成的。新的 token 基於過去所有 token。

過去的 token 如果不保存,就必須重新計算,這會消耗大量算力。所以人們現在會嘗試保存過去的 token,這叫 KV caching。KV caching 在 frontier AI 模型裡非常重要。

這就是為什麼 HBM 很重要。過去的 token,也就是 KV cache,需要被保存下來。它一方面資料量很大,另一方面速度要求很高,所以 HBM 出現了。

到了 Agentic AI,情況更嚴重。Agentic AI 有很多任務,而且任務要反覆迭代。比如你查完資料庫後,需要把結果反饋給大語言模型;你搜尋機票網站後,也要把結果反饋給模型;公司的差旅政策也要作為上下文提供給模型。

這些都是 context window,也就是模型需要考慮的上下文,本質上都和 KV cache 有關。

更麻煩的是,現在 Agentic AI 是 turn-by-turn 的,也就是一輪一輪和使用者互動。每一輪互動都要被保存和理解。

這些資料不可能全部保存在記憶體裡。這就是 storage 的價值開始上升的地方。

大語言模型,尤其是 Agentic AI,會需要越來越多儲存。所以儲存可能是金融市場裡被很多投資者忽視的一塊。這裡的儲存不是 CPU 或 GPU 裡的 memory,而是要從 storage 裡把資料取出來。

儲存可能以 storage server 或 storage rack 的形式存在,這是另一個領域。儲存也有硬體裝置,也有軟體供應商。你可以把它理解成類似 GPU 或 CPU 的另一個基礎設施層。

在硬體領域,現在主要是 NVMe drives,也就是 SSD,solid-state drive,固態硬碟。高性能固態裝置叫 NVMe drive。

這些 NVMe drive 會組成伺服器,再組成 server rack。硬體之上還會運行特定的軟體。這是另一個重要領域。

提問者: 誰生產這些儲存?

專家: Micron 做 NVMe drives。SanDisk 也是一家上市公司。Micron 也做這類產品。

雖然 Micron 的主要業務是 memory,比如 HBM 或 DRAM,但它也做 NVMe 儲存。

這是我看到 Micron 的一個優勢。Micron 不只是服務 memory 這條線,也服務 storage 這條線。

但缺點是,Micron 現在產能可能非常受限,因為 memory 和 storage 兩個方向都在快速增長。

如果橫向來看,AI 的關鍵基礎設施包括 compute、memory、storage。當然,還有 networking。Networking 是 Broadcom/Avago 和 Marvell 擅長的領域。

提問者: 非常感謝,這很有幫助。

專家: 不客氣。 (Wang Insight)