AI晶片的盡頭不是更複雜，而是“重新變簡單”

2026/05/25

•

1. AI 硬體狂歡背後，可能藏著一個被忽略的真相

過去兩年，AI 世界最火的詞，除了“大模型”，就是“算力”。

從 NVIDIA 的 Blackwell，到 Google 的 TPU，整個行業都在渲染一種氣氛：AI 晶片正進入“星際時代”。

越來越大的視訊記憶體、越來越高的頻寬、越來越複雜的封裝工藝，讓這些晶片像科幻電影裡的產物。

但如果你真正深入晶片架構層面，會發現一個頗具反差的事實：

今天幾乎所有 AI 加速器，核心思想其實都非常“古老”。

甚至可以說，當前 AI 革命，某種程度上仍然建立在一項 1978 年提出的技術之上。

而這項技術，就是——脈動陣列（Systolic Array）。

2. 所有 AI 晶片，本質上都在做同一件事

行業裡喜歡創造新名詞。

為了區分產品、提高溢價，不同廠商給同一種東西起了完全不同的名字：

NVIDIA 叫 Tensor Core
Google 叫 MXU
AMD 叫 Matrix Core
Intel 叫 AMX

名字一個比一個科幻。

但如果把行銷包裝全部剝掉，你會發現：

它們幾乎全是脈動陣列。

脈動陣列的本質非常簡單——它是一種專門用於矩陣乘法的資料流結構。

而 AI 的核心計算，恰恰就是矩陣乘法。

所以整個 AI 行業，實際上是在圍繞一種“極致最佳化矩陣乘法”的結構瘋狂迭代。

這也是為什麼很多資深架構師會調侃：

“如果明天 AI 演算法突然不再依賴矩陣乘法，那今天這些 AI 晶片，大機率會瞬間失去價值。”

聽起來誇張，但並不完全是玩笑。

3. AI 晶片的“暴力美學”

脈動陣列之所以強大，在於它代表了一種極致的工程哲學：

不要聰明，只要高效。

它不像 CPU 那樣追求複雜邏輯判斷。

它追求的是：

資料規律流動
指令重複執行
極限吞吐
極限能效

你可以把它理解成：

一台專門為矩陣乘法打造的“工業流水線”。

資料像血液一樣在陣列中流動，因此才叫“脈動（Systolic）”。

而如今 AI 算力爆炸，本質上就是：

人類終於找到了一個能把矩陣乘法效率壓榨到極限的硬體結構。

很多人以為 AI 晶片越來越“智能”。

實際上，它們很多時候只是越來越“簡單粗暴”。

4. 一個反直覺觀點：未來 AI 加速器，更像 CPU

這可能是很多 GPU 信徒最難接受的觀點。

但越來越多晶片架構師開始意識到：

未來 AI 加速器，未必是“更強的 GPU”，反而可能是“帶超大脈動陣列的 CPU”。

為什麼？

因為今天先進製程下，真正佔面積的，已經不是控制邏輯，而是：

Cache
SRAM
HBM 介面
大規模矩陣陣列

相比之下：

GPU 那套複雜調度系統，佔比已經越來越低。

這意味著：

“到底是 GPU 風格控製器，還是 CPU 風格控製器”，正在變得沒那麼重要。

真正重要的是：

資料搬運效率
記憶體結構
陣列規模
程式設計成本

而在程式設計生態上，CPU 有一個 GPU 很難比擬的優勢：

Linux + C++ 生態

今天整個 AI 世界，其實深陷在 CUDA 生態裡。

NVIDIA 的 CUDA 很強，但也極其複雜。

大量 AI 工程師，本質上是在“學習如何遷就 GPU”。

而 CPU 的優勢在於：

全世界都會 Linux
全世界都會 C/C++
偵錯工具成熟
編譯體系成熟
軟體棧成熟

如果未來 AI 晶片本身就能直接運行 PyTorch，而不再依賴外部 Host 系統，總體成本會發生巨大變化。

這也是為什麼越來越多人開始討論：

“AI CPU” 也許才是真正的終局。

5. TPU 為什麼能用幾十人挑戰 NVIDIA？

這是 AI 硬體史上最經典的問題之一。

為什麼早期 TPU 團隊只有幾十人，卻能在某些場景裡打出極其驚人的性能？

核心原因，其實是：

陣列規模的代差

早期 GPU 的 Tensor Core 陣列很小。

但 TPU 選擇了更激進的大陣列設計。

這會帶來一個非常恐怖的效果：

向量寬度每擴大一倍：

矩陣吞吐增加 4 倍
但標量控制邏輯幾乎不變

也就是說：

陣列越大，單位計算對應的“控制開銷”越低。

這本質上是一種：

用硬體規模碾壓軟體複雜度。

於是 TPU 可以用更少的控制邏輯，完成更大規模矩陣運算。

這也是為什麼很多 TPU 架構師一直強調：

真正決定 AI 晶片效率的，不只是 FLOPS，而是“標量開銷佔比”。

6. 但大陣列，也帶來了新的悖論

問題在於：

不是所有 AI 計算都適合超大陣列。

比如：

Attention 的維度通常偏小

很多 Attention Head 的 K 維度只有：

這會導致：

大型脈動陣列根本喂不滿。

利用率極低。

但另一邊：

Feed Forward 網路維度極大

經常達到：

8K
16K
更高

這種場景下，大陣列會變得極其高效。

於是一個新的趨勢開始出現：

異構 AI 核心

未來 AI 晶片，很可能不再是“統一架構”。

而會變成：

小陣列核心：專門處理 Attention
大陣列核心：專門處理 FFN
通用 CPU 核：負責調度與系統控制

本質上：

AI 晶片正在越來越像一個“異構計算系統”。

7. HBM，可能是今天 AI 世界最大的“奢侈稅”

現在 AI 晶片最貴的部分是什麼？

不是算力。

而是 HBM。

尤其在大模型時代，HBM 已經貴到離譜。

但很多業內人士開始提出一個尖銳觀點：

很多 HBM，其實是在為低效軟體買單。

因為現實情況是：

大量模型並沒有真正最佳化：

KV Cache
Attention 調度
Sparse Activation
SSD Offloading
分佈式權重管理

於是工程師只能用更大的視訊記憶體“硬扛”。

這也是為什麼一些架構師開始認為：

未來真正優秀的 AI 系統，未必依賴超大視訊記憶體。

相反：

它們可能依賴：

更聰明的軟體層
更高效的稀疏化
更精妙的分佈式系統
更便宜的高速網路

換句話說：

今天很多硬體堆料，本質上是在掩蓋軟體能力不足。

8. 一個被忽略的趨勢：AI 正在瘋狂“降精度”

從 FP32 到 FP16。

從 FP16 到 FP8。

再到今天的 FP4。

整個 AI 硬體行業，其實一直在做同一件事：

用更低精度換更高吞吐

原因很簡單：

大模型並不總需要那麼高的數值精度。

很多時候：

8 位夠用
7 位也可能夠用

於是有人提出一種非常激進的思路：

Int7 + 1

即：

7 位用於真正計算
第 8 位專門用於結構化稀疏標記

這樣做的好處是：

乘法器面積更小
功耗更低
吞吐更高
稀疏計算更容易實現

本質上，這是在進一步壓榨矽片面積效率。

而 AI 晶片未來的發展方向，很可能就是：

“越來越少的位元，越來越高的有效算力。”

9. AI 硬體真正的未來，也許是“做減法”

過去十年，整個行業形成了一種慣性：

AI 晶片越來越複雜。

但很多頂級架構師開始反思：

複雜度，真的等於進步嗎？

也許未來真正重要的，不是：

更多線纜
更多快取
更大視訊記憶體
更複雜調度器

而是：

如何把系統重新變簡單

包括：

用更通用的 CPU 化架構降低開發門檻
用超大陣列壓縮控制開銷
用軟體最佳化減少 HBM 依賴
用稀疏化提升真實吞吐
用分佈式網路替代昂貴本地視訊記憶體

歸根到底：

AI 晶片競爭，最終拼的未必是誰“堆得更多”。

而是誰能：

用最少的複雜度，完成最多的計算。

10. 最後的問題：我們是否正在為“複雜度”支付巨額學費？

今天整個 AI 世界，都在追逐更大的 GPU 叢集。

但一個越來越值得思考的問題是：

如果未來算力真的便宜了 100 倍，

我們會不會突然意識到：

過去十年，行業其實一直在為“複雜度崇拜”買單？

也許真正偉大的 AI 硬體革命，從來不是“更複雜”。

而是：

在性能爆炸增長之後，重新學會簡單。 (老曹聊工程師轉AI)

科技