AI晶片的盡頭不是更複雜,而是“重新變簡單”


1. AI 硬體狂歡背後,可能藏著一個被忽略的真相

過去兩年,AI 世界最火的詞,除了“大模型”,就是“算力”。

從 NVIDIA 的 Blackwell,到 Google 的 TPU,整個行業都在渲染一種氣氛:AI 晶片正進入“星際時代”。

越來越大的視訊記憶體、越來越高的頻寬、越來越複雜的封裝工藝,讓這些晶片像科幻電影裡的產物。

但如果你真正深入晶片架構層面,會發現一個頗具反差的事實:

今天幾乎所有 AI 加速器,核心思想其實都非常“古老”。

甚至可以說,當前 AI 革命,某種程度上仍然建立在一項 1978 年提出的技術之上。

而這項技術,就是——脈動陣列(Systolic Array)

2. 所有 AI 晶片,本質上都在做同一件事

行業裡喜歡創造新名詞。

為了區分產品、提高溢價,不同廠商給同一種東西起了完全不同的名字:

  • NVIDIA 叫 Tensor Core
  • Google 叫 MXU
  • AMD 叫 Matrix Core
  • Intel 叫 AMX

名字一個比一個科幻。

但如果把行銷包裝全部剝掉,你會發現:

它們幾乎全是脈動陣列。

脈動陣列的本質非常簡單——它是一種專門用於矩陣乘法的資料流結構。

而 AI 的核心計算,恰恰就是矩陣乘法。

所以整個 AI 行業,實際上是在圍繞一種“極致最佳化矩陣乘法”的結構瘋狂迭代。

這也是為什麼很多資深架構師會調侃:

“如果明天 AI 演算法突然不再依賴矩陣乘法,那今天這些 AI 晶片,大機率會瞬間失去價值。”

聽起來誇張,但並不完全是玩笑。

3. AI 晶片的“暴力美學”

脈動陣列之所以強大,在於它代表了一種極致的工程哲學:

不要聰明,只要高效。

它不像 CPU 那樣追求複雜邏輯判斷。

它追求的是:

  • 資料規律流動
  • 指令重複執行
  • 極限吞吐
  • 極限能效

你可以把它理解成:

一台專門為矩陣乘法打造的“工業流水線”。

資料像血液一樣在陣列中流動,因此才叫“脈動(Systolic)”。

而如今 AI 算力爆炸,本質上就是:

人類終於找到了一個能把矩陣乘法效率壓榨到極限的硬體結構。

很多人以為 AI 晶片越來越“智能”。

實際上,它們很多時候只是越來越“簡單粗暴”。

4. 一個反直覺觀點:未來 AI 加速器,更像 CPU

這可能是很多 GPU 信徒最難接受的觀點。

但越來越多晶片架構師開始意識到:

未來 AI 加速器,未必是“更強的 GPU”,反而可能是“帶超大脈動陣列的 CPU”。

為什麼?

因為今天先進製程下,真正佔面積的,已經不是控制邏輯,而是:

  • Cache
  • SRAM
  • HBM 介面
  • 大規模矩陣陣列

相比之下:

GPU 那套複雜調度系統,佔比已經越來越低。

這意味著:

“到底是 GPU 風格控製器,還是 CPU 風格控製器”,正在變得沒那麼重要。

真正重要的是:

  • 資料搬運效率
  • 記憶體結構
  • 陣列規模
  • 程式設計成本

而在程式設計生態上,CPU 有一個 GPU 很難比擬的優勢:

Linux + C++ 生態

今天整個 AI 世界,其實深陷在 CUDA 生態裡。

NVIDIA 的 CUDA 很強,但也極其複雜。

大量 AI 工程師,本質上是在“學習如何遷就 GPU”。

而 CPU 的優勢在於:

  • 全世界都會 Linux
  • 全世界都會 C/C++
  • 偵錯工具成熟
  • 編譯體系成熟
  • 軟體棧成熟

如果未來 AI 晶片本身就能直接運行 PyTorch,而不再依賴外部 Host 系統,總體成本會發生巨大變化。

這也是為什麼越來越多人開始討論:

“AI CPU” 也許才是真正的終局。

5. TPU 為什麼能用幾十人挑戰 NVIDIA?

這是 AI 硬體史上最經典的問題之一。

為什麼早期 TPU 團隊只有幾十人,卻能在某些場景裡打出極其驚人的性能?

核心原因,其實是:

陣列規模的代差

早期 GPU 的 Tensor Core 陣列很小。

但 TPU 選擇了更激進的大陣列設計。

這會帶來一個非常恐怖的效果:

向量寬度每擴大一倍:

  • 矩陣吞吐增加 4 倍
  • 但標量控制邏輯幾乎不變

也就是說:

陣列越大,單位計算對應的“控制開銷”越低。

這本質上是一種:

用硬體規模碾壓軟體複雜度。

於是 TPU 可以用更少的控制邏輯,完成更大規模矩陣運算。

這也是為什麼很多 TPU 架構師一直強調:

真正決定 AI 晶片效率的,不只是 FLOPS,而是“標量開銷佔比”。

6. 但大陣列,也帶來了新的悖論

問題在於:

不是所有 AI 計算都適合超大陣列。

比如:

Attention 的維度通常偏小

很多 Attention Head 的 K 維度只有:

  • 16
  • 32
  • 64
  • 128

這會導致:

大型脈動陣列根本喂不滿。

利用率極低。

但另一邊:

Feed Forward 網路維度極大

經常達到:

  • 8K
  • 16K
  • 更高

這種場景下,大陣列會變得極其高效。

於是一個新的趨勢開始出現:

異構 AI 核心

未來 AI 晶片,很可能不再是“統一架構”。

而會變成:

  • 小陣列核心:專門處理 Attention
  • 大陣列核心:專門處理 FFN
  • 通用 CPU 核:負責調度與系統控制

本質上:

AI 晶片正在越來越像一個“異構計算系統”。

7. HBM,可能是今天 AI 世界最大的“奢侈稅”

現在 AI 晶片最貴的部分是什麼?

不是算力。

而是 HBM。

尤其在大模型時代,HBM 已經貴到離譜。

但很多業內人士開始提出一個尖銳觀點:

很多 HBM,其實是在為低效軟體買單。

因為現實情況是:

大量模型並沒有真正最佳化:

  • KV Cache
  • Attention 調度
  • Sparse Activation
  • SSD Offloading
  • 分佈式權重管理

於是工程師只能用更大的視訊記憶體“硬扛”。

這也是為什麼一些架構師開始認為:

未來真正優秀的 AI 系統,未必依賴超大視訊記憶體。

相反:

它們可能依賴:

  • 更聰明的軟體層
  • 更高效的稀疏化
  • 更精妙的分佈式系統
  • 更便宜的高速網路

換句話說:

今天很多硬體堆料,本質上是在掩蓋軟體能力不足。

8. 一個被忽略的趨勢:AI 正在瘋狂“降精度”

從 FP32 到 FP16。

從 FP16 到 FP8。

再到今天的 FP4。

整個 AI 硬體行業,其實一直在做同一件事:

用更低精度換更高吞吐

原因很簡單:

大模型並不總需要那麼高的數值精度。

很多時候:

  • 8 位夠用
  • 7 位也可能夠用

於是有人提出一種非常激進的思路:

Int7 + 1

即:

  • 7 位用於真正計算
  • 第 8 位專門用於結構化稀疏標記

這樣做的好處是:

  • 乘法器面積更小
  • 功耗更低
  • 吞吐更高
  • 稀疏計算更容易實現

本質上,這是在進一步壓榨矽片面積效率。

而 AI 晶片未來的發展方向,很可能就是:

“越來越少的位元,越來越高的有效算力。”

9. AI 硬體真正的未來,也許是“做減法”

過去十年,整個行業形成了一種慣性:

AI 晶片越來越複雜。

但很多頂級架構師開始反思:

複雜度,真的等於進步嗎?

也許未來真正重要的,不是:

  • 更多線纜
  • 更多快取
  • 更大視訊記憶體
  • 更複雜調度器

而是:

如何把系統重新變簡單

包括:

  1. 用更通用的 CPU 化架構降低開發門檻
  2. 用超大陣列壓縮控制開銷
  3. 用軟體最佳化減少 HBM 依賴
  4. 用稀疏化提升真實吞吐
  5. 用分佈式網路替代昂貴本地視訊記憶體

歸根到底:

AI 晶片競爭,最終拼的未必是誰“堆得更多”。

而是誰能:

用最少的複雜度,完成最多的計算。

10. 最後的問題:我們是否正在為“複雜度”支付巨額學費?

今天整個 AI 世界,都在追逐更大的 GPU 叢集。

但一個越來越值得思考的問題是:

如果未來算力真的便宜了 100 倍,

我們會不會突然意識到:

過去十年,行業其實一直在為“複雜度崇拜”買單?

也許真正偉大的 AI 硬體革命,從來不是“更複雜”。

而是:

在性能爆炸增長之後,重新學會簡單。 (老曹聊工程師轉AI)