1. AI 硬體狂歡背後,可能藏著一個被忽略的真相
過去兩年,AI 世界最火的詞,除了“大模型”,就是“算力”。
從 NVIDIA 的 Blackwell,到 Google 的 TPU,整個行業都在渲染一種氣氛:AI 晶片正進入“星際時代”。
越來越大的視訊記憶體、越來越高的頻寬、越來越複雜的封裝工藝,讓這些晶片像科幻電影裡的產物。
但如果你真正深入晶片架構層面,會發現一個頗具反差的事實:
今天幾乎所有 AI 加速器,核心思想其實都非常“古老”。
甚至可以說,當前 AI 革命,某種程度上仍然建立在一項 1978 年提出的技術之上。
而這項技術,就是——脈動陣列(Systolic Array)。
2. 所有 AI 晶片,本質上都在做同一件事
行業裡喜歡創造新名詞。
為了區分產品、提高溢價,不同廠商給同一種東西起了完全不同的名字:
- NVIDIA 叫 Tensor Core
- Google 叫 MXU
- AMD 叫 Matrix Core
- Intel 叫 AMX
名字一個比一個科幻。
但如果把行銷包裝全部剝掉,你會發現:
它們幾乎全是脈動陣列。
脈動陣列的本質非常簡單——它是一種專門用於矩陣乘法的資料流結構。
而 AI 的核心計算,恰恰就是矩陣乘法。
所以整個 AI 行業,實際上是在圍繞一種“極致最佳化矩陣乘法”的結構瘋狂迭代。
這也是為什麼很多資深架構師會調侃:
“如果明天 AI 演算法突然不再依賴矩陣乘法,那今天這些 AI 晶片,大機率會瞬間失去價值。”
聽起來誇張,但並不完全是玩笑。
3. AI 晶片的“暴力美學”
脈動陣列之所以強大,在於它代表了一種極致的工程哲學:
不要聰明,只要高效。
它不像 CPU 那樣追求複雜邏輯判斷。
它追求的是:
- 資料規律流動
- 指令重複執行
- 極限吞吐
- 極限能效
你可以把它理解成:
一台專門為矩陣乘法打造的“工業流水線”。
資料像血液一樣在陣列中流動,因此才叫“脈動(Systolic)”。
而如今 AI 算力爆炸,本質上就是:
人類終於找到了一個能把矩陣乘法效率壓榨到極限的硬體結構。
很多人以為 AI 晶片越來越“智能”。
實際上,它們很多時候只是越來越“簡單粗暴”。
4. 一個反直覺觀點:未來 AI 加速器,更像 CPU
這可能是很多 GPU 信徒最難接受的觀點。
但越來越多晶片架構師開始意識到:
未來 AI 加速器,未必是“更強的 GPU”,反而可能是“帶超大脈動陣列的 CPU”。
為什麼?
因為今天先進製程下,真正佔面積的,已經不是控制邏輯,而是:
- Cache
- SRAM
- HBM 介面
- 大規模矩陣陣列
相比之下:
GPU 那套複雜調度系統,佔比已經越來越低。
這意味著:
“到底是 GPU 風格控製器,還是 CPU 風格控製器”,正在變得沒那麼重要。
真正重要的是:
- 資料搬運效率
- 記憶體結構
- 陣列規模
- 程式設計成本
而在程式設計生態上,CPU 有一個 GPU 很難比擬的優勢:
Linux + C++ 生態
今天整個 AI 世界,其實深陷在 CUDA 生態裡。
NVIDIA 的 CUDA 很強,但也極其複雜。
大量 AI 工程師,本質上是在“學習如何遷就 GPU”。
而 CPU 的優勢在於:
- 全世界都會 Linux
- 全世界都會 C/C++
- 偵錯工具成熟
- 編譯體系成熟
- 軟體棧成熟
如果未來 AI 晶片本身就能直接運行 PyTorch,而不再依賴外部 Host 系統,總體成本會發生巨大變化。
這也是為什麼越來越多人開始討論:
“AI CPU” 也許才是真正的終局。
5. TPU 為什麼能用幾十人挑戰 NVIDIA?
這是 AI 硬體史上最經典的問題之一。
為什麼早期 TPU 團隊只有幾十人,卻能在某些場景裡打出極其驚人的性能?
核心原因,其實是:
陣列規模的代差
早期 GPU 的 Tensor Core 陣列很小。
但 TPU 選擇了更激進的大陣列設計。
這會帶來一個非常恐怖的效果:
向量寬度每擴大一倍:
- 矩陣吞吐增加 4 倍
- 但標量控制邏輯幾乎不變
也就是說:
陣列越大,單位計算對應的“控制開銷”越低。
這本質上是一種:
用硬體規模碾壓軟體複雜度。
於是 TPU 可以用更少的控制邏輯,完成更大規模矩陣運算。
這也是為什麼很多 TPU 架構師一直強調:
真正決定 AI 晶片效率的,不只是 FLOPS,而是“標量開銷佔比”。
6. 但大陣列,也帶來了新的悖論
問題在於:
不是所有 AI 計算都適合超大陣列。
比如:
Attention 的維度通常偏小
很多 Attention Head 的 K 維度只有:
- 16
- 32
- 64
- 128
這會導致:
大型脈動陣列根本喂不滿。
利用率極低。
但另一邊:
Feed Forward 網路維度極大
經常達到:
- 8K
- 16K
- 更高
這種場景下,大陣列會變得極其高效。
於是一個新的趨勢開始出現:
異構 AI 核心
未來 AI 晶片,很可能不再是“統一架構”。
而會變成:
- 小陣列核心:專門處理 Attention
- 大陣列核心:專門處理 FFN
- 通用 CPU 核:負責調度與系統控制
本質上:
AI 晶片正在越來越像一個“異構計算系統”。
7. HBM,可能是今天 AI 世界最大的“奢侈稅”
現在 AI 晶片最貴的部分是什麼?
不是算力。
而是 HBM。
尤其在大模型時代,HBM 已經貴到離譜。
但很多業內人士開始提出一個尖銳觀點:
很多 HBM,其實是在為低效軟體買單。
因為現實情況是:
大量模型並沒有真正最佳化:
- KV Cache
- Attention 調度
- Sparse Activation
- SSD Offloading
- 分佈式權重管理
於是工程師只能用更大的視訊記憶體“硬扛”。
這也是為什麼一些架構師開始認為:
未來真正優秀的 AI 系統,未必依賴超大視訊記憶體。
相反:
它們可能依賴:
- 更聰明的軟體層
- 更高效的稀疏化
- 更精妙的分佈式系統
- 更便宜的高速網路
換句話說:
今天很多硬體堆料,本質上是在掩蓋軟體能力不足。
8. 一個被忽略的趨勢:AI 正在瘋狂“降精度”
從 FP32 到 FP16。
從 FP16 到 FP8。
再到今天的 FP4。
整個 AI 硬體行業,其實一直在做同一件事:
用更低精度換更高吞吐
原因很簡單:
大模型並不總需要那麼高的數值精度。
很多時候:
- 8 位夠用
- 7 位也可能夠用
於是有人提出一種非常激進的思路:
Int7 + 1
即:
- 7 位用於真正計算
- 第 8 位專門用於結構化稀疏標記
這樣做的好處是:
- 乘法器面積更小
- 功耗更低
- 吞吐更高
- 稀疏計算更容易實現
本質上,這是在進一步壓榨矽片面積效率。
而 AI 晶片未來的發展方向,很可能就是:
“越來越少的位元,越來越高的有效算力。”
9. AI 硬體真正的未來,也許是“做減法”
過去十年,整個行業形成了一種慣性:
AI 晶片越來越複雜。
但很多頂級架構師開始反思:
複雜度,真的等於進步嗎?
也許未來真正重要的,不是:
- 更多線纜
- 更多快取
- 更大視訊記憶體
- 更複雜調度器
而是:
如何把系統重新變簡單
包括:
- 用更通用的 CPU 化架構降低開發門檻
- 用超大陣列壓縮控制開銷
- 用軟體最佳化減少 HBM 依賴
- 用稀疏化提升真實吞吐
- 用分佈式網路替代昂貴本地視訊記憶體
歸根到底:
AI 晶片競爭,最終拼的未必是誰“堆得更多”。
而是誰能:
用最少的複雜度,完成最多的計算。
10. 最後的問題:我們是否正在為“複雜度”支付巨額學費?
今天整個 AI 世界,都在追逐更大的 GPU 叢集。
但一個越來越值得思考的問題是:
如果未來算力真的便宜了 100 倍,
我們會不會突然意識到:
過去十年,行業其實一直在為“複雜度崇拜”買單?
也許真正偉大的 AI 硬體革命,從來不是“更複雜”。
而是:
在性能爆炸增長之後,重新學會簡單。 (老曹聊工程師轉AI)
