系統級摩爾定律：推理時代 NVIDIA×Groq 的真實含義，光進銅退的再加速

2025/12/27

•

過去半個世紀，“摩爾定律”幾乎是科技行業最強的敘事武器：把更多電晶體塞進一顆晶片，性能更強、成本更低，世界自動向前滾動。

但到了 AI 時代，尤其進入大模型推理成為主戰場之後，這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。

如果說過去的摩爾定律在追求“每平方毫米更多電晶體”，那麼 AI 時代的摩爾定律更像是在追求：

單位時間產出更多 token（token throughput），並且這條曲線要能持續向上。

而 token throughput 的提升，早就不再是單顆 GPU 的問題，它是一整座“AI 工廠”的問題：晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路，以及軟體如何把這些組織起來、調度起來，讓系統始終跑在“最短板”之上。

在這個框架下，NVIDIA×Groq 的合作/交易（無論最終形態是什麼）更值得被理解為：推理時代的一次“系統級加碼”，而不是“解決某個供應鏈瓶頸”的神蹟。

一、先把交易定性：不是“買產能”，更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”

市場上最常見的誤讀，是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。

公開披露資訊顯示，這一合作/交易的核心是推理技術的非獨家授權，並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地，Groq 公司仍獨立營運。換句話說，它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”，並把關鍵經驗與人才納入自己的產品化體系，而不是直接改變封裝產能、HBM 供給這類供應鏈事實。

這一定性非常關鍵：因為它將討論重心從“供給約束”拉回到“推理範式”。

二、AI 時代的“系統級摩爾定律”：為什麼摩爾定律必然外溢到 PCB、機櫃和互聯？

推理系統的吞吐，本質上受制於一個非常樸素的三角形：算、存、傳。

算（Compute）：算力夠不夠、計算單元是否被喂飽
存（Memory）：權重/啟動/KV 的訪問是否形成記憶體牆
傳（Communication）：跨卡、跨 tray、跨機櫃的資料交換是否堵塞

這個三角形的殘酷之處在於：只要把其中一條邊推上去，瓶頸就會遷移到另一條邊。

因此推理時代的競爭，必然從 GPU 單點性能擴展到系統工程能力：互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略，都會變成吞吐曲線的一部分。

這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本：它追求的不是單晶片 transistor scaling，而是整座 AI 工廠的 token scaling。

三、MoE 推理的結構性事實：天然需要“權重分層”（Weight Hierarchy）

如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值，必須先抓住當下主流模型架構之一：MoE（Mixture of Experts）。

MoE 在推理側的關鍵特徵是：權重訪問天然分成兩類。

1）always-on 的熱權重：每個 token 都必須執行的部分

dense 層
shared experts（共享專家，層層必跑）

2）sparse-on 的冷權重：按路由稀疏啟動的部分

routed experts（例如從 256 個裡選 top-8）
啟動更隨機、訪問更像“按需取用”

於是，一個極其工程化、極其自然的推理加速方向出現了：

把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層（比如 SRAM/近儲存），把 routed experts 留在 HBM 或更遠端，並用熱度快取/複製策略最佳化。

這件事的目標不是“省 HBM”，而是更直接的兩件事：

降低 latency（減少權重搬運等待）
提高穩定吞吐（HBM 頻寬從“啥都搬”變成“只搬稀疏部分”）

可以把它理解為：CPU 時代的 cache hierarchy，在 MoE 時代升級為 weight hierarchy。

四、用 DeepSeek V3 做一次“量級校驗”：為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手？

推理討論最怕缺乏量級感。這裡用 DeepSeek-V3（總參 671B、每 token 啟動 37B，MoE 架構）做一次可復算的量級校驗。

結合典型實現參數（hidden=7168，MoE FFN 的 intermediate=2048，約 58 個 MoE 層 + 3 個 dense 層；每 MoE 層 1 shared + 256 routed；每 token top-8 路由），可以得到一個關鍵結論：
always-on 的熱權重集合本身就是 GB 級。

1）shared experts（跨 58 層）的 FFN 主權重規模

門控 FFN（如 SwiGLU）的一個 expert，近似包含三塊矩陣：up、gate、down。
每層 shared expert 參數量約為：

Params ≈ 3 × hidden × moe_intermediate
= 3 × 7168 × 2048
≈ 44M / 層

58 層合計：44M × 58 ≈ 2.55B 參數

2）3 個 dense 層的 FFN 主權重規模

dense 的 intermediate 更大（約 18432）：

Params ≈ 3 × 7168 × 18432
≈ 396M / 層
3 層合計 ≈ 1.19B 參數

3）合計熱權重集合（FFN 主體）≈ 3.74B 參數

2.55B + 1.19B ≈ 3.74B 參數

按 FP8 粗算 1 byte/參數：
≈ 3–4GB 量級（不同實現是否包含量化中繼資料會有小幅偏差）

這個量級的意義非常關鍵：

大到：普通意義上的 L2/L3 cache 解決不了問題
小到：如果系統存在某種近儲存層/推理專用駐留層，讓這 3–4GB 常駐，就非常有吸引力

換句話說，MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。

註：估算聚焦 FFN/expert 權重，是因為 MoE 推理權重搬運的大頭集中在專家 FFN；注意力部分在不同架構（如低秩投影/MLA 等）下可顯著壓縮，不改變熱權重集合為 GB 級這一判斷。

五、“Groq 式 SRAM/近儲存能力”的合理落點：推理專用“熱權重層”，不是取代 GPU

Groq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡，最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”，而是：

為推理系統增加一層熱權重近儲存/專用駐留層
讓 GPU 更容易被喂飽，提高有效 token/s
通過軟體抽象層把這種形態納入 NVIDIA 生態，降低開發與遷移成本

這裡關鍵不是“SRAM 這個名詞”，而是：
更近、更低延遲、更高頻寬的權重層。

至於它長在 GPU 封裝裡、長在板上、長在 tray 上，或者以某種異構加速單元形態出現，都屬於工程實現的分叉路線；但動機與收益目標是清晰的：推理提速。

六、最重要的鏈式反應：計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速

一旦熱權重常駐近儲存，使推理端的“記憶體牆”變薄，系統會進入典型的再平衡過程：

單節點有效 token/s 上升（等待變少、計算更“吃飽”）
同時間裡生成更多 token，平行請求更大
MoE 路由與跨卡/跨節點組織開銷佔比上升
為繼續擴吞吐，系統平行度向外擴：
卡內 → tray 內 → 機櫃內 → 機櫃間
互聯成為新短板：頻寬密度、距離、功耗與可管理性壓力增大
銅在更高頻寬與更長距離下更快觸頂，光的滲透被動加速

因此，“推理提速→互聯升級→光進銅退”的邏輯並不是口號，而是一條相對自洽的系統工程鏈條：

推理加速的盡頭往往不是算力，而是互聯；當計算更快，互聯必須更快。

這也解釋了為什麼很多人只盯著 GPU 出貨，會低估光通訊的“二階彈性”：
計算端效率提升，會讓通訊需求斜率變陡，從而推高機櫃內/機櫃間頻寬升級的緊迫性。

七、投資對應：系統級摩爾定律下，那些環節更容易成為“增量受益”？

如果把“推理吞吐持續提升”作為主線，那麼產業鏈受益往往不是單點，而是鏈式擴散。

1）機櫃內互聯：從“銅還能撐一撐”走向“更早換光”

頻寬密度更快觸頂
距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬
光在機櫃內滲透有可能被動加速

2）機櫃間網路：更高階速率光模組與交換體系

token/s 上升帶動跨節點平行更深
scale-out 網路更容易成為系統短板
交換晶片、光模組速率升級與拓撲最佳化的需求更強

3）PCB/連接器/電源散熱：系統密度提升的“基礎設施”

計算更密，供電散熱與板級設計更關鍵
可靠性與可維運性成為規模化推理的隱性門檻

4）軟體與調度：最終決定“硬體是否兌現吞吐”

MoE 路由、批處理、快取/複製策略
跨卡/跨節點通訊編排
統一抽象層（生態介面）帶來的鎖定效應

如果說訓練時代的核心是“買更多 GPU”，那麼推理時代的核心越來越像“買系統、買網路、買軟體”。

八、風險提示與可證偽點：那些前提不成立，推演就要改寫？

為了避免過度演繹，有必要把邊界條件講清楚：

MoE 未必長期絕對主導：結構變化會改變“熱權重集合”的形態
近儲存不必然是 SRAM：實現路徑可能多樣，關鍵是“更近的權重層”
專家不必然跨機櫃：現實系統會優先局部化、熱專家複製，跨櫃更多是邊界情況
收益受制於軟體調度：硬體再優，調度若跟不上，吞吐不會線性提升
TCO 約束：電力、散熱、網路、維運、良率與供給鏈會共同決定最優點

這些因素決定了：相關判斷應被視作“方向與機制”，而不是確定性預告。

結語：NVIDIA×Groq 更像推理時代的“系統級選項”，而不是供應鏈神話

當摩爾定律升級為系統級摩爾定律，推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求，為近儲存/推理專用駐留層提供了清晰抓手；一旦推理效率上升，互聯壓力上移，機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。

因此，NVIDIA×Groq 的意義更接近：推理時代的一次系統級加碼——未必立刻改變供給，卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面，提前佔住高地。(彼得全球科技觀察)