系統級摩爾定律:推理時代 NVIDIA×Groq 的真實含義,光進銅退的再加速

過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。

但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。

如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:

單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。

而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。

在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。

一、先把交易定性:不是“買產能”,更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”

市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。

公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。

這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。

二、AI 時代的“系統級摩爾定律”:為什麼摩爾定律必然外溢到 PCB、機櫃和互聯?

推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。

  • 算(Compute):算力夠不夠、計算單元是否被喂飽
  • 存(Memory):權重/啟動/KV 的訪問是否形成記憶體牆
  • 傳(Communication):跨卡、跨 tray、跨機櫃的資料交換是否堵塞

這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。

因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。

這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。

三、MoE 推理的結構性事實:天然需要“權重分層”(Weight Hierarchy)

如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。

MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。

1)always-on 的熱權重:每個 token 都必須執行的部分

  • dense 層
  • shared experts(共享專家,層層必跑)

2)sparse-on 的冷權重:按路由稀疏啟動的部分

  • routed experts(例如從 256 個裡選 top-8)
  • 啟動更隨機、訪問更像“按需取用”

於是,一個極其工程化、極其自然的推理加速方向出現了:

把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。

這件事的目標不是“省 HBM”,而是更直接的兩件事:

  • 降低 latency(減少權重搬運等待)
  • 提高穩定吞吐(HBM 頻寬從“啥都搬”變成“只搬稀疏部分”)

可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。

四、用 DeepSeek V3 做一次“量級校驗”:為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手?

推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。

結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:
always-on 的熱權重集合本身就是 GB 級。

1)shared experts(跨 58 層)的 FFN 主權重規模

門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。
每層 shared expert 參數量約為:

Params ≈ 3 × hidden × moe_intermediate
= 3 × 7168 × 2048
≈ 44M / 層

58 層合計:44M × 58 ≈ 2.55B 參數

2)3 個 dense 層的 FFN 主權重規模

dense 的 intermediate 更大(約 18432):

Params ≈ 3 × 7168 × 18432
≈ 396M / 層
3 層合計 ≈ 1.19B 參數

3)合計熱權重集合(FFN 主體)≈ 3.74B 參數

2.55B + 1.19B ≈ 3.74B 參數

按 FP8 粗算 1 byte/參數:
≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)

這個量級的意義非常關鍵:

  • 大到:普通意義上的 L2/L3 cache 解決不了問題
  • 小到:如果系統存在某種近儲存層/推理專用駐留層,讓這 3–4GB 常駐,就非常有吸引力

換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。

註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。

五、“Groq 式 SRAM/近儲存能力”的合理落點:推理專用“熱權重層”,不是取代 GPU

Groq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:

  • 為推理系統增加一層 熱權重近儲存/專用駐留層
  • 讓 GPU 更容易被喂飽,提高有效 token/s
  • 通過軟體抽象層把這種形態納入 NVIDIA 生態,降低開發與遷移成本

這裡關鍵不是“SRAM 這個名詞”,而是:
更近、更低延遲、更高頻寬的權重層。

至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。

六、最重要的鏈式反應:計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速

一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:

  1. 單節點有效 token/s 上升(等待變少、計算更“吃飽”)
  2. 同時間裡生成更多 token,平行請求更大
  3. MoE 路由與跨卡/跨節點組織開銷佔比上升
  4. 為繼續擴吞吐,系統平行度向外擴:
    卡內 → tray 內 → 機櫃內 → 機櫃間
  5. 互聯成為新短板:頻寬密度、距離、功耗與可管理性壓力增大
  6. 銅在更高頻寬與更長距離下更快觸頂,光的滲透被動加速

因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:

推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。

這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:
計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。

七、投資對應:系統級摩爾定律下,那些環節更容易成為“增量受益”?

如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。

1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”

  • 頻寬密度更快觸頂
  • 距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬
  • 光在機櫃內滲透有可能被動加速

2)機櫃間網路:更高階速率光模組與交換體系

  • token/s 上升帶動跨節點平行更深
  • scale-out 網路更容易成為系統短板
  • 交換晶片、光模組速率升級與拓撲最佳化的需求更強

3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”

  • 計算更密,供電散熱與板級設計更關鍵
  • 可靠性與可維運性成為規模化推理的隱性門檻

4)軟體與調度:最終決定“硬體是否兌現吞吐”

  • MoE 路由、批處理、快取/複製策略
  • 跨卡/跨節點通訊編排
  • 統一抽象層(生態介面)帶來的鎖定效應

如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。

八、風險提示與可證偽點:那些前提不成立,推演就要改寫?

為了避免過度演繹,有必要把邊界條件講清楚:

  • MoE 未必長期絕對主導:結構變化會改變“熱權重集合”的形態
  • 近儲存不必然是 SRAM:實現路徑可能多樣,關鍵是“更近的權重層”
  • 專家不必然跨機櫃:現實系統會優先局部化、熱專家複製,跨櫃更多是邊界情況
  • 收益受制於軟體調度:硬體再優,調度若跟不上,吞吐不會線性提升
  • TCO 約束:電力、散熱、網路、維運、良率與供給鏈會共同決定最優點

這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。

結語:NVIDIA×Groq 更像推理時代的“系統級選項”,而不是供應鏈神話

當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。

因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)