過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。
但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。
如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:
單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。
而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。
在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。
市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。
公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。
這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。
推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。
這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。
因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。
這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。
如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。
MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。
1)always-on 的熱權重:每個 token 都必須執行的部分
2)sparse-on 的冷權重:按路由稀疏啟動的部分
於是,一個極其工程化、極其自然的推理加速方向出現了:
把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。
這件事的目標不是“省 HBM”,而是更直接的兩件事:
可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。
推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。
結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:
always-on 的熱權重集合本身就是 GB 級。
1)shared experts(跨 58 層)的 FFN 主權重規模
門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。
每層 shared expert 參數量約為:
Params ≈ 3 × hidden × moe_intermediate
= 3 × 7168 × 2048
≈ 44M / 層
58 層合計:44M × 58 ≈ 2.55B 參數
2)3 個 dense 層的 FFN 主權重規模
dense 的 intermediate 更大(約 18432):
Params ≈ 3 × 7168 × 18432
≈ 396M / 層
3 層合計 ≈ 1.19B 參數
3)合計熱權重集合(FFN 主體)≈ 3.74B 參數
2.55B + 1.19B ≈ 3.74B 參數
按 FP8 粗算 1 byte/參數:
≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)
這個量級的意義非常關鍵:
換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。
註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。
Groq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:
這裡關鍵不是“SRAM 這個名詞”,而是:
更近、更低延遲、更高頻寬的權重層。
至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。
一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:
因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:
推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。
這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:
計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。
如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。
1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”
2)機櫃間網路:更高階速率光模組與交換體系
3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”
4)軟體與調度:最終決定“硬體是否兌現吞吐”
如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。
為了避免過度演繹,有必要把邊界條件講清楚:
這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。
當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。
因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)