SRAM，取代HBM？

2026/01/12

•

最近，輝達策略性收購AI 推理新秀Groq 的事件，像一顆深水炸彈，在科技界引發了強烈震盪。這場交易不僅讓LPU（張量流處理器）背後的SRAM 技術走向台前，更引發了一場關於「SRAM 是否會取代HBM」的行業大辯論。

在近日舉行的CES 2026會上，有採訪者問黃仁勳相關的問題中，黃仁勳表示：“如果一切都能裝進SRAM，那確實不需要HBM，然而。。。

SRAM和HBM：

電子世界的“口袋”與“倉庫

要理解這句話的含金量，我們得先搞清楚：這兩個縮寫到底代表了什麼？

在電腦世界裡，資料儲存遵循一個鐵律：越快的東西越貴、越佔地方；越大的東西越慢。

SRAM（靜態隨機存取記憶體）是目前世界上最快的儲存媒體之一，直接整合在CPU/GPU 核心旁。它不需要像DRAM 那樣定時「刷新」電量，只要有電，資料就穩如泰山。形象的來比喻，它就像是你的「襯衫口袋」。伸手即得，速度極快（奈秒），但空間極小，只能放幾張名片（幾百MB）。

HBM（高頻寬記憶體）本質上仍是DRAM（動態隨機存取記憶體），我們電腦/伺服器裡最常見的記憶體條，容量大、便宜。只是用3D堆疊+ 超寬介面「貼著」GPU/加速器封裝在一起，追求的是頻寬，而不是把「每次存取的延遲」降到SRAM 那個等級。它就好像是你家樓下的「大型倉庫」。容量龐大（幾十GB），搬運貨物的「門」（頻寬）也非常寬，但你得走一段路才能到，有物理延遲。

為何HBM被挑戰？

過去十年，AI晶片的核心戰場只有一個：訓練。模型參數動輒百億甚至是千億級，其計算強度極高，資料多工率高、可批次處理。在這種模式下：容量第一，頻寬第二，延遲反而不敏感，這正是HBM的舒適圈。大容量、堆疊封裝、極高順序頻寬，與GPU 的大規模並行計算天然匹配。這也是為什麼，HBM幾乎成為「AI晶片= GPU」的預設前提。

但當AI 走向「推理」階段（即真實世界的使用），規則改變了。在應用端也就是到推理階段，特別是人機互動和即時控制場景，延遲才是生命線。

根據Groq的技術文獻，傳統GPU架構（如NVIDIA A100/H100）高度依賴HBM。 HBM 本質上是DRAM的垂直堆疊，雖然頻寬驚人，但其存取權重時仍會引入數百奈秒的延遲。在Batch Size = 1（即單次請求、零等待處理）的即時推理場景中，GPU必須頻繁地重新載入權重，導致執行停滯，效能劇烈下滑。

這裡有一個「出身」問題：如下圖所示，在傳統的GPU記憶體結構當中，當處理單元引用本地快取時，會開始繁瑣的快取填充和回寫過程。這些處理單元屬於串流多處理器（SM）核心，所有核心都在動態競爭共享的DRAM 控制器。具體而言，80 個核心正在執行線程，實現總共32 個單指令多線程（SIMT），這意味著總共有2560 個線程在競爭共享DRAM 控制器中的16 個HBM2e 偽通道。這導致了漫長的等待時間，並因為對共享資源的動態競爭導致了重測序、延遲波動和不可預測的性能，從而造成系統層面的不確定性。

傳統GPU記憶體層級結構（圖源：Groq技術白皮書）

為了掩蓋這種延遲，傳統架構被迫增加「批次大小」（Batch Size），即攢夠256 個請求再一起處理。這在訓練中很有效，但在推理中卻導致了明顯的延遲：正如我們在ChatGPT 或Gemini 中看到的，文字往往是「蹦」出來的，而不是像真人對話那樣絲滑瞬時呈現。

SRAM作「主存」為何合理？

那麼，為何SRAM作為“主存”，會在推理中突然變得合理？

SRAM不是因為AI才出現的，它一直存在，但長期只被當「快取（Cache）」使用。在過往發展中，CPU的L1 / L2 / L3 Cache 全是SRAM，GPU的Register File、本地Cache 也是SRAM，此外在NPU / DSP一直有小規模SRAM。

過去沒有人敢、也沒必要，把SRAM 當「主記憶體」。原因很現實：面積太大、成本太高、製程縮放比邏輯電路慢。而過去幾年，業界普遍存在一種悲觀情緒：SRAM 縮放撞牆了。在台積電的5nm 到3nm 演進中，邏輯電晶體（計算單元）縮小了約1.6 倍，但SRAM 單元幾乎沒有縮小（僅約5%）。這導致在單枚晶片（Die）上，SRAM 佔用的面積越來越大，成本飆升。

但Groq 採取了「反向思維」。既然SRAM 縮放慢，那我就不再把它當作“昂貴的快取”，而是利用它在先進製程下極高的開關速度和確定性。 Groq 晶片目前主要採用台積電14nm/7nm。在這些節點上，SRAM 的技術非常成熟。但Groq官方路線圖是計畫走向4nm。到了4nm 或更先進的GAA（全環繞閘極）架構下，雖然SRAM 單元面積縮小依然緩慢，但由於靜噪邊際改善，大規模SRAM 的讀寫穩定性反而更高了。

在技術本質上，SRAM相比DRAM的存取延遲不是“更快一點”，而是“快一個數量級”。 HBM / DRAM的典型存取延遲大約在100ns，而SRAM僅需1ns。當權重直接常駐在SRAM 中，不需要Cache 猜測、預取、等待，這不是最佳化，而是物理層級的改變。

Groq LPU的核心殺手鐧是完全拋棄HBM作為主存儲，改用數百MB的片上SRAM存放模型權重。 Groq的晶片將SRAM整合在處理器內部，存取延遲僅為HBM 的幾分之一。據Groq 官方數據顯示，其片上頻寬高達80TB/s。

下圖展示了GroqChip 如何利用異質線程或「直線」線程，即線程不分支，而是對應不同的執行功能單元。資料路徑在兩個方向上完全流水線化。指令垂直流水線化，而資料流向東西方向流動，在功能單元處交叉執行運算，充分利用了局部性。我們可以從記憶體讀取數值，在向量單元上運算，然後將結果存回記憶體。此外，GroqChip 將計算與記憶體存取解耦——這對於實現更高的記憶體級並行性（MLP）至關重要，使大量讀寫操作可以同時處於在途狀態。這意味著GroqChip 在單步內即可完成有效的運算與通信，提供低延遲、高效能以及可預測的準確性。

GroqChip處理器記憶體架構

（圖源：Groq技術白皮書）

進一步的，下圖展示了GroqChip 如何有效率地展現指令級並行（ILP）、記憶體級並行（MLP）和資料級並行（DLP），採用獨特的同步計算與通訊方法。在開發完成後，控制權交給了軟體端，透過大規模並行編譯器來利用所有這些形式的並發。這促成了Groq 在Batch 1 下提供高性能的能力。在其他架構中，訓練通常採用256 批次，這意味著在應用能提供關於第一張圖像的資訊之前，必須處理並「學習」完所有256 張圖像。而Groq 在Batch 1 下運行，影像一接收就處理（無需等待256 張湊齊），不僅減少了等待，還提升了準確性。此外，Groq 架構允許開發者無需像在GPU 或其他傳統架構中那樣去平攤長延遲成本。

GroqChip處理器記憶體架構

（圖源：Groq技術白皮書）

所以，SRAM真正的隱性優勢就是其確定性。“快”和“每次都一樣快”，是兩件完全不同的事。為什麼「不確定延遲」很可怕？看視訊卡一下，你可能只是不爽，但是自動駕駛卡一下，可能已經撞了。

對工業控制、自動駕駛、金融風控、核融合、能源調度等這些場景來說，「確定性」比「平均性能」更重要。這也是為什麼Groq 在Argonne 實驗室、金融業benchmark 中特別強調「deterministic ML」。在阿貢國家實驗室（Argonne National Laboratory）的託卡馬克核融合反應器預測任務中，Groq 的確定性架構在0.6ms內實現了19.3 萬次推理（IPS），比Nvidia A100結果高出600倍以上。這是GPU 體系結構先天不擅長的向度。

阿貢國家實驗室延遲關鍵型控制系統的性能對比

黃仁勳怎麼看？

在近日的CES 2026大會期間，有訪談者問黃仁勳：輝達已經擁有CPX 技術，並透過收購Groq 獲得了推理所需的SRAM 存取權。輝達的團隊一個月前發表了一篇關於利用CPX 減少HBM 使用的論文，建議GDDR7 可以取代HBM。展望未來，Grok (=SRAM) + 內部CPX 的組合是否能讓HBM 使用量控制在更「可控」的程度？這會對利潤率產生正面影響嗎？

CPX（計算與儲存解耦/壓縮技術）結合GDDR7 或HBM。根據輝達近期發表的論文，利用CPX 可以減少對昂貴HBM 的依賴，甚至在某些場景下用GDDR7 取代HBM。

對於上述提問，黃仁勳的答覆是：「先解釋各自的優勢，再說明為什麼沒那麼簡單。CPX 在單位成本的預填充（Prefill）性能上更優。如果一切都能裝進SRAM，HBM 確實沒必要。然而，問題是這會使模型尺寸縮小約100 倍。」這就是SRAM 的致命傷：太貴了。如果你想讓一個千億參數的大模型（如Llama 3）完全跑在SRAM 上，你可能需要成百上千顆Groq 晶片，其成本和電力消耗將是一個天文數字。

黃仁勳強調，「靈活性使我們成為了通用答案。」 面對不斷變化的MoE（混合專家模型）、多模態、甚至是SSM（狀態空間模型），能夠靈活切換壓力點（NVLink、HBM 或計算單元）的架構才是資料中心TCO 的最優解。

輝達收購Groq 並不代表要全面倒向SRAM，而是在補齊「極致低延遲推理」這一塊拼圖。黃仁勳指出，資料中心本質上是“有限的電力資源”，而非無限的空間。針對單一工作負載（如特定的極速推理）進行極致優化是可能的，但如果這種優化只能涵蓋10% 的任務，剩下的電力就會被浪費。有限的電力必須在整個資料中心內優化利用，因此靈活性越高越好。

集成度較高的架構也更好－例如，更新DeepSeek 模型可以瞬間提升資料中心所有GPU 的表現。更新模型庫可以改善整個資料中心。明白嗎？如果擁有17 種零散的架構，這個適合那個，那個適合這個，結果就是整體TCO（總擁有成本）提升並不明顯。「總之，CPX 確實有優勢，但也會降低資料中心的靈活性。」黃仁勳說。

結論

SRAM並不是突然崛起的新技術，而是在AI 推理時代，被放到了一個從未承擔過的位置。它的優勢不在於容量或性價比，而在於確定性、能效和極低延遲；它的限制也同樣明確，面積、成本，以及對模型規模的天然約束。

因此，「SRAM 取代HBM」是一個偽命題，真正的命題是「AI 推理如何實現TCO 最適解」。推理不是“算力終點”，而是“用量起點”。一個常被忽略的事實是：訓練只發生一次，推理會發生數十億次。訓練像“造發動機”，推理像“上路開車”，造發動機只造一次，但上路會開很多很多次。

所以推理體驗變好（更低延遲、更自然響應）帶來的結果，往往不是“HBM 用得更少”，而是：在追求極致速度的邊緣側（如AI 眼鏡、工業實時控制）和特定高性能推理場景，SRAM 確實在通過ASIC 架構蠶食HBM 的份額；但在大規模數據中心，HBM 仍然是承載海量參數的基石；

對於投資者和產業從業人員而言，不應押注單一技術的勝負，而應關注儲存層級化帶來的全面機會。在這個時代，快有快的代價（SRAM 的高昂成本與低密度），慢有慢的平衡（HBM 的高頻寬與通用性），兩者將在AI 推理的星辰大海中並肩而行。(半導體產業觀察)