最近,輝達策略性收購AI 推理新秀Groq 的事件,像一顆深水炸彈,在科技界引發了強烈震盪。這場交易不僅讓LPU(張量流處理器)背後的SRAM 技術走向台前,更引發了一場關於「SRAM 是否會取代HBM」的行業大辯論。
在近日舉行的CES 2026會上,有採訪者問黃仁勳相關的問題中,黃仁勳表示:“如果一切都能裝進SRAM,那確實不需要HBM,然而。。。
SRAM和HBM:
電子世界的“口袋”與“倉庫
要理解這句話的含金量,我們得先搞清楚:這兩個縮寫到底代表了什麼?
在電腦世界裡,資料儲存遵循一個鐵律:越快的東西越貴、越佔地方;越大的東西越慢。
SRAM(靜態隨機存取記憶體)是目前世界上最快的儲存媒體之一,直接整合在CPU/GPU 核心旁。它不需要像DRAM 那樣定時「刷新」電量,只要有電,資料就穩如泰山。形象的來比喻,它就像是你的「襯衫口袋」。伸手即得,速度極快(奈秒),但空間極小,只能放幾張名片(幾百MB)。
HBM(高頻寬記憶體)本質上仍是DRAM(動態隨機存取記憶體),我們電腦/伺服器裡最常見的記憶體條,容量大、便宜。只是用3D堆疊+ 超寬介面「貼著」GPU/加速器封裝在一起,追求的是頻寬,而不是把「每次存取的延遲」降到SRAM 那個等級。它就好像是你家樓下的「大型倉庫」。容量龐大(幾十GB),搬運貨物的「門」(頻寬)也非常寬,但你得走一段路才能到,有物理延遲。
為何HBM被挑戰?
過去十年,AI晶片的核心戰場只有一個:訓練。模型參數動輒百億甚至是千億級,其計算強度極高,資料多工率高、可批次處理。在這種模式下:容量第一,頻寬第二,延遲反而不敏感,這正是HBM的舒適圈。大容量、堆疊封裝、極高順序頻寬,與GPU 的大規模並行計算天然匹配。這也是為什麼,HBM幾乎成為「AI晶片= GPU」的預設前提。
但當AI 走向「推理」階段(即真實世界的使用),規則改變了。在應用端也就是到推理階段,特別是人機互動和即時控制場景,延遲才是生命線。
根據Groq的技術文獻,傳統GPU架構(如NVIDIA A100/H100)高度依賴HBM。 HBM 本質上是DRAM的垂直堆疊,雖然頻寬驚人,但其存取權重時仍會引入數百奈秒的延遲。在Batch Size = 1(即單次請求、零等待處理)的即時推理場景中,GPU必須頻繁地重新載入權重,導致執行停滯,效能劇烈下滑。
這裡有一個「出身」問題:如下圖所示,在傳統的GPU記憶體結構當中,當處理單元引用本地快取時,會開始繁瑣的快取填充和回寫過程。這些處理單元屬於串流多處理器(SM)核心,所有核心都在動態競爭共享的DRAM 控制器。具體而言,80 個核心正在執行線程,實現總共32 個單指令多線程(SIMT),這意味著總共有2560 個線程在競爭共享DRAM 控制器中的16 個HBM2e 偽通道。這導致了漫長的等待時間,並因為對共享資源的動態競爭導致了重測序、延遲波動和不可預測的性能,從而造成系統層面的不確定性。
傳統GPU記憶體層級結構(圖源:Groq技術白皮書)
為了掩蓋這種延遲,傳統架構被迫增加「批次大小」(Batch Size),即攢夠256 個請求再一起處理。這在訓練中很有效,但在推理中卻導致了明顯的延遲:正如我們在ChatGPT 或Gemini 中看到的,文字往往是「蹦」出來的,而不是像真人對話那樣絲滑瞬時呈現。
SRAM作「主存」為何合理?
那麼,為何SRAM作為“主存”,會在推理中突然變得合理?
SRAM不是因為AI才出現的,它一直存在,但長期只被當「快取(Cache)」使用。在過往發展中,CPU的L1 / L2 / L3 Cache 全是SRAM,GPU的Register File、本地Cache 也是SRAM,此外在NPU / DSP一直有小規模SRAM。
過去沒有人敢、也沒必要,把SRAM 當「主記憶體」。原因很現實:面積太大、成本太高、製程縮放比邏輯電路慢。而過去幾年,業界普遍存在一種悲觀情緒:SRAM 縮放撞牆了。在台積電的5nm 到3nm 演進中,邏輯電晶體(計算單元)縮小了約1.6 倍,但SRAM 單元幾乎沒有縮小(僅約5%)。這導致在單枚晶片(Die)上,SRAM 佔用的面積越來越大,成本飆升。
但Groq 採取了「反向思維」。既然SRAM 縮放慢,那我就不再把它當作“昂貴的快取”,而是利用它在先進製程下極高的開關速度和確定性。 Groq 晶片目前主要採用台積電14nm/7nm。在這些節點上,SRAM 的技術非常成熟。但Groq官方路線圖是計畫走向4nm。到了4nm 或更先進的GAA(全環繞閘極) 架構下,雖然SRAM 單元面積縮小依然緩慢,但由於靜噪邊際改善,大規模SRAM 的讀寫穩定性反而更高了。
在技術本質上,SRAM相比DRAM的存取延遲不是“更快一點”,而是“快一個數量級”。 HBM / DRAM的典型存取延遲大約在100ns,而SRAM僅需1ns。當權重直接常駐在SRAM 中,不需要Cache 猜測、預取、等待,這不是最佳化,而是物理層級的改變。
Groq LPU的核心殺手鐧是完全拋棄HBM作為主存儲,改用數百MB的片上SRAM存放模型權重。 Groq的晶片將SRAM整合在處理器內部,存取延遲僅為HBM 的幾分之一。據Groq 官方數據顯示,其片上頻寬高達80TB/s。
下圖展示了GroqChip 如何利用異質線程或「直線」線程,即線程不分支,而是對應不同的執行功能單元。資料路徑在兩個方向上完全流水線化。指令垂直流水線化,而資料流向東西方向流動,在功能單元處交叉執行運算,充分利用了局部性。我們可以從記憶體讀取數值,在向量單元上運算,然後將結果存回記憶體。此外,GroqChip 將計算與記憶體存取解耦——這對於實現更高的記憶體級並行性(MLP)至關重要,使大量讀寫操作可以同時處於在途狀態。這意味著GroqChip 在單步內即可完成有效的運算與通信,提供低延遲、高效能以及可預測的準確性。
GroqChip處理器記憶體架構
(圖源:Groq技術白皮書)
進一步的,下圖展示了GroqChip 如何有效率地展現指令級並行(ILP)、記憶體級並行(MLP)和資料級並行(DLP),採用獨特的同步計算與通訊方法。在開發完成後,控制權交給了軟體端,透過大規模並行編譯器來利用所有這些形式的並發。這促成了Groq 在Batch 1 下提供高性能的能力。在其他架構中,訓練通常採用256 批次,這意味著在應用能提供關於第一張圖像的資訊之前,必須處理並「學習」完所有256 張圖像。而Groq 在Batch 1 下運行,影像一接收就處理(無需等待256 張湊齊),不僅減少了等待,還提升了準確性。此外,Groq 架構允許開發者無需像在GPU 或其他傳統架構中那樣去平攤長延遲成本。
GroqChip處理器記憶體架構
(圖源:Groq技術白皮書)
所以,SRAM真正的隱性優勢就是其確定性。“快”和“每次都一樣快”,是兩件完全不同的事。為什麼「不確定延遲」很可怕?看視訊卡一下,你可能只是不爽,但是自動駕駛卡一下,可能已經撞了。
對工業控制、自動駕駛、金融風控、核融合、能源調度等這些場景來說,「確定性」比「平均性能」更重要。這也是為什麼Groq 在Argonne 實驗室、金融業benchmark 中特別強調「deterministic ML」。在阿貢國家實驗室(Argonne National Laboratory)的託卡馬克核融合反應器預測任務中,Groq 的確定性架構在0.6ms內實現了19.3 萬次推理(IPS),比Nvidia A100結果高出600倍以上。這是GPU 體系結構先天不擅長的向度。
阿貢國家實驗室延遲關鍵型控制系統的性能對比
黃仁勳怎麼看?
在近日的CES 2026大會期間,有訪談者問黃仁勳:輝達已經擁有CPX 技術,並透過收購Groq 獲得了推理所需的SRAM 存取權。輝達的團隊一個月前發表了一篇關於利用CPX 減少HBM 使用的論文,建議GDDR7 可以取代HBM。展望未來,Grok (=SRAM) + 內部CPX 的組合是否能讓HBM 使用量控制在更「可控」的程度?這會對利潤率產生正面影響嗎?
CPX(計算與儲存解耦/壓縮技術) 結合GDDR7 或HBM。根據輝達近期發表的論文,利用CPX 可以減少對昂貴HBM 的依賴,甚至在某些場景下用GDDR7 取代HBM。
對於上述提問,黃仁勳的答覆是:「先解釋各自的優勢,再說明為什麼沒那麼簡單。CPX 在單位成本的預填充(Prefill)性能上更優。如果一切都能裝進SRAM,HBM 確實沒必要。然而,問題是這會使模型尺寸縮小約100 倍。」這就是SRAM 的致命傷:太貴了。 如果你想讓一個千億參數的大模型(如Llama 3)完全跑在SRAM 上,你可能需要成百上千顆Groq 晶片,其成本和電力消耗將是一個天文數字。
黃仁勳強調,「靈活性使我們成為了通用答案。」 面對不斷變化的MoE(混合專家模型)、多模態、甚至是SSM(狀態空間模型),能夠靈活切換壓力點(NVLink、HBM 或計算單元)的架構才是資料中心TCO 的最優解。
輝達收購Groq 並不代表要全面倒向SRAM,而是在補齊「極致低延遲推理」這一塊拼圖。黃仁勳指出,資料中心本質上是“有限的電力資源”,而非無限的空間。針對單一工作負載(如特定的極速推理)進行極致優化是可能的,但如果這種優化只能涵蓋10% 的任務,剩下的電力就會被浪費。有限的電力必須在整個資料中心內優化利用,因此靈活性越高越好。
集成度較高的架構也更好-例如,更新DeepSeek 模型可以瞬間提升資料中心所有GPU 的表現。更新模型庫可以改善整個資料中心。明白嗎?如果擁有17 種零散的架構,這個適合那個,那個適合這個,結果就是整體TCO(總擁有成本)提升並不明顯。 「總之,CPX 確實有優勢,但也會降低資料中心的靈活性。」黃仁勳說。
結論
SRAM並不是突然崛起的新技術,而是在AI 推理時代,被放到了一個從未承擔過的位置。它的優勢不在於容量或性價比,而在於確定性、能效和極低延遲;它的限制也同樣明確,面積、成本,以及對模型規模的天然約束。
因此,「SRAM 取代HBM」是一個偽命題,真正的命題是「AI 推理如何實現TCO 最適解」。推理不是“算力終點”,而是“用量起點”。一個常被忽略的事實是:訓練只發生一次,推理會發生數十億次。訓練像“造發動機”,推理像“上路開車”,造發動機只造一次,但上路會開很多很多次。
所以推理體驗變好(更低延遲、更自然響應)帶來的結果,往往不是“HBM 用得更少”,而是:在追求極致速度的邊緣側(如AI 眼鏡、工業實時控制)和特定高性能推理場景,SRAM 確實在通過ASIC 架構蠶食HBM 的份額;但在大規模數據中心,HBM 仍然是承載海量參數的基石;
對於投資者和產業從業人員而言,不應押注單一技術的勝負,而應關注儲存層級化帶來的全面機會。在這個時代,快有快的代價(SRAM 的高昂成本與低密度),慢有慢的平衡(HBM 的高頻寬與通用性),兩者將在AI 推理的星辰大海中並肩而行。(半導體產業觀察)