AI性能暴增35倍！輝達發佈全新LPU，GPU不再是唯一主角！

2026/03/17

•

當地時間3月16日，輝達GTC 2026正式美國加州聖何塞召開。輝達創始人兼首席執行長黃仁勳身披標誌性皮衣登場，在長達兩個半小時的主題演講中，勾勒出這家算力巨頭從“晶片公司”向“AI基礎設施工廠”全面蛻變的宏偉藍圖。

面對市場對業績持續性的高度關注，黃仁勳給出了極為強勁的預期：到2027年，輝達新一代AI晶片的累計營收將正式跨入1兆美元時代。這一數字是他去年預測的兩倍。

本次演講的一大重點，當屬備受期待的Vera Rubin AI工廠平台。與以往發佈單晶片不同，黃仁勳此次展示的是一個包含7款全新晶片的“全家桶”系統。他強調：“過去提到Hopper，我會舉起一塊晶片，那很可愛。但提到Vera Rubin，大家想到的是整個系統。”

這一系統級平台的核心元件包括：

Vera CPU：全球首款專為“AI智能體時代”與“強化學習”設計的處理器。它搭載88個自研“Olympus”核心，性能較傳統CPU快50%，能效提升達2倍。黃仁勳將其比作智能體系統背後的“指揮與調度中心”，負責管理海量並行任務。

Rubin GPU：與Vera CPU通過NVLink-C2C技術實現1.8TB/s的驚人互聯頻寬，共同構成強大的算力核心。

NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學器件的Spectrum-X可擴展交換機：構成了一套完整的超高速互聯、網路與資料處理基礎，確保資料在AI工廠內高效流轉。

黃仁勳展示了基於這些元件建構的Vera Rubin NVL72機架，它整合了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平台，訓練大型混合專家模型所需GPU數量僅為其四分之一，推理吞吐量/瓦特提升高達10倍。他驕傲地宣稱，通過極致的軟硬體協同設計，在短短兩年內，輝達將1GW資料中心內的Token生成速率提升了350倍。

特別值得重點介紹的是，黃仁勳展示Vera Rubin平台的“全家桶”時，還推出了一款看似小巧卻極具戰略意義的晶片——Groq 3語言處理單元（LPU）。這款源自輝達去年12月以約200億美元收購Groq核心技術資產的晶片，被黃仁勳定位為Rubin GPU的“推理協處理器”，成為了Vera Rubin平台的又一基石。

黃仁勳解釋了引入LPU的戰略考量時指出：在AI智能體時代，推理需求正加速分化。面對需要極高互動性、超短響應時間的任務，傳統GPU架構存在性能冗餘。為此，輝達引入了專注於“極致低延遲Token生成”的LPU架構。

本文將深入解析Groq 3 LPU的技術細節、混合推理架構以及它對AI推理市場的深遠影響。

一、技術顛覆：打造150TB/s的SRAM怪獸

Groq 3 LPU最引人注目的特點，在於其徹底顛覆了傳統AI加速器的記憶體架構。

1、500MB片上SRAM：頻寬的極致追求

與大多數依賴HBM（高頻寬記憶體）作為工作記憶體層的AI加速器不同，每個Groq 3 LPU晶片整合了500MB的片上SRAM（靜態隨機存取儲存器）。這種記憶體此前主要用於CPU和GPU的超快取記憶體，從未在AI加速器中擔當主角。

這500MB SRAM看似“微不足道”——與每個Rubin GPU上容量高達288GB的HBM4相比，僅為其1/500。但SRAM的關鍵優勢在於頻寬：這塊SRAM可提供高達150TB/s的頻寬，而HBM4的頻寬僅為22TB/s。這意味著，對於頻寬極度敏感的AI解碼操作，Groq 3 LPU的頻寬是傳統HBM的近7倍。

輝達超大規模計算副總裁Ian Buck對此解釋道：“讓我們對比一下這兩種處理器：GPU擁有288GB記憶體，但頻寬是22TB/s；LPU只有1/500的容量，但頻寬達到了驚人的150TB/s。對於需要極致低延遲的token生成任務，LPU的頻寬優勢無可替代。”

基於此晶片的Groq 3 LPX機架配備256顆LPU，提供128GB片上SRAM和640TB/s總頻寬。

黃仁勳描繪了GPU與LPU協同工作的未來圖景：Vera Rubin負責需要海量計算的“預填充”階段，而Groq LPU則負責對延遲極度敏感的“解碼”階段。在這種混合架構下，系統的推理吞吐量與功耗比最高可提升35倍。他建議企業客戶，若工作負載包含大量高價值的Token生成需求，應將25%的資料中心規模配置給Groq。據悉，由三星代工的Groq LP30晶片已進入量產，預計今年第三季度出貨。

2、三星代工：黃仁勳現場致謝

在GTC主題演講中，黃仁勳特別提到三星電子，感謝其為輝達加快生產Groq 3 LPU晶片。這是輝達首次公開確認三星晶圓代工部門參與下一代AI晶片生產。

“三星為輝達生產Groq 3 LPU晶片，並正在加快生產速度，我非常感謝三星。”黃仁勳在演講中表示。他進一步透露，該晶片將於2026年第三季度正式出貨。

這一合作標誌著三星與輝達的夥伴關係從儲存領域（HBM）正式擴展到晶圓代工領域。三星電子當天在GTC大會現場展出了第七代HBM產品“HBM4E”和垂直堆疊晶片“核心裸片”，積極宣傳其在儲存和代工領域的雙重合作。

3、技術代價：容量與成本的博弈

SRAM的優勢背後是殘酷的工程權衡。SRAM的生產成本遠高於DRAM，且佔用更大的晶片面積。這導致單個Groq 3 LPU僅能提供500MB記憶體，遠不足以獨立運行兆參數等級的超大AI模型。

輝達的解決方案是：用數量彌補容量。公司將256顆Groq 3 LPU整合到一個Groq 3 LPX機架中，提供128GB的片上SRAM和40 PB/s的推理加速頻寬。該機架採用液冷設計，通過每個機架640TB/s的專用擴展介面將晶片互聯。

Ian Buck坦承這種設計的侷限性：“你需要很多晶片才能獲得那種性能。從每晶片的token吞吐量（經濟性）來看，LPU其實相當低。”

二、混合架構：GPU+LPU如何協同工作？

既然LPU有容量短板，輝達為何要大費周章將其納入Rubin平台？答案在於推理任務的分工協作。

1、預填充階段 vs. 解碼階段

大語言模型的推理過程可分為兩個階段：

預填充階段：處理輸入提示（prompt），平行計算所有輸入token，生成中間狀態。這一階段需要強大的浮點運算能力和大容量記憶體來儲存鍵值快取。

解碼階段：逐個生成輸出token，每一步都依賴於之前生成的token。這一階段對延遲極度敏感，且受記憶體頻寬限制嚴重。

輝達的策略是：讓Rubin GPU負責預填充階段，讓Groq LPU負責解碼階段。

具體來說，在輝達新引入的Dynamo軟體框架協調下：

Rubin GPU利用其288GB HBM4和強大的浮點運算能力，處理複雜的注意力機制（Attention）計算和數學運算，儲存大型鍵值快取

Groq LPU利用其150TB/s的超高頻寬，處理前饋神經網路（FFN）層計算，實現極低延遲的逐token生成

2、智能體間通訊：從100 token/s到1500 token/s

隨著AI從單一大模型走向多智能體系統（multi-agent systems），推理延遲的要求發生了根本性變化。

Ian Buck描繪了這樣的未來場景：在多智能體系統中，AI代理越來越多地與其他AI進行互動，而非與查看聊天窗口的人類交流。對人類而言看似合理的每秒100 token生成速率，對AI代理來說卻如同蝸牛爬行。

Buck表示：“Rubin GPU和Groq LPU的組合將人工智慧代理間通訊的吞吐量從每秒100個token提升到每秒1500個token甚至更高。”

3、35倍性能提升：資料背後的工程奇蹟

根據輝達官方基準測試，當運行達到1兆參數規模的大語言模型時，Rubin GPU與Groq LPU組合相比上代方案，推理吞吐量每瓦特提升高達35倍。

具體到成本層面，輝達強調，這一組合方案運行超大AI模型時，每百萬token的成本為45美元，每秒token處理量達到500。輝達聲稱，這將使超大AI模型服務的創收機會增加10倍。

三、戰略意義：輝達為何需要LPU？

1、填補推理市場的短板

分析認為，“通過結合Rubin GPU和Groq LPX，輝達終於進入了推理市場——一個它從未成為第一的市場。”

長期以來，輝達的GPU在訓練市場佔據絕對主導，但在低延遲推理領域，面臨著Cerebras、Groq（收購前）等挑戰者的競爭。Cerebras的晶圓級引擎同樣整合了大量SRAM，為先進模型提供低延遲推理，甚至吸引了OpenAI等大客戶。

收購Groq技術並將其整合到Rubin平台，是輝達對競爭者的直接回應。正如Ian Buck所說，公司希望“通過這兩種處理器的結合，走向多智能體未來”。

2、生態系統相容：無需修改CUDA

對於現有輝達客戶而言，引入Groq LPU的一個重要優勢是軟體相容性。

Groq 3 LPX機架與Rubin平台的結合“無需修改現有的NVIDIA CUDA軟體生態系統”。這意味著，企業客戶可以在不重寫程式碼的前提下，通過增加LPU機架來顯著提升推理性能。

3、競爭格局：誰將受益？

Tom's Hardware分析指出，Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示，公司目前專注於將Groq 3 LPX機架與Rubin整合，因為兩者都旨在提供相似的推理性能增強，而LPU不需要每個Rubin CPX模組所需的大量GDDR7記憶體。

在客戶層面，PCMag預測，最大的AI公司——包括OpenAI、Anthropic、Meta——將成為這項技術的首批採用者。這意味著，未來你的聊天機器人查詢或圖像生成請求，可能正由Rubin GPU和Groq LPU協同處理。

四、小結：推理時代的新範式

Groq 3 LPU的發佈，標誌著輝達對AI計算的理解進入新階段。當行業還在爭論“記憶體容量vs記憶體頻寬”孰輕孰重時，輝達給出了一個務實答案：全都要，但分工協作。

Rubin GPU負責需要大容量記憶體和複雜計算的預填充階段，Groq LPU負責需要極致低延遲的解碼階段。兩者通過NVLink和Spectrum-X高速互聯，在Dynamo軟體框架的調度下，如同一台電腦般協同工作。

對於企業客戶而言，黃仁勳的建議很明確：如果你的工作負載包含大量需要高互動性的token生成任務，應考慮將資料中心的一部分規模配置給Groq LPU。在智能體AI成為行業下一個“拐點”的當下，這種混合架構可能是保持競爭力的關鍵。

而對於三星而言，拿下Groq 3 LPU的代工訂單，標誌著其在AI晶片供應鏈中的地位從“儲存供應商”升級為“全面製造夥伴”。正如黃仁勳所言：“謝謝三星。”這句話背後，是AI算力生態日益複雜的分工與合作。 (芯智訊)