推理專用晶片，火了

2025/12/30

•

大模型催火推理芯片：輝達砸200億收購Groq，算力競爭轉向”毫秒必爭”。

在AI技術從實驗室走向規模化落地的處理程序中，推理（Inference）環節正成為決定體驗與成本的核心競爭——專門為推理最佳化的晶片，已然成為科技行業的新風口。要理解這股熱潮，首先要釐清AI工作流中訓練與推理的本質差異。

在AI工作流中，訓練（Training）與推理（Inference）承擔著截然不同的角色。訓練階段通過大量帶標籤資料迭代最佳化模型權重，使模型能夠學習複雜模式；而推理階段則使用已訓練好的模型對新輸入進行預測。從性能需求來看，訓練如同馬拉松，追求整體吞吐量與模型精度的持續提升；推理則如同百米衝刺，核心目標是降低單次預測延遲，實現即時響應。

訓練階段需要強大的通用計算平台，通常需要調動成千上萬張頂級GPU，通過海量資料（如全網際網路文字、圖片）進行長時間（數月甚至數年）的計算，耗資巨大。訓練對算力的絕對性能要求極高，晶片需要具備強大的計算能力和全面的計算能力，能夠處理各種複雜的計算任務。目前，輝達的GPU配合CUDA軟體生態幾乎處於壟斷地位，難以被其他廠商撼動。

然而，在推理階段，尤其是大語言模型（LLM）的即時互動場景中，情況發生了根本性轉變。LLM的推理過程具有"自回歸"特性，即生成第N+1個詞必須依賴上一輪第N個詞的結果。這種順序性導致GPU強大的平行計算能力在大多數時間處於"等待"狀態，無法充分發揮其優勢。

更為重要的是，隨著AI應用的廣泛落地，推理成本在AI總成本中的比重日益增加，已成為AI企業最大的單項支出。這促使業界開始探索專門的推理晶片解決方案。

01. 為何推理晶片成為剛需？

專門的推理晶片是AI發展到規模化應用階段的必然產物。其主要有以下優勢：

第一是性能精準最佳化。推理任務的核心是高效執行預訓練模型的前向計算，如矩陣乘法、摺積運算等。專門的推理晶片（如NPU、TPU）針對這些運算進行硬體級最佳化，能大幅提高計算效率，相比通用CPU或GPU，可實現更高的吞吐量和更低的延遲。例如，推理晶片可通過定製化的乘加單元（MAC）和平行計算架構，加速神經網路的推理過程，滿足自動駕駛、智能語音互動等即時性要求高的場景。

第二是能效比優勢，推理場景對功耗敏感，尤其是邊緣裝置和終端應用（如智慧型手機、可穿戴裝置）。專門的推理晶片通過低精度計算（如INT8、INT4）和硬體級最佳化，能在保證精度的前提下顯著降低功耗，延長裝置續航時間。相比之下，通用晶片在低功耗模式下性能受限，難以兼顧性能與能效。

第三是成本效益顯著。推理晶片的規模化生產可降低單位成本，尤其在大規模部署場景（如資料中心、邊緣計算節點）中，其性價比優勢明顯。與通用晶片相比，推理晶片無需支援複雜的訓練任務，可簡化硬體設計，減少晶片面積和製造成本，更適合高並行、低成本的推理需求。

第四是場景適配性靈活。不同應用場景對推理晶片的需求差異顯著。例如，雲端推理需處理高並行請求，要求高吞吐量和可擴展性；邊緣裝置則需緊湊設計、低功耗和即時響應。專門的推理晶片可通過靈活的架構設計（如存算一體、Chiplet技術）滿足多樣化場景需求，而通用晶片難以在所有場景中兼顧性能、功耗和成本。

最後，專用推理晶片能加速AI全民普及。推理晶片降低了AI應用的部署門檻，標準化的介面與工具鏈簡化了開發流程，讓更多企業與開發者能夠輕鬆落地預訓練模型，推動AI技術在各行業的滲透，助力AI生態持續繁榮。

可以說，推理晶片是AI從技術概念走向實際應用的關鍵支撐，通過性能、能效、成本與場景適配性的綜合最佳化，成為AI規模化發展的核心引擎。

02. 推理晶片賽道：百花齊放，群雄逐鹿

隨著需求爆發，推理晶片賽道呈現出多元化競爭格局，一批創新產品憑藉獨特技術優勢脫穎而出。

首先是LPU，全稱 Language Processing Unitix，是一種專門為語言處理任務設計的硬體處理器。它與我們熟知的 GPU（Graphics Processing Unit，圖形處理器）有著本質的區別。GPU 最初是為處理圖形渲染任務而設計的，在平行計算方面表現出色，因此後來被廣泛應用於人工智慧領域的模型訓練和推理。然而，LPU 則是專門針對語言處理任務進行最佳化的，旨在更高效地處理文字資料，執行諸如自然語言理解、文字生成等任務。LPU由前Google TPU團隊創立，專為大語言模型（LLM）推理設計，採用SRAM-only架構，無外部儲存延遲，單晶片整合230MB SRAM，頻寬高達80TB/s，延遲穩定，適合流式生成和互動式應用。

另一家公司SambaNova SN40L則跳出了傳統GPU平行計算框架，自研可重構資料流單元（RDU）架構，創造性地將神經網路圖直接對應到硬體執行。通過將多步推理計算壓縮為單一操作，大幅減少資料在記憶體與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點。其第四代RDU產品SN40L，宣稱推理性能達到輝達H100的3.1倍，訓練性能達到H100的2倍，而總體擁有成本（TCO）僅為H100的1/10。

此外，2024年發佈的第六代TPU v6（代號Trillium），也標誌著Google將主戰場從訓練轉向推理。面對推理成本成為全球AI公司最大單項支出的行業現狀，TPU v6從架構到指令集全面圍繞推理負載重構：FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度最佳化、晶片間頻寬大幅提升，能效比相比上一代提升67%。Google直言，這一代TPU的目標是成為“推理時代最省錢的商業引擎”。2025年推出的第七代TPU（TPU v7，代號Ironwood）更是聚焦超大規模線上推理場景，成為TPU系列首款專用推理晶片。與此前側重訓練的v5p、側重能效的v6e不同，Ironwood從第一天起就鎖定超大規模線上推理這一終極場景，並在多項關鍵指標上首次與輝達Blackwell系列正面抗衡，成為全球AI基礎設施領域的焦點產品。

03. 巨頭出手：輝達200億“收編”推理黑馬

面對推理賽道的激烈競爭，晶片巨頭輝達祭出重磅大招。

當地時間 12 月 24 日，AI 晶片初創企業 Groq 宣佈與輝達達成非獨家推理技術許可協議。根據協議約定，Groq 創始人喬納森・羅斯、總裁桑尼・馬達拉及核心技術團隊將正式加盟輝達，攜手推動授權技術的迭代升級與規模化落地。

值得注意的是，Groq 將繼續保持獨立營運地位，西蒙・愛德華茲已接任公司首席執行長，旗下 Groq 雲服務亦維持正常運轉，不受此次合作影響。輝達首席執行長黃仁勳在內部郵件中指出，此項合作將顯著拓寬公司技術版圖 —— 輝達計畫將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構，進一步增強平台對各類 AI 推理及即時工作負載的服務能力。

這宗以非獨家技術許可為核心的交易，堪稱美國科技巨頭近年的“標準操作”。微軟、亞馬遜、Google等企業均曾通過類似模式，在不觸發全資收購的前提下，吸納頂尖 AI 人才、獲取關鍵技術壁壘。其核心邏輯在於，這種輕資產合作方式可有效規避當前美國嚴苛的反壟斷審查。儘管監管機構已開始關注此類交易，但迄今為止，尚無任何一筆同類合作被裁定撤銷。

對於手握 606 億美元巨額現金儲備的輝達而言，這無疑是一筆雙贏的戰略佈局：既消解了潛在的市場競爭威脅，又進一步加固自身技術護城河。據悉，該交易涉及資金規模約 200 億美元，較 Groq 數月前融資時 69 億美元的估值溢價近三倍。這一數字，也標誌著 Groq 作為獨立硬體挑戰者的征程暫告一段落，但其核心技術將在輝達的生態體系中，獲得更廣闊的研發與應用平台。

對 Groq 而言，200 億美元的現金流不僅極大緩解了公司財務壓力，也為現有投資者創造了豐厚回報。儘管核心團隊併入輝達體系，但 Groq 憑藉新 CEO 的到任與獨立營運架構的保留，得以繼續深耕 Groq Cloud 雲服務業務。更重要的是，依託輝達的資源優勢，Groq 的技術有望觸達更豐富的應用場景，加速商業化落地處理程序；同時，這種 “非全資收購” 的合作模式，既規避了品牌滅失的風險，更為企業未來發展預留了充分的自主空間。

04. 輝達的推理晶片野心，如何通過LPU技術降低推理成本

顯然此次獲取到Groq的技術許可，將有利於降低輝達未來推出的推理專用晶片的成本。

通過此次合作，NVIDIA 成功斬獲 Groq 核心智慧財產權，得以直接應用其 SRAM 架構技術，一舉繞開HBM 高頻寬記憶體與台積電 CoWoS 先進封裝的雙重限制。不妨設想：依託這項技術，NVIDIA 有望打造一款專攻 AI 快速推理的晶片產品，憑藉極致的運算速度，再搭配 NVLink 互聯技術，實現多顆 LPU 晶片的無縫協同，釋放更強勁的算力效能。

Groq LPU 晶片的核心優勢，在於將 AI 模型的核心權重資料，從傳統方案依賴的外接 HBM，遷移至晶片內建的 SRAM 中。這一設計使得晶片無需頻繁與外部儲存互動調取資料，算力效率自然實現躍升。而且，SRAM的讀寫速度可達HBM的10倍。HBM方案的弊端則十分突出：不僅需要依託台積電的CoWoS封裝技術，還受制於儲存廠商的產能限制，早已成為制約AI晶片大規模量產的關鍵瓶頸。

一旦跳過HBM與CoWoS，直接採用SRAM架構，晶片的生產效率將迎來質的飛躍。更值得一提的是，若在電路板中整合NVIDIA的NVLink C2C（晶片間直連技術），LPU晶片的擴展能力還將遠超當前水平，從而讓資料傳輸更迅捷、更穩定。

如此一來，NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品，徹底擺脫記憶體供應瓶頸；又能規避台積電CoWoS封裝的產能掣肘，實現供應鏈的自主可控。

此外，儘管Groq LPU晶片受限於記憶體容量，更適配輕量級AI模型，但在低延遲場景（如機器人即時控制、端側AI互動）中具備得天獨厚的優勢。而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手”，GPU擔當“算力基石”，二者強強聯合，將進一步鞏固NVIDIA在AI領域的霸主地位。

恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業背景，NVIDIA這套“SRAM+NVLink”的組合拳，堪稱破局關鍵。200億美元的合作對價看似不菲，但對於NVIDIA這樣的行業巨頭而言，無疑是一筆“花小錢辦大事”的划算買賣。合作達成後，Groq可保持獨立營運，NVIDIA則收穫核心技術與頂尖人才，最終實現雙贏。

對於普通消費者而言，這場技術革新的紅利同樣觸手可及：未來的AI推理將更快速、更經濟，聊天機器人的響應會變得毫秒級迅捷，服務機器人的動作也將愈發流暢自然。與此同時，SRAM市場的熱度或將持續攀升，英特爾等相關產業鏈企業也有望從中分得一杯羹，推動整個行業生態的繁榮發展。 (半導體產業縱橫)