被遺忘十年的LPU翻紅，一門新生意成立了嗎？

2026/06/26

•

AI速讀

隨著AI進入推理時代，單一GPU架構觸及邊界，專業化分工成為共識。Groq LPU 藉由與輝達 Vera Rubin 平台合作進入主流視線，其 SRAM 高頻寬特性被視為對抗 HBM 成本的關鍵。然而，業內對其編譯器優勢在 MoE 結構下的有效性仍有爭論。分析認為，未來推理方案將趨向異構化，但獨立 LPU 公司面臨大廠自研與市場培育週期的雙重壓力，生存關鍵在於能否在生態成熟前找到能承接「大眾+法拉利」組合的關鍵客戶。

“下一個「法拉利」LPU，要麼找到「金主」客戶，要麼擁有「大眾」搭檔。”

當AI從訓練走向推理時代之後，單一通用架構開始觸及效率邊界。變化由此發生——“只用GPU打天下”的故事難以延續，專業化分工逐漸成為晶片行業的共識。

越來越多企業嘗試將不同計算任務拆解給不同類型晶片處理。

Google在新一代TPU上推進訓推分離；Anthropic押注存內計算架構；SambaNova推出“CPU+GPU+RDU”系統方案；Cerebras則選擇以晶圓級晶片挑戰傳統GPU叢集。

其中最具代表性的案例，是被黃仁勳“捧紅”的Groq。

隨著Groq LPU（Language Processing Unit，語言處理單元）被納入輝達Vera Rubin平台，原本被視為“小眾路線”的LPU第一次進入主流AI基礎設施體系。對於行業而言，這不僅宣告了一種新晶片獲得認可，更意味著推理時代開始接受不同晶片處理不同任務的邏輯。

國內市場同樣感受到這股風向。圍繞資料流架構、SRAM高頻寬儲存以及其他推理加速方向，各類新方案不斷湧現，想要講出自己那版LPU故事的玩家也接連冒頭。（更多技術故事和商業內幕，歡迎加入作者微信 Evelynn7778 交流）

當AI晶片專業化分工趨勢日漸明朗，LPU究竟是一種階段性熱點，還是推理時代長期存在的新工種？而當賽道逐漸變得擁擠，LPU或許是一種成立的需求，但獨立LPU公司會是一門成立的生意嗎？

01. 被遺忘十年的LPU，為什麼突然紅了？

用25%的Groq LPU搭配75%的Vera Rubin來應對源源不斷的高價值Token生成需求，這是輝達給出的最新方案。

打法背後，是Agent時代對規則的改寫：AI應用不再只是一次性問答，持續推理的工作流正在引發Token洪流；基礎設施競爭不斷升維，從單晶片性能比拚邁向系統層級的效率最佳化。

於是，Transformer推理過程中的每一道工序開始被重新丈量和打磨。

最先被看清的是Prefill與Decode——一個更關注算力密度，另一個更依賴響應速度和系統吞吐能力。

但行業很快發現，即使在Decode內部，不同工作負載的最大訴求也不盡相同：Attention（注意力機制）忙於搬運和讀取海量KV Cache，大量Token生成任務則落在FFN（前饋神經網路）身上。

當差異被看見，分工協作的需求也愈發迫切。不同類型晶片開始進入推理系統，各自承擔最擅長的工作。

Groq LPU正是在這一背景下重新進入市場視野，作為Vera Rubin平台中的新增角色，以LPX系統形式專攻FFN相關工作流。

某種程度上，這也釋放了“推理不再繫結單一架構”的訊號。

“超低延遲推理等不適合GPU處理的極端場景，就可以交付給LPU。”晶片架構師方曉表示，“相當於開了一條高速通道專門服務客戶。”

事實上，LPU並非橫空出世。Groq成立於2016年，其核心架構設計同樣誕生於上一個AI時代。但過去很長時間裡，這類專用晶片始終沒有進入主流市場。

轉折點出現在系統級創新成為行業共識之後。

據悉，2025年初輝達首次向合作夥伴開放NVLink互聯生態後，Groq主動尋求接入機會，希望獲得這一原本用於GPU之間通訊的協議支援。

隨著GPU與LPU協同運行的可能性得到驗證，雙方合作開始具備現實基礎。而輝達自身戰略的變化，帶來更大的想像空間。

AI系統架構師徐先生觀察到，未來針對Transformer推理範式設計的新型晶片會越來越多。“通過單顆晶片實現領先的時間正在縮短。”他表示，“而憑藉系統級架構創新，輝達的領先優勢很可能從幾個月拉長到1-2年。”

換句話說，對於輝達而言，引入LPU並非為了取代GPU，而是希望找到更適合承擔特定推理任務的角色。（關於當前業內異構方案的真實落地情況，歡迎加入作者微信 Evelynn7778 交流）

專業化分工為LPU帶來新的機遇，但能否把機會變成市場，卻是另一回事。當越來越多企業開始扎堆LPU賽道，一個更現實的問題正浮出水面：LPU被寄予厚望的技術優勢，含金量到底有多大？

02. LPU的兩張王牌，有多少含金量？

LPU最常被提及的“看家”本領之一，是Groq引以為傲的編譯器及其靜態調度能力。

方曉認為，外界對LPU最大的誤解，是將其優勢簡單歸結為單晶片性能。

“單晶片的確定性延遲並非LPU獨有，所有ASIC都能做到。真正難的是多晶片間、機櫃間和叢集間的精確編排。”在她看來，這才是LPU最深的護城河，也是國內非大廠企業很難突破的壁壘。

但曾在大廠負責晶片軟體棧設計的Tim對此持保留態度，認為編譯能力的價值與模型形態密切相關。

在CNN時代，模型結構豐富、算子種類繁多，編譯器擁有許多大顯身手的可能。但隨著Transformer成為行業主流，大模型的核心算子不斷收斂，大量層結構高度重複。

“這反而縮小了編譯器能夠發揮的最佳化空間。”Tim直言。

與此同時，MoE（Mixture of Experts，混合專家）等動態架構的興起，也在削弱全靜態系統的優勢。

“現在這個時代，幾乎所有頂流模型都有MoE結構。”Tim說，“推理時具備的動態性，對全靜態系統並不是特別友好。”

他進一步解釋，不同請求在推理過程中啟動的專家組合並不相同，而這些資訊在編譯階段無法提前獲知。

對此，Mark也表達了類似觀點，他創辦的非GPU晶片企業，目前已獲得多家頭部美元基金投資。

“為了保證系統始終按照預定節奏運行，編譯器只能先為最壞情況做打算。”他指出，“被固化的硬體側也需要保留一定冗餘來維持整體同步，這使得部分理論優勢會被抵消。”

圍繞LPU的軟體能力，業內尚未形成統一結論。相比之下，另一張儲存“王牌”SRAM似乎更容易被量化。不少從業者表示，這才是LPU最核心的競爭力。

輝達公開的資料顯示，單顆Groq 3 LPU SRAM頻寬為150 TB/s，大約是採用H100 HBM3的45倍。在256顆LPU組成的LPX機櫃中，總頻寬進一步被推高至40 PB/s（註：1 PB/s=1000 TB/s）。

除高頻寬能力外，晶片行業從業者楊越認為這一路線的優勢還在於繞開了HBM供應鏈和先進封裝的限制。

在當前AI晶片成本結構中，儲存的影響力持續上升。Epoch AI資料顯示，HBM佔AI晶片元件成本的比例已經從2024年初的52%增長至2025年底的63%。

當越來越多成本被HBM吞噬時，市場開始重新審視SRAM路線的價值，但分歧依舊存在。

資深晶片產品負責人顧玥直言：“SRAM其實是LPU巨大的缺陷。”她認為，SRAM最大的特點是快，但代價是容量小、單位成本高。

“它更像晶片裡的法拉利，賣點是性能，而不是性價比。”顧玥形容道。

不過，IO資本創始合夥人趙佔祥並不完全認同這種看法。他認為，單純比較儲存單價並沒有太大意義。

“相比SRAM只有幾百MB，HBM動輒幾十GB甚至上百GB。即便SRAM單位價格比HBM貴，但在容量差距面前，HBM最終承擔的總成本反而可能更高。”

SRAM也有自己的容量焦慮。有十餘年經驗的晶片計算架構專家曉東指出，SRAM直接整合在晶片內部，需要與計算單元共享同一塊矽片。這意味著面積分配始終是一道難題。

“DRAM一個儲存單元只需要1個電晶體和1個電容，而SRAM需要6個電晶體。”他進一步補充，“同樣面積下，SRAM能存放的資料天然更少。”

公開資料顯示，Groq 3 LPU整合約500MB SRAM，而TPU 8i約為384MB。雖然Cerebras WSE-3憑藉晶圓級整合方案將容量提升至44GB，但代價是良率和成本的雙重暴擊。

討論SRAM便宜還是昂貴有不同的角度。而更值得拷問的其實在於：推理時代究竟該用什麼指標衡量價值？

Mark認為是Token。在他看來，一場從“系統成本”到“Token成本”的評價體系切換正在發生。

過去幾年，行業習慣討論“多少張卡可以部署一個模型”。因此，大量廠商都在強呼叫更少GPU完成部署。

“但當推理部署規模大到一定程度時，最小系統成本已經不再是首要考量。”Mark說。

他舉例稱，一些方案雖然可以用8張GPU完成模型部署，但推理成本未必最低。而在DeepSeek公開採用144張卡建構推理叢集後，行業開始意識到另一種可能性。

“儘管整體系統成本顯著提高，但更大的叢集規模換來了更高的頻寬、更高的Token吞吐量以及更低的單位Token成本。”Mark分析。

由此SRAM的價值也將被重新考量。只是這套邏輯是否能夠長期成立，仍有待檢驗。

分歧尚未消失，LPU的優勢代價也真實存在。但至少有一點已經形成共識：LPU已經拿到了推理系統的入場券。

而其接下來要回答的，是市場一直追問的另一個現實問題——這是一門能夠持續賺錢的生意嗎？（有關推理加速晶片的更多前景，可加入作者微信 Evelynn7778 互通有無。）

03. 推理時代需要「法拉利」，但誰來買單？

在獲得輝達加持之前，Groq已憑藉獨立的端到端推理部署能力，拿下沙烏地阿拉伯推理基礎設施項目、在歐洲部署大型算力中心，並進入Meta的Llama生態。

從這個角度看，Groq的能力並不完全來自技術。

“選擇押注這條賽道的企業一定要有目標客戶。”趙佔祥解釋，“因為軟體再怎麼編譯，最終還是要針對具體應用進行最佳化。”

換句話說，LPU的商業化難點不只在於技術實現，還取決於是否有人願意買單。但一個不容忽視的問題是——最需要LPU的人，往往也最有能力自研。

徐先生觀察到，已經有大模型公司和網際網路大廠開始行動。“相對於GPU來說，LPU會簡單很多，只要給一兩年時間就能做出來。”他表示。（更多大廠推理加速晶片自研內幕和進展，歡迎加入作者微信 Evelynn7778 一起交流）

但潛在客戶變對手還不是最壞的消息。“創企想靠LPU活不下去，需要找到‘大眾’。輝達是在擁有‘大眾’的基礎上，再增加一輛‘法拉利’，屬於錦上添花。”顧玥直言。

Mark指出，這種分工未來還會繼續深化。“Attention和FFN之間的解耦程度很高，中間通訊頻寬要求並不高。”因此在他看來，異構系統並不會帶來外界想像中的巨大成本。

Tim也認為，未來推理方案大機率會以異構形態存在。“當每一點最佳化都能帶來上億美元回報時，研發成本很容易被攤薄。”

不過即便異構趨勢成立，市場對於獨立LPU公司的前景依然存在疑慮。

據趙佔祥觀察，很多企業已經在探索類似路線——用大容量SRAM和分佈式儲存來完成推理的工作負載。“只不過現在統一叫LPU”。他一語道破。（作者長期跟蹤相關項目進展，歡迎加入微信 Evelynn7778 交流）

方曉聯想到DPU的發展歷程。2020年前後，隨著DPU概念興起，大量創業公司湧入賽道，幾年過去後，不少企業轉型。在她看來，LPU有可能重演類似劇本，原因之一在於漫長的市場培育周期。

趙佔祥解釋，任何一種新計算架構都需要時間沉澱，恰如輝達GPU歷經十年才實現大規模普及。

但這對於創業企業來說，卻是最致命的風險。作為高度專用化的ASIC，LPU天然依賴當前主流模型架構。如果未來基礎模型改弦更張，相關最佳化價值也可能被重新評估。

對此，Mark也從另一角度給出回應：“這反而給了創業公司機會，因為大廠未必願意承擔這種高風險。”

而曉東則相對樂觀。他指出，從CNN時代的AlexNet引爆現代深度學習浪潮開始，過去十餘年AI範式雖然不斷演進，但底層邏輯並未發生根本改變。未來的新架構更可能是Transformer的Plus版。

Tim也給出了類似判斷：“只要模型仍然需要從海量知識中篩選、呼叫和組合資訊，對高頻寬的需求就不會消失。基於這個需求來設計晶片，即使Transformer被替代，晶片本身也不會因此作廢。”

市場從不缺乏新晶片的故事。真正決定一家LPU企業能否活下來的，未必是它擁有多先進的架構，而是它能否在市場成熟之前找到客戶、場景與生態。

畢竟，推理時代或許確實需要越來越多“法拉利”。但對於大多數創業公司而言，比造出一輛法拉利更難的，是找到那個願意長期購買“大眾+法拉利”組合的人。 (雷峰網)

科技