被遺忘十年的LPU翻紅,一門新生意成立了嗎?

“下一個「法拉利」LPU,要麼找到「金主」客戶,要麼擁有「大眾」搭檔。”

當AI從訓練走向推理時代之後,單一通用架構開始觸及效率邊界。變化由此發生——“只用GPU打天下”的故事難以延續,專業化分工逐漸成為晶片行業的共識。

越來越多企業嘗試將不同計算任務拆解給不同類型晶片處理。

Google在新一代TPU上推進訓推分離;Anthropic押注存內計算架構;SambaNova推出“CPU+GPU+RDU”系統方案;Cerebras則選擇以晶圓級晶片挑戰傳統GPU叢集。

其中最具代表性的案例,是被黃仁勳“捧紅”的Groq。

隨著Groq LPU(Language Processing Unit,語言處理單元)被納入輝達Vera Rubin平台,原本被視為“小眾路線”的LPU第一次進入主流AI基礎設施體系。對於行業而言,這不僅宣告了一種新晶片獲得認可,更意味著推理時代開始接受不同晶片處理不同任務的邏輯。

國內市場同樣感受到這股風向。圍繞資料流架構、SRAM高頻寬儲存以及其他推理加速方向,各類新方案不斷湧現,想要講出自己那版LPU故事的玩家也接連冒頭。(更多技術故事和商業內幕,歡迎加入作者微信 Evelynn7778 交流)

當AI晶片專業化分工趨勢日漸明朗,LPU究竟是一種階段性熱點,還是推理時代長期存在的新工種?而當賽道逐漸變得擁擠,LPU或許是一種成立的需求,但獨立LPU公司會是一門成立的生意嗎?

01. 被遺忘十年的LPU,為什麼突然紅了?

用25%的Groq LPU搭配75%的Vera Rubin來應對源源不斷的高價值Token生成需求,這是輝達給出的最新方案。

打法背後,是Agent時代對規則的改寫:AI應用不再只是一次性問答,持續推理的工作流正在引發Token洪流;基礎設施競爭不斷升維,從單晶片性能比拚邁向系統層級的效率最佳化。

於是,Transformer推理過程中的每一道工序開始被重新丈量和打磨。

最先被看清的是Prefill與Decode——一個更關注算力密度,另一個更依賴響應速度和系統吞吐能力。

但行業很快發現,即使在Decode內部,不同工作負載的最大訴求也不盡相同:Attention(注意力機制)忙於搬運和讀取海量KV Cache,大量Token生成任務則落在FFN(前饋神經網路)身上。

當差異被看見,分工協作的需求也愈發迫切。不同類型晶片開始進入推理系統,各自承擔最擅長的工作。

Groq LPU正是在這一背景下重新進入市場視野,作為Vera Rubin平台中的新增角色,以LPX系統形式專攻FFN相關工作流。

某種程度上,這也釋放了“推理不再繫結單一架構”的訊號。

“超低延遲推理等不適合GPU處理的極端場景,就可以交付給LPU。”晶片架構師方曉表示,“相當於開了一條高速通道專門服務客戶。”

事實上,LPU並非橫空出世。Groq成立於2016年,其核心架構設計同樣誕生於上一個AI時代。但過去很長時間裡,這類專用晶片始終沒有進入主流市場。

轉折點出現在系統級創新成為行業共識之後。

據悉,2025年初輝達首次向合作夥伴開放NVLink互聯生態後,Groq主動尋求接入機會,希望獲得這一原本用於GPU之間通訊的協議支援。

隨著GPU與LPU協同運行的可能性得到驗證,雙方合作開始具備現實基礎。而輝達自身戰略的變化,帶來更大的想像空間。

AI系統架構師徐先生觀察到,未來針對Transformer推理範式設計的新型晶片會越來越多。“通過單顆晶片實現領先的時間正在縮短。”他表示,“而憑藉系統級架構創新,輝達的領先優勢很可能從幾個月拉長到1-2年。

換句話說,對於輝達而言,引入LPU並非為了取代GPU,而是希望找到更適合承擔特定推理任務的角色。(關於當前業內異構方案的真實落地情況,歡迎加入作者微信 Evelynn7778 交流)

專業化分工為LPU帶來新的機遇,但能否把機會變成市場,卻是另一回事。當越來越多企業開始扎堆LPU賽道,一個更現實的問題正浮出水面:LPU被寄予厚望的技術優勢,含金量到底有多大?

02. LPU的兩張王牌,有多少含金量?

LPU最常被提及的“看家”本領之一,是Groq引以為傲的編譯器及其靜態調度能力。

方曉認為,外界對LPU最大的誤解,是將其優勢簡單歸結為單晶片性能。

“單晶片的確定性延遲並非LPU獨有,所有ASIC都能做到。真正難的是多晶片間、機櫃間和叢集間的精確編排。”在她看來,這才是LPU最深的護城河,也是國內非大廠企業很難突破的壁壘。

但曾在大廠負責晶片軟體棧設計的Tim對此持保留態度,認為編譯能力的價值與模型形態密切相關。

在CNN時代,模型結構豐富、算子種類繁多,編譯器擁有許多大顯身手的可能。但隨著Transformer成為行業主流,大模型的核心算子不斷收斂,大量層結構高度重複。

這反而縮小了編譯器能夠發揮的最佳化空間。”Tim直言。

與此同時,MoE(Mixture of Experts,混合專家)等動態架構的興起,也在削弱全靜態系統的優勢。

“現在這個時代,幾乎所有頂流模型都有MoE結構。”Tim說,“推理時具備的動態性,對全靜態系統並不是特別友好。

他進一步解釋,不同請求在推理過程中啟動的專家組合並不相同,而這些資訊在編譯階段無法提前獲知。

對此,Mark也表達了類似觀點,他創辦的非GPU晶片企業,目前已獲得多家頭部美元基金投資。

為了保證系統始終按照預定節奏運行,編譯器只能先為最壞情況做打算。”他指出,“被固化的硬體側也需要保留一定冗餘來維持整體同步,這使得部分理論優勢會被抵消。”

圍繞LPU的軟體能力,業內尚未形成統一結論。相比之下,另一張儲存“王牌”SRAM似乎更容易被量化。不少從業者表示,這才是LPU最核心的競爭力。

輝達公開的資料顯示,單顆Groq 3 LPU SRAM頻寬為150 TB/s,大約是採用H100 HBM3的45倍。在256顆LPU組成的LPX機櫃中,總頻寬進一步被推高至40 PB/s(註:1 PB/s=1000 TB/s)。

除高頻寬能力外,晶片行業從業者楊越認為這一路線的優勢還在於繞開了HBM供應鏈和先進封裝的限制。

在當前AI晶片成本結構中,儲存的影響力持續上升。Epoch AI資料顯示,HBM佔AI晶片元件成本的比例已經從2024年初的52%增長至2025年底的63%。

當越來越多成本被HBM吞噬時,市場開始重新審視SRAM路線的價值,但分歧依舊存在。

資深晶片產品負責人顧玥直言:“SRAM其實是LPU巨大的缺陷。”她認為,SRAM最大的特點是快,但代價是容量小、單位成本高。

它更像晶片裡的法拉利,賣點是性能,而不是性價比。”顧玥形容道。

不過,IO資本創始合夥人趙佔祥並不完全認同這種看法。他認為,單純比較儲存單價並沒有太大意義。

“相比SRAM只有幾百MB,HBM動輒幾十GB甚至上百GB。即便SRAM單位價格比HBM貴,但在容量差距面前,HBM最終承擔的總成本反而可能更高。

SRAM也有自己的容量焦慮。有十餘年經驗的晶片計算架構專家曉東指出,SRAM直接整合在晶片內部,需要與計算單元共享同一塊矽片。這意味著面積分配始終是一道難題。

“DRAM一個儲存單元只需要1個電晶體和1個電容,而SRAM需要6個電晶體。”他進一步補充,“同樣面積下,SRAM能存放的資料天然更少。”

公開資料顯示,Groq 3 LPU整合約500MB SRAM,而TPU 8i約為384MB。雖然Cerebras WSE-3憑藉晶圓級整合方案將容量提升至44GB,但代價是良率和成本的雙重暴擊。

討論SRAM便宜還是昂貴有不同的角度。而更值得拷問的其實在於:推理時代究竟該用什麼指標衡量價值?

Mark認為是Token。在他看來,一場從“系統成本”到“Token成本”的評價體系切換正在發生。

過去幾年,行業習慣討論“多少張卡可以部署一個模型”。因此,大量廠商都在強呼叫更少GPU完成部署。

“但當推理部署規模大到一定程度時,最小系統成本已經不再是首要考量。”Mark說。

他舉例稱,一些方案雖然可以用8張GPU完成模型部署,但推理成本未必最低。而在DeepSeek公開採用144張卡建構推理叢集後,行業開始意識到另一種可能性。

“儘管整體系統成本顯著提高,但更大的叢集規模換來了更高的頻寬、更高的Token吞吐量以及更低的單位Token成本。”Mark分析。

由此SRAM的價值也將被重新考量。只是這套邏輯是否能夠長期成立,仍有待檢驗。

分歧尚未消失,LPU的優勢代價也真實存在。但至少有一點已經形成共識:LPU已經拿到了推理系統的入場券。

而其接下來要回答的,是市場一直追問的另一個現實問題——這是一門能夠持續賺錢的生意嗎?(有關推理加速晶片的更多前景,可加入作者微信 Evelynn7778 互通有無。)

03. 推理時代需要「法拉利」,但誰來買單?

在獲得輝達加持之前,Groq已憑藉獨立的端到端推理部署能力,拿下沙烏地阿拉伯推理基礎設施項目、在歐洲部署大型算力中心,並進入Meta的Llama生態。

從這個角度看,Groq的能力並不完全來自技術。

“選擇押注這條賽道的企業一定要有目標客戶。”趙佔祥解釋,“因為軟體再怎麼編譯,最終還是要針對具體應用進行最佳化。”

換句話說,LPU的商業化難點不只在於技術實現,還取決於是否有人願意買單。但一個不容忽視的問題是——最需要LPU的人,往往也最有能力自研。

徐先生觀察到,已經有大模型公司和網際網路大廠開始行動。“相對於GPU來說,LPU會簡單很多,只要給一兩年時間就能做出來。”他表示。(更多大廠推理加速晶片自研內幕和進展,歡迎加入作者微信 Evelynn7778 一起交流)

但潛在客戶變對手還不是最壞的消息。“創企想靠LPU活不下去,需要找到‘大眾’。輝達是在擁有‘大眾’的基礎上,再增加一輛‘法拉利’,屬於錦上添花。”顧玥直言。

Mark指出,這種分工未來還會繼續深化。“Attention和FFN之間的解耦程度很高,中間通訊頻寬要求並不高。”因此在他看來,異構系統並不會帶來外界想像中的巨大成本。

Tim也認為,未來推理方案大機率會以異構形態存在。“當每一點最佳化都能帶來上億美元回報時,研發成本很容易被攤薄。”

不過即便異構趨勢成立,市場對於獨立LPU公司的前景依然存在疑慮。

據趙佔祥觀察,很多企業已經在探索類似路線——用大容量SRAM和分佈式儲存來完成推理的工作負載。“只不過現在統一叫LPU”。他一語道破。(作者長期跟蹤相關項目進展,歡迎加入微信 Evelynn7778 交流)

方曉聯想到DPU的發展歷程。2020年前後,隨著DPU概念興起,大量創業公司湧入賽道,幾年過去後,不少企業轉型。在她看來,LPU有可能重演類似劇本,原因之一在於漫長的市場培育周期。

趙佔祥解釋,任何一種新計算架構都需要時間沉澱,恰如輝達GPU歷經十年才實現大規模普及。

但這對於創業企業來說,卻是最致命的風險。作為高度專用化的ASIC,LPU天然依賴當前主流模型架構。如果未來基礎模型改弦更張,相關最佳化價值也可能被重新評估。

對此,Mark也從另一角度給出回應:“這反而給了創業公司機會,因為大廠未必願意承擔這種高風險。”

而曉東則相對樂觀。他指出,從CNN時代的AlexNet引爆現代深度學習浪潮開始,過去十餘年AI範式雖然不斷演進,但底層邏輯並未發生根本改變。未來的新架構更可能是Transformer的Plus版。

Tim也給出了類似判斷:“只要模型仍然需要從海量知識中篩選、呼叫和組合資訊,對高頻寬的需求就不會消失。基於這個需求來設計晶片,即使Transformer被替代,晶片本身也不會因此作廢。”

市場從不缺乏新晶片的故事。真正決定一家LPU企業能否活下來的,未必是它擁有多先進的架構,而是它能否在市場成熟之前找到客戶、場景與生態。

畢竟,推理時代或許確實需要越來越多“法拉利”。但對於大多數創業公司而言,比造出一輛法拉利更難的,是找到那個願意長期購買“大眾+法拉利”組合的人。 (雷峰網)