黃仁勳200億美元買的是Jonathan Ross這個人。
「黃仁勳這200億美元,買的其實就是Jonathan Ross這個人 ,押注在此輝達未來可能會賺回三倍的錢,所以200 億美元實在不算貴。」某投資人近日向雷峰網透露。
2025年12月24日,輝達以其史上最大規模交易額200億美金,將推理晶片獨角獸Groq的核心技術與團隊收入麾下。Groq創辦人、GoogleTPU初代核心開發者Jonathan Ross帶隊加盟輝達,其獨創的LPU晶片技術將融入輝達AI Factory架構。
當下AI產業正從“規模競賽期”轉向“效率價值兌換期”,推理側需求大於訓練側需求已成為普遍共識。
面對推理市場的爆發式成長,Groq的專屬LPU晶片以5-10倍於GPU 的速度優勢,以及1/10的成本優勢,成為異軍突起的核心玩家,而黃仁勳最終還是選擇了將這條攪動市場的鯰魚收入囊中。
這究竟是招安潛在對手的緩兵之計,還是壟斷推理市場的霸權佈局?
01
2026年CES大會期間,輝達管理層在面向投資者的會議上強調,此次收購Groq不會對核心業務產生衝擊,反而將為公司開闢全新的成長空間。
而這樁被包裝成「非獨家技術授權」的交易,本質是矽谷近年來流行的「收購式招聘」的升級版:用授權的名義實現「人才+技術」的雙收。
瑞銀分析師團隊在研報中直言:“這是一場沒有收購之名的完全收購,輝達用最小的監管風險,獲得了最核心的戰略資產。”
根據披露信息,輝達所支付的200億美元中,130億已即時到帳,剩餘款項中包含核心員工的股權激勵,其中Groq CEO Jonathan Ross個人獲得數億美元輝達股權。團隊核心成員幾乎全員轉入輝達,晶片設計、編譯器開發等核心資產也盡數歸入輝達體系。
「黃仁勳這200億美元買的其實就是Jonathan Ross這個人,因為Jonathan Ross是個非一般意義的天才。如果拿黃仁勳類比傑夫里辛頓(深度學習教父)的話,那Jonathan Ross就要類比伊利亞(OpenAI聯合創始人兼首席科學家)。」苔蘚花園播客主理人、資深募資投資新籌網。
身為Google初代TPU的核心設計者,Jonathan Ross早在2016年Groq成立時就已預判推理將成為規模化難題,並率先提出「推理市場規模終將遠超訓練」。他提前洞悉到推理的核心需求是“低延遲、高能效、低成本”,而不是計算密度。因此他摒棄了GPU架構改良思路,從零打造專為推理設計的LPU架構。
LPU架構完全圍繞著「消除資料搬運延遲」展開,採用無外置記憶體、全片上SRAM作為主記憶體的設計,片上頻寬達80TB/s,是Blackwell B300 的HBM頻寬8TB/s的10倍。
成本方面,Jonathan Ross曾在福布斯獨家專訪中公開聲明,“Groq LPU在LLM推理速度快10倍同時,成本是Nvidia GPU的1/10,功耗是Nvidia GPU的1/10。”
這種集性能與成本優勢於一身的提升,精準擊中了輝達在推理賽道的核心短板,也成為黃仁勳不惜斥資200億果斷出手的關鍵所在。
另一方面,回溯輝達過往的併購佈局便不難發現,這場交易也並非偶然。
2000年,輝達以7,000萬美元+100萬股普通股收購了3dfx核心圖形資產,奠定GPU領域統治基礎;2013年,收購了HPC編譯器龍頭PGI,強化了CUDA生態在高效能運算領域的核心支撐;2019年,以約69億美元收購了Mellanox,全程資料中心網路數據中心。
王韋華認為,「LPU現在已經不是0億美金市場了,但黃仁勳再次早於別人發現了LPU的重要性。輝達現在收購Groq,甚至比2019年收購Mellanox的重要性要更大,這一步直接讓輝達在推理端領先兩三年。雖然在輝達整個數據中心的槓桿作用中佔比大優勢,但只要在經濟上保持巨大推理。
儘管Groq目前的市佔率遠未對輝達構成直接威脅,但它掌握的可重構資料流架構,代表了AI推理的未來方向。輝達此次用200億美元「買斷」這條技術路線,正是「技術補位+生態壟斷」併購策略的延續。
而這種不計短期成本、鎖定長期技術優勢的大手筆操作,底氣完全來自其充沛到近乎「過剩」 的現金流。根據輝達最新財報,光是2026財年Q3,輝達的自由現金流便達到了220.89億美元。
02
當下,全球僅有兩個團隊掌握TPU架構技術:Google與Groq。
在此之前,Google憑藉TPU訓練出優質模型引發市場關注,導致輝達股價受挫,此次收編補齊了其在TPU架構路線上的短板,在鞏固行業地位的同時為其估值提供了重要支撐。
王韋華表示,「輝達這次押注LPU不單是為了對抗谷歌的TPU,TPU專注於矩陣運算,更多還是強調在訓練方面的優勢。LPU 其實跟TPU 相比的話,更專注於推理這一塊。以後在推理這塊誰能省最多的電?目前在速度上面最有優勢?
身為GoogleTPU的核心締造者,Jonathan Ross深知GPU處理線性代數運算時的架構冗餘,離開Google後他以第一原理為核心,選擇SRAM作為核心儲存、透過編譯器規劃資料路徑,打造低延遲LPU產品,其TPU開發經驗直接決定了Groq「順序延遲優先」的技術路線。從GoogleTPU的靈魂人物,到出走自立門戶成立Groq,過程中的勢力角逐,歡迎加入作者微信 IHAVEAPLANB- 交流。
業內人士告訴雷峰網,TPU架構的運算效率遠超GPU的原因在於,GPU需經歷「運算-傳資料至儲存-讀寫-再運算」的循環,而TPU採用片上儲存直接運算,省去了資料往返儲存的環節,效率極高。
當token的吞吐量效率落地到使用者體驗層面,Jonathan Ross表示,回應時間每縮短100 毫秒,桌面端用戶參與度就能提升8%,行動裝置更是高達34%。業界早已形成共識:當使用者體驗的回應時間控制在250到300毫秒以內時,商業收益才能最大化。
根據Groq 官方訊息,實測數據顯示Groq LPU在運行Llama 3.3 70B模型時,token生成速度達284tokens/s,首token響應時間僅為0.22s,運行混合專家(MoE)模型時更是突破460 tokens/s。
圖片來源:Groq官網
這種極致性能讓Groq斬獲沙烏地王國15億美元業務承諾資金,也讓輝達意識到,要統治推理市場需補齊這一短板。
輝達先前推出的H200、B300等推理優化晶片,本質仍是基於GPU架構的改良,未能突破馮諾依曼架構的先天局限,而谷歌TPU、AMD MI300等競爭對手,均在專用推理架構上持續發力。
更嚴峻的是,Meta、Google等大客戶開始尋求算力供應多元化,Anthropic甚至宣佈接入100萬個谷歌TPU建構計算集群。在此背景下,收購Groq成為輝達快速搶佔推理高地、留住核心客戶的最優解。
「輝達真正擅長的是訓練,在這一領域它是最出色的。輝達既不提供高速的token處理服務,也沒有低成本的token解決方案,這便是Groq要解決的問題。”
在被輝達納入麾下之前,Jonathan Ross曾在播客中公開聲明,輝達與Groq並非競爭對手,二者的產品完全是不同維度的存在。然而事實果真如此嗎?
某機構分析師張簡告訴雷峰網:「輝達要忌憚的,是Groq代表的「去GPU化」技術路線可能引發的產業變革。輝達的霸權建立在「GPU+CUDA生態+HBM/CoWoS稀缺產能「的三重護城河上,而Groq的技術路線恰恰繞開了這三大壁壘:可重構架構無需依賴CUDA生態,採用GlobalFoundries和三星代工,不佔用台積電稀缺的CoWoS產能。”
「一旦這條路線跑通,意味著AI晶片的生產門檻將大幅降低,其他設計公司無需依賴稀缺供應鏈就能大規模生產推理晶片。輝達以200億美元收編Groq,意味著將這條潛在的顛覆路線握在自己手中,確保算力革命的主導權不旁落。”
03
「為了成為心血管外科醫生,你不可能花費一生95%的時間接受培訓,真正手術的時間只佔5%。實際情況恰恰相反:你經過短暫培訓,隨後便會用餘生持續實踐這項技能。」對於推理市場未來的演進趨勢,Jonathan Ross曾打過這麼一個比方。
2025年初Deepseek橫空出世時,Jonathan Ross將其稱為AI行業的「斯普特尼克時刻」;當下,推理市場也許將再次進入「斯普特尼克時刻」。
據悉,在收購Groq後輝達會將LPU作為專用的DAC硬體單元嵌入CUDA生態系中,以維持CUDA編程的通用性。短期內,輝達會透過NVFusion快速整合LPU;長期來看,則會在底層架構和編譯器層面實現協同設計,從而滿足效能場景下的高效能需求。
由於推理場景和訓練場景有顯著差異,無法透過單一架構解決所有問題,不同推理場景對大模型的工作負載要求各異,所以推理晶片架構將呈現多樣化,需要針對細分場景進行最佳化。
業界人士爆料,輝達下一代Feynman GPU或將於2028年整合Groq的LPU單元,採用類似AMD X3D方案的獨立晶片堆疊設計,即利用台積電的SoIC混合鍵技術將3D V-Cache晶片整合到主運算晶片上。
可能搭載LPU單元的Feynman晶片,圖片來源:Wccftech
考慮到SRAM的擴展性有限,將其作為單元晶片整合到Feynman GPU中可能並非明智之舉,因為在先進製程上構建SRAM將導致高端矽片的浪費,並大幅增加每片晶圓面積的使用成本,因此輝達很可能會將LPU單元堆疊到Feynman晶片上。
「這樣一來,像A16(1.6奈米)這樣的晶片將用於主Feynman晶片,而獨立的LPU晶片將包含大型SRAM存儲體。此外,為了將這些晶片連在一起,台積電的混合鍵合技術至關重要,因為它能提供更寬的接口,並且與封裝外存儲器相比,每比特能耗更低。
可要做到上述也絕非易事,目前的主要問題仍在於CUDA在LPU風格執行中的行為方式,因為它需要明確的記憶體佈局,而CUDA核心設計初衷是為了實現硬體抽象。對於輝達團隊而言,在AI架構中整合SRAM難度極高,這需要「工程奇蹟」來確保LPU-GPU環境得到充分最佳化。
然而,如果輝達想要主導推理市場,這或許是其願意付出的代價。
本文作者長期聚焦海外To B半導體科技巨頭,更多公司動態、產業邏輯、價值投資訊息,歡迎加入作者微信IHAVEAPLANB-交流探討。(雷峰網)