#Groq
頻寬戰爭前夜,“中國版Groq”浮出水面
在AI算力賽道,輝達憑藉Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻互動推理任務中的延遲短板愈發凸顯。為破解這一痛點,輝達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。這一金額不僅創下輝達歷史最大手筆交易、刷新了推理晶片領域的估值紀錄,更鮮明地昭示著輝達從“算力霸主”向“推理之王”轉型的意志。緊隨這一動作,據技術博主AGF消息進一步披露,輝達計畫在2028年推出新一代Feynman架構GPU——採用台積電A16先進製程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度整合Groq那套專為推理加速而生的LPU(語言處理單元),相當於給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“頻寬牆”與“延遲瓶頸”。這些動作表明:AI行業的競爭正從單純的算力比拚,轉向對單位面積頻寬的極致追求——這與輝達此前“大模型推理90%的延遲源於資料搬運,導致算力利用率常低於30%”的結論不謀而合。無獨有偶,AMD通過3D V-Cache持續驗證儲存靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理晶片公司,更是聚焦流式執行與片上頻寬建構核心競爭力,用實際行動印證這一行業共識。頻寬戰爭打響,誰是“中國版Groq”?回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI晶片企業集體爆發並密集衝擊IPO,資本熱度居高不下。然而,當輝達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“頻寬牆”問題,誰就握住了下一輪周期的入場券。在這一背景下,國內賽道湧現出前瞻性佈局者。近日,半導體行業觀察注意到,一家源於北京大學物理學院的AI晶片公司——寒序科技(ICY Technology),宣佈完成數千萬元人民幣新一輪融資。這家企業以“超高頻寬推理晶片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。“中國版Groq”的名號,初見端倪。實際上,寒序科技的技術披露並非偶然,而是源於在內部保密原則下的長期的低調深耕。早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、電腦學院、積體電路學院,以及澳門大學模擬與混合訊號積體電路全國重點實驗室,先後承擔、主持兩項北京市科技計畫項目。他們前瞻性地鎖定0.1TB/mm²/s超大頻寬流式推理晶片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與頻寬指標。這意味著,當Groq因LPU爆紅被視為“推理新範式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。據瞭解,寒序科技採用“雙線佈局”建構核心競爭力:一方面,已發佈SpinPU-M系列磁機率計算晶片,推出1024位元全連接伊辛退火求解硬體,覆蓋組合最佳化與量子啟髮式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算晶片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機儲存器)為核心介質,建構超高頻寬磁性流式處理架構。能看到,寒序科技並未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想像力的技術路線。眾所周知,當前主流的AI計算範式面臨多重困境:採用HBM的GPU方案,頻寬受限於昂貴的2.5D/3D先進封裝,核心儲存器件HBM產能被海外巨頭壟斷且面臨出口管制;採用SRAM的Groq方案,則因SRAM單元面積大、成本高,單晶片儲存容量有限,難以規模部署千億參數大模型。面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行儲存與計算。而這種底層邏輯的革新,正是源於MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與快閃記憶體的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝相容性,能夠大幅降低對複雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。與SRAM方案相比,MRAM技術的差異化優勢十分突出:儲存密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個儲存單元由6個電晶體(6T)組成,儲存密度低,儲存容量小,儲存典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU晶片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然採用1T1M(1個電晶體+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個電晶體的儲存功能,同等晶片面積和工藝節點下,儲存密度是SRAM的5-6倍。工藝成本更低:MRAM的物理結構優勢,使其在國產工藝製程即便落後一代的情況下,性能指標也能對標甚至超越採用先進製程的SRAM方案。這意味著MRAM無需追逐極先進製程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。非易失性與高能效:MRAM斷電後資料不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和雲端的大規模部署提供極佳能效優勢,大幅降低運行成本。通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為晶片級系統性能。據悉,SpinPU-E晶片架構的目標是將訪存頻寬密度提升至0.1-0.3TB/mm²·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是輝達H100(0.002-0.003 TB/mm²·s)的數十倍。據瞭解,輝達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,並通過多級快取、動態調度和共享儲存來適配高度平行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部儲存(HBM)和複雜記憶體層級的高度依賴。該計算過程呈現出強序列性、小批次和頻寬主導等特徵,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級快取和共享儲存來訪問,資料到達計算單元的時間並不固定,不同計算單元之間也需要反覆等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。而寒序科技採用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,並圍繞推理資料流建構多級流水執行路徑,使權重和中間啟動在局部高頻寬範圍內按固定順序流動。通過在硬體層面同時約束儲存位置、訪存頻寬、通訊路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部儲存訪問依賴,實現更高的頻寬與更快、更穩定的推理性能。值得關注的是,MSA架構並非簡單的存內計算概念,而是圍繞推理場景,對資料流組織、儲存-計算耦合方式以及執行節拍進行重新設計,在保證超高頻寬的同時,顯著降低對先進製程與複雜封裝的依賴。有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的訊號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積頻寬與執行範式。走出北大實驗室的秘密武器——“天時地利人和”SpinPU-E展現出的性能優勢,並非偶然的技術選擇,而是核心團隊跨學科積澱、全鏈條技術把控與前瞻性路線佈局的成果。據報導,寒序科技是國內首個有能力跑通從物理、材料、器件到異質整合、晶片設計、演算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積澱,核心成員橫跨凝聚態物理、電子科學、電腦技術、人工智慧等多領域:首席執行長朱欣岳兼具凝聚態物理、人工智慧演算法與積體電路的交叉背景,曾主導多模態AI演算法開發、多顆高性能專用晶片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾於清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁儲存/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。相比純粹的架構創新,寒序科技這種“材料-器件-晶片-系統-演算法”的全鏈條視野和全端攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同最佳化與突破,而非僅停留在邏輯和架構層面的修補。這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理晶片起步,逐步延伸至加速卡、伺服器系統、資料中心叢集,最終建構了雲服務平台,形成了“晶片-硬體-系統-雲服務”的全端佈局。沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯晶片為起點,向上建構硬體產品矩陣,最終通過雲服務觸達更廣泛市場的全端路徑,以建構更強的技術壁壘和產業競爭力。更關鍵的是,這條路徑並非簡單的模式復刻,而是基於本土產業現狀的創新破局——當行業苦於HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新範式,在中國本土成熟供應鏈基礎上,築起了一座對標全球頂尖推理性能的頻寬高地。這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。MRAM開啟新型儲存“黃金時代”破局“頻寬封鎖”寒序科技對MRAM技術的探索並非孤例,背後是一場從“備選”走向“必選”的新型儲存技術浪潮。尤其是在全球半導體產業的演進與地緣政治激盪背景下,為MRAM在內的新型儲存鋪就了一條通往AI算力核心舞台的“黃金賽道”。2024年12月,美國商務部工業與安全域(BIS)發佈新出口管制規則,明確限制向中國出口記憶體頻寬密度超過2GB/s/mm²的尖端儲存器。這一封鎖點,直指AI推理晶片的命門——頻寬。目前,輝達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外儲存原廠壟斷,且受限於複雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM記憶體的單卡售價2萬美金),在先進製程微縮上也已近極限。在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基於國產28nm/22nm等成熟製程實現超高頻寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一儲存技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落後局面和SRAM對先進製程的依賴,為AI算力產業打造自主可控的“第二曲線”。全球共振,商業化拐點已至?當前,產業界正在用實際行動表明,MRAM不再只是實驗室裡的美好構想,而是憑藉獨特優勢正成為全球半導體產業佈局的重點。其中,晶圓代工龍頭與晶片大廠均在積極佈局:台積電、三星、英特爾、SK海力士、IMEC等憑藉其先進的技術研發和大規模生產製造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和整合度。恩智浦與台積電合作推出16nm FinFET車規級eMRAM,應用於其S32系列高端MCU,實現寫入速度比傳統快閃記憶體快10-15倍、耐久性超百萬次;瑞薩電子也推出了基於22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積澱。據LexisNexis資料統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降並不代表興趣的下降,而是專利申請和公開之間的時間存在滯後。這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型儲存技術的發展機遇,積極佈局相關領域。RRAM領域湧現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真儲存、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對於RRAM基於電子電荷遷移,是一種統計物理範疇下的阻變器件;MRAM的存取機理是基於自旋的確定性兩態翻轉,更加可控、精準,大規模製造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被台積電等半導體巨頭作為下一代面向AI的儲存技術重點押注。具體來看,本土MRAM廠商各有側重,多數主要集中於儲存、加密、嵌入式控制等傳統領域,例如:致真儲存專注於磁性隧道結(MTJ)的核心器件研發與製造工藝,掌握從材料研發到器件製造的全鏈路技術,擁有國內唯一的8英吋磁儲存晶片專用後道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研製出全球首顆8Mb容量自旋軌道力矩磁隨機儲存器晶片(SOT-MRAM),實現SOT-MRAM容量規模化突破。馳拓科技專注於MRAM儲存晶片的技術研發與生產製造,建有12英吋MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,儲存器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。凌存科技專注於儲存模組開發,致力於將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的儲存器MeRAM原型機及基於MeRAM的真隨機數發生器晶片,產品廣泛應用於車載電子、高性能運算、安全等領域。寒序科技則獨闢蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質建構計算晶片,將MRAM的物理優勢轉化為算力與頻寬優勢,開闢了“磁性計算”這一全新賽道,致力於從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從儲存替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶佔全球“磁計算”的戰略高地。綜合來看,從器件、裝置、製造到系統應用,國內產業鏈的前期佈局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從儲存到計算的關鍵空白,為後續誕生更多行業廠商提供了土壤和必然性。生態共建:國產MRAM的“磁計算”革命根據市場研究機構Precedence Research資料顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同建構生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支援,積極推動MRAM這一有希望在頻寬領域實現“變道超車”的關鍵技術。同時,借鑑台積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝最佳化,爭取儘早打通“設計-製造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM晶片的流片成本與量產門檻。還有一點不可忽視。輝達收購 Groq核心技術,計畫在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI晶片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,建構差異化競爭力。產業界正釋放清晰訊號:以MRAM為代表的新型儲存,已成為後摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積澱,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI晶片產業實現換道超車的關鍵抓手。五年後,誰將主導下一代推理晶片?當摩爾線程、沐曦、天數、壁仞等國產AI晶片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標誌著中國在基於傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收穫期。如果說上一代AI晶片的競爭是“算力競賽”,那麼下一代的分水嶺將是“誰能率先跨過頻寬牆”。在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上整合路徑,用極高成本將頻寬推向極限,並因此獲得了行業霸主輝達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型儲存介質路線,為突破頻寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。數年後,當AI推理進入“頻寬決勝”的新時代,晶片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬於那些能夠率先在“頻寬戰爭”中沉澱出護城河的先行者。正如Groq在矽谷用SRAM驚豔了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依託MRAM磁性計算的新範式,給出“中國版”的實現路徑——並且,這條路,他們早在多年前,就已開始默默鋪設。 (半導體行業觀察)
輝達,築起新高牆
日前,輝達一下子解密了六顆晶片,引起了全球轟動。但其實早在去年年底,就有一則重磅消息在AI晶片圈炸響:推理晶片初創公司 Groq 宣佈,已與輝達達成一項“非獨家許可協議”。公告只有寥寥數語,但隨之而來的資訊卻迅速改變了這筆交易的份量——Groq 創始人兼 CEO Jonathan Ross、總裁 Sunny Madra 以及多名核心成員,將一併加入輝達,參與授權技術的推進與規模化。如果只看形式,這並不是一次收購;如果只看結果,它卻幾乎具備了收購的全部要素。技術被許可,團隊被吸納,關鍵人物離場,Groq 雖然名義上繼續營運,但其最具決定性的資產——技術路線與靈魂人物——已然轉移。這是一種典型的“收購式招聘”,也是輝達近年來愈發嫻熟的一種操作方式:在不觸碰監管紅線的前提下,把潛在威脅納入自己的體系之中。更重要的是,這一步發生在一個極其敏感的時間點。AI 晶片的競爭,正在從“訓練為王”轉向“推理決勝”。輝達的 GPU 依舊牢牢統治著訓練市場,但在推理端,AMD、定製 ASIC、雲廠商自研晶片正在快速逼近,成本與供應鏈多元化成為大客戶最現實的訴求。Groq 的 LPU 正是為推理而生,主打極致低延遲和性能確定性,其創始人 Jonathan Ross 更被視為Google TPU 背後的關鍵推手——這不是一家可以被忽視的公司。因此,與其說輝達“買”下了 Groq,不如說它在競爭真正白熱化之前,提前拆掉了一段可能威脅自身根基的城梯。回看歷史,從 Mellanox 到未遂的 Arm,再到今天的 Groq,輝達並非只是在擴張版圖,而是在一磚一瓦地加高自己的防禦體系。輝達在乎的,似乎已不再是某一筆交易的得失,而是如何在訓練、推理、網路、軟體與生態的多條戰線上,同時構築起一道幾乎無法繞開的“城牆”。算力,並不是焦慮根源輝達與 Groq 達成交易,這件事本身的重要性,並不在於它是否會推出一款“非 GPU 的 AI 晶片”,而在於它暴露了輝達真正的焦慮來源。今天的輝達,幾乎已經在訓練算力層面取得了事實上的統治地位,但 AI 產業的重心正在悄然移動——從“誰能堆更多 FLOPS”,轉向“誰能更高效、更確定性地交付推理結果”。Groq 的價值並不在算力規模,而在系統哲學。它強調確定性延遲、強調編譯器對執行路徑的絕對控制、強調“推理不是硬體問題,而是系統問題”。這套思路,與 GPU 世界中長期存在的動態調度、非確定性執行形成鮮明對比。Groq 的創始人 Jonathan Ross 是 Google 第一代 TPU 的首席架構師。他在 2016 年離開 Google 後,試圖打造一個比 TPU 更快、更可控的“通用 AI 處理器”。Groq 的核心技術是自研的 LPU(Language Processing Unit)架構,這種架構拋棄了傳統的亂序執行和動態調度機制,採用靜態調度、資料路徑固定、執行流程可預測的“確定性設計”(deterministic design)。晶片內部採用 SRAM 技術,而非輝達 GPU 依賴的片外 HBM 視訊記憶體,這讓 Groq 在某些場景下實現了極致的低延遲。Groq 最初也曾試圖進入訓練市場,但很快發現這是一條死路:訓練市場的競爭邏輯是“大生態+大資本+大客戶”。Groq 的架構對主流 AI 框架(如 PyTorch、TensorFlow)的相容性有限,也缺乏成熟的編譯工具鏈,使得訓練任務的遷移成本極高。從 2023 年下半年開始,Groq 明確轉向推理即服務(Inference-as-a-Service)方向。2024 年,Groq 展示了其系統運行 Llama 2-70B 模型時,實現每秒超過 300 個 Token 的生成速度,遠超主流 GPU 系統。這一優勢讓 Groq 迅速吸引到一批對延遲敏感的垂直行業使用者,如金融交易系統、軍事資訊處理、語音/視訊同步字幕生成。Groq 將產品定位從“AI 晶片”擴展為“AI 處理平台”,通過 GroqCloud 平台向開發者提供 API 存取權,與 LangChain、LlamaIndex 等生態整合。正是這種“異類”,恰恰點中了輝達的軟肋。隨著大模型進入規模化落地階段,越來越多客戶開始關心延遲、能效、TCO 和系統複雜度,而不再只是顯示卡型號。推理正在走向碎片化:雲廠商自研 ASIC(AWS 的 Trainium 和 Inferentia、Google TPU、Microsoft Maia)、CPU+加速器混合部署、邊緣側異構系統層出不窮。如果輝達只停留在“賣最強 GPU”,它在推理端的話語權,遲早會被系統層慢慢侵蝕。對於輝達和黃仁勳而言,Groq 的意義並不是“補一塊晶片”,而是補一塊輝達尚未完全掌控的系統能力:對執行路徑的強約束、對延遲的可預測性、以及編譯器主導的算力使用方式。換句話說,如果說 GPU 是輝達的地基,那麼 Groq 代表的,是它試圖插入系統頂層的一根“控制梁”。對“叢集控制權”的長期執念而在與Groq達成交易之前,輝達其實早已悄然埋下了一條新的主線。很多人習慣從作業系統的角度理解算力生態,認為誰控制了 Linux 發行版、誰控制了核心,誰就掌握了計算世界的話語權。但在 AI 時代,這種邏輯已經開始失效。輝達對此看得非常清楚:真正重要的,不是節點上的作業系統,而是節點之上的叢集控制方式。這正是輝達在 2022 年 1 月收購 Bright Computing 的根本原因。當時這筆交易的金額未公開,但 Bright Computing 已完成兩輪融資,共籌集 1650 萬美元,其叢集管理工具 BCM 在全球擁有超過 700 家使用者。Bright Cluster Manager 並不是一個時髦的新工具,它誕生於傳統 HPC 世界,最初用於管理高度複雜、對穩定性和可預測性要求極高的超級計算系統。正因為如此,它並不追逐某一種特定技術潮流,而是長期圍繞“如何在大規模叢集中統一部署、監控、修復和調度”這個核心問題演進。BCM 最初是為管理傳統高性能計算(HPC)系統而設計的,但多年來,為了將其打造成為一款通用叢集控製器,BCM 也進行了適配,以支援 Hadoop、Spark、OpenStack、Kubernetes 和 VMware ESX 等對控制要求極高的分佈式系統。在被輝達收購併更名為 Base Command Manager 之後,這套工具被完整納入 AI Enterprise 軟體堆疊,成為輝達 AI 系統的“底層控制平面”。通過許可證模式,輝達不再只是交付硬體,而是開始按 GPU、按年份出售“系統能力”——AI Enterprise 許可證包含輝達捆綁並支援在其 GPU 加速系統上的庫、框架和其他工具,每個 GPU 每年的費用為 4500 美元。這一步的意義極其關鍵:它意味著輝達正式把“叢集管理”變成了自己的商業資產,而不是留給客戶或第三方去解決。輝達還設定了一個精妙的商業策略:對於每個節點包含 8 個 GPU 以內的叢集,提供免費的 BCM 許可證,但不提供任何技術支援,且“隨時可能被撤銷”。這意味著企業如果想要穩定的生產環境,就必須購買 AI Enterprise 許可證。免費版本不是慷慨,而是一種“試用即繫結”的策略。更重要的是,Base Command Manager 並不是孤立存在的。在其之上,輝達疊加了 Mission Control,用於自動部署所謂的“AI 工廠”:框架、工具、模型、容器運行環境、健康檢查和功耗最佳化一體化。Mission Control 包含 Run:ai 實現的 Kubernetes,用於編排容器;還包含 Docker,用於在容器內運行計算;此外,它還可以虛擬化 GPU,以提供更精細的計算粒度。Mission Control 會對系統進行健康檢查,並根據系統上運行的工作負載最佳化功耗。這套體系的目標並不是讓客戶擁有更多選擇,而是讓客戶在默認情況下就運行在輝達定義的最優路徑上。當然,這裡繞不開輝達在2024年對Run.ai的收購,Run.ai的核心價值不是又一個Kubernetes外掛,而是實現了GPU資源的抽象化管理:多租戶、彈性調度、優先順序控制、GPU虛擬化。在Run.ai的系統中,一個物理GPU可以被切分成多個虛擬實例,讓不同使用者、不同任務按需使用,同時保證隔離性和性能。為什麼輝達提前拿下了 Run:ai?因為調度權如果不在自己手裡,CUDA 生態的優勢就會被“平台化”稀釋。雲廠商可以通過調度層,讓客戶感知不到底層是誰的 GPU,甚至可以在調度中插入自研晶片作為替代選項。但就高性能計算(HPC)和人工智慧(AI)工作負載的裸機工作負載管理而言,輝達仍然需要一款工具。事實證明,BCM 正是執行這些健康檢查的工具,而解決問題的操作則通過 Slurm 工作負載管理器完成。輝達並沒有強行要求所有客戶拋棄既有體系,而是非常務實地接受了一個現實:在大量從 HPC 演進而來的 AI 叢集中,Slurm 依然是事實標準。許多高性能計算和人工智慧機構不想學習新東西——比如 Run:ai——而是想繼續使用 Slurm。對於那些最初以高性能計算中心起家的混合型人工智慧/高性能計算中心來說,這種情況可能尤為突出。這就為下一步的關鍵收購埋下了伏筆。開源不是放棄控制2025 年 12 月,輝達補上了這道牆的最後一塊磚:收購了 SchedMD,獲得了 Slurm 工作負載管理器背後的核心團隊和技術支援權。Slurm 項目始於 2001 年,由勞倫斯·利弗莫爾國家實驗室、Linux Network(已被 SGI 收購)、惠普以及 Groupe Bull(已被 Atos 收購併成立 Eviden)合作開發。據稱,Slurm 的設計靈感來源於超級電腦互連裝置製造商 Quadrics 開發的 RMS 叢集檔案總管。2010 年,該項目的兩位創始人 Morris Jette 和 Danny Auble 創立了 SchedMD,旨在為 Slurm 提供技術支援,從而為工作負載管理器的進一步開發提供資金。Slurm 最重要的優勢在於,過去十年中,在 Top500 超級電腦排行榜上出現的電腦中,約有 60% 使用 Slurm 作為其工作負載管理器,而不是 IBM/Platform Computing 的負載共享工具(LSF)、Altair 的可攜式批處理系統(PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有這些工作負載管理器/作業調度器都會將一組具有特定計算能力需求的工作負載進行“俄羅斯方塊”式的調度,最終使它們按照既定的優先順序順序高效運行。Slurm 過去十多年裡成為超級計算領域的事實標準,並不是因為它最激進,而是因為它足夠穩定、足夠中立,也足夠適配不斷變化的硬體環境。SchedMD 已向全球數百家 HPC 中心、雲建構商、超大規模資料中心和企業銷售了 Slurm 工作負載管理器的支援服務。過去十年,輝達和 SchedMD 一直在合作開發 Slurm。在輝達收購 Bright Computing 之前,BCM 支援不同的工作負載管理器,但隨著 Slurm 逐漸成為高性能計算中心乃至人工智慧領域工作負載管理的實際標準,它被選為 Bright Cluster Manager 的默認工作負載管理器,並在過去幾年中一直是輝達 Base Command Manager 的默認工作負載管理器。對輝達而言,真正危險的並不是 Slurm 開源,而是如果 Slurm 的演進方向、支援能力和企業級整合權掌握在自己控制之外,那麼整個 Base Command Manager 和 Mission Control 體系,都會留下一個無法掌控的“底座”。通過收購 SchedMD,輝達並沒有否定 Slurm 的開源屬性,反而在公開表態中反覆強調其“廠商中立性”。輝達表示,它將“繼續開發和分發 Slurm,使其成為開源、廠商中立的軟體,使其在各種硬體和軟體環境下都能被更廣泛的 HPC 和 AI 社區廣泛使用和支援”。但需要看清的是:開源並不等於沒有權力結構。誰來維護主幹程式碼、誰來提供企業級支援、誰來決定新特性的優先順序,這些問題,比許可證本身重要得多。輝達已同意為 SchedMD 的現有客戶提供支援,據推測,他們將通過聘用 SchedMD 的員工來實現這一點。但即便 Slurm 開源,也不意味著輝達會為開源版本的程式碼提供支援,或者將 Slurm 的所有未來功能都開源。輝達擁有大量專有驅動程式、框架和演算法,這個模式很可能會延續到 Slurm 身上。輝達顯然希望做到兩點:一方面,保持 Slurm 在 CPU、非輝達加速器等環境中的廣泛適用性,避免引發社區反彈;另一方面,把 Slurm 的商業支援、系統整合和 AI 方向演進,與自己的 AI Enterprise 體系深度繫結。這是一種極其典型的“高階控制”:不通過封閉程式碼來壟斷,而通過系統複雜度和服務整合來設立門檻。目前尚不清楚的是,Run:ai 和 Slurm 的功能將如何與 Base Command Manager 整合,從而為高性能計算(HPC)和人工智慧(AI)叢集提供一個自上而下的叢集和工作負載管理工具——而且不僅限於 AI 叢集,還要考慮到許多叢集中可能存在一些僅使用 CPU 的機器以及非輝達加速器。如果輝達試圖以任何方式限制它,其他人可以獲取 Slurm 程式碼(該程式碼以 GNU GPL v2.0 許可證提供),進行 fork 並繼續開發。但現實是,fork 程式碼容易,建立支援能力難。當所有人都在用同一套開源工具,但只有輝達能提供最優的整合方案時,開源本身就成了輝達生態的擴展。2024 年 10 月,輝達停止單獨銷售 Bright Cluster Manager,而僅將其作為 AI Enterprise Stack 的一部分提供。目前尚不清楚 AI Enterprise 的價格是高於還是低於之前單獨購買 Bright Cluster Manager 的許可,也不清楚有多少客戶曾在純 CPU 系統或其他類型的加速器上使用過這款早期工具。但這個動作的訊號意義很明確:輝達正在把所有系統元件打包成一個不可分割的整體。也正是在這裡,Run:ai、Slurm 和 Base Command Manager 的關係變得微妙而關鍵。前者代表雲原生和容器化世界,後者代表 HPC 傳統,而輝達的目標,是讓這兩套體系在自己的框架內完成融合,而不是彼此競爭。新的城牆,已經成型把Groq、Bright Computing、Run:ai 和 SchedMD 放在同一條時間線上看,輝達近幾年的收購邏輯就變得異常清晰:它正在系統性地收回 AI 計算體系中的“非硬體控制權”。GPU 仍然是輝達最鋒利的武器,但已經不再是唯一的壁壘。真正的新城牆,建立在三個層面之上:第一層:對叢集資源的調度權。從 Mellanox 的網路互聯技術,到 Bright Computing 的叢集管理,再到 SchedMD 的工作負載調度,輝達控制了算力如何連接、如何分配、如何排隊執行的完整鏈條。這不是簡單的硬體整合,而是把網路從“外設”變成了“AI 系統的一部分”。第二層:對工作負載執行路徑的定義權。Run:ai 提供的 GPU 虛擬化和資源抽象,Mission Control 提供的自動化部署和健康檢查,Slurm 提供的作業調度——這些工具共同定義了“任務應該怎麼跑、跑在那裡、用多少資源”。當執行路徑被輝達定義時,即使客戶理論上可以使用其他硬體,在實踐中也會發現遷移成本高得難以承受。第三層:對企業級支援與系統複雜度的掌控權。輝達通過 AI Enterprise 許可證模式,把所有這些工具打包成一個商業服務。客戶購買的不是單個元件,而是一整套“系統整合能力”。開放原始碼可以 fork,但企業級支援、最佳化經驗、最佳實踐,都掌握在輝達手中。一旦這三層疊加完成,客戶即便理論上“可以選擇別的硬體”,在實踐中也會發現遷移成本高得難以承受。從賣晶片到賣生態,輝達的商業模式已經發生質變。過去的輝達,GPU 是產品,賣出去就完成了交易。現在的輝達,GPU 是生態入口,是使用者進入輝達系統的第一步。收購的真實邏輯不是規模併購,而是精準補洞:在 AI 計算的完整鏈條中,那一環還沒有被控制?這也是為什麼說,輝達正在建構的已經不是傳統意義上的護城河,而是一座生態城牆。它不靠封鎖入口,而是通過系統整合,讓離開變得不再理性。在 AI 進入基礎設施階段之後,這種能力,或許比任何一代 GPU,都更加持久。從 Groq 到 SchedMD,從推理架構到工作負載管理,從硬體到系統,輝達用幾年時間完成了一次商業史上罕見的“生態圍城”。這座城牆的高度,已經不是用技術指標可以衡量的,而是用遷移成本、學習曲線、生態粘性來定義的。當所有人還在討論“誰能挑戰輝達的 GPU”時,輝達已經在思考:如何讓“挑戰”這件事本身變得不再可能。 (半導體行業觀察)
SRAM,取代HBM?
最近,輝達策略性收購AI 推理新秀Groq 的事件,像一顆深水炸彈,在科技界引發了強烈震盪。這場交易不僅讓LPU(張量流處理器)背後的SRAM 技術走向台前,更引發了一場關於「SRAM 是否會取代HBM」的行業大辯論。在近日舉行的CES 2026會上,有採訪者問黃仁勳相關的問題中,黃仁勳表示:“如果一切都能裝進SRAM,那確實不需要HBM,然而。。。SRAM和HBM:電子世界的“口袋”與“倉庫要理解這句話的含金量,我們得先搞清楚:這兩個縮寫到底代表了什麼?在電腦世界裡,資料儲存遵循一個鐵律:越快的東西越貴、越佔地方;越大的東西越慢。SRAM(靜態隨機存取記憶體)是目前世界上最快的儲存媒體之一,直接整合在CPU/GPU 核心旁。它不需要像DRAM 那樣定時「刷新」電量,只要有電,資料就穩如泰山。形象的來比喻,它就像是你的「襯衫口袋」。伸手即得,速度極快(奈秒),但空間極小,只能放幾張名片(幾百MB)。HBM(高頻寬記憶體)本質上仍是DRAM(動態隨機存取記憶體),我們電腦/伺服器裡最常見的記憶體條,容量大、便宜。只是用3D堆疊+ 超寬介面「貼著」GPU/加速器封裝在一起,追求的是頻寬,而不是把「每次存取的延遲」降到SRAM 那個等級。它就好像是你家樓下的「大型倉庫」。容量龐大(幾十GB),搬運貨物的「門」(頻寬)也非常寬,但你得走一段路才能到,有物理延遲。為何HBM被挑戰?過去十年,AI晶片的核心戰場只有一個:訓練。模型參數動輒百億甚至是千億級,其計算強度極高,資料多工率高、可批次處理。在這種模式下:容量第一,頻寬第二,延遲反而不敏感,這正是HBM的舒適圈。大容量、堆疊封裝、極高順序頻寬,與GPU 的大規模並行計算天然匹配。這也是為什麼,HBM幾乎成為「AI晶片= GPU」的預設前提。但當AI 走向「推理」階段(即真實世界的使用),規則改變了。在應用端也就是到推理階段,特別是人機互動和即時控制場景,延遲才是生命線。根據Groq的技術文獻,傳統GPU架構(如NVIDIA A100/H100)高度依賴HBM。 HBM 本質上是DRAM的垂直堆疊,雖然頻寬驚人,但其存取權重時仍會引入數百奈秒的延遲。在Batch Size = 1(即單次請求、零等待處理)的即時推理場景中,GPU必須頻繁地重新載入權重,導致執行停滯,效能劇烈下滑。這裡有一個「出身」問題:如下圖所示,在傳統的GPU記憶體結構當中,當處理單元引用本地快取時,會開始繁瑣的快取填充和回寫過程。這些處理單元屬於串流多處理器(SM)核心,所有核心都在動態競爭共享的DRAM 控制器。具體而言,80 個核心正在執行線程,實現總共32 個單指令多線程(SIMT),這意味著總共有2560 個線程在競爭共享DRAM 控制器中的16 個HBM2e 偽通道。這導致了漫長的等待時間,並因為對共享資源的動態競爭導致了重測序、延遲波動和不可預測的性能,從而造成系統層面的不確定性。傳統GPU記憶體層級結構(圖源:Groq技術白皮書)為了掩蓋這種延遲,傳統架構被迫增加「批次大小」(Batch Size),即攢夠256 個請求再一起處理。這在訓練中很有效,但在推理中卻導致了明顯的延遲:正如我們在ChatGPT 或Gemini 中看到的,文字往往是「蹦」出來的,而不是像真人對話那樣絲滑瞬時呈現。SRAM作「主存」為何合理?那麼,為何SRAM作為“主存”,會在推理中突然變得合理?SRAM不是因為AI才出現的,它一直存在,但長期只被當「快取(Cache)」使用。在過往發展中,CPU的L1 / L2 / L3 Cache 全是SRAM,GPU的Register File、本地Cache 也是SRAM,此外在NPU / DSP一直有小規模SRAM。過去沒有人敢、也沒必要,把SRAM 當「主記憶體」。原因很現實:面積太大、成本太高、製程縮放比邏輯電路慢。而過去幾年,業界普遍存在一種悲觀情緒:SRAM 縮放撞牆了。在台積電的5nm 到3nm 演進中,邏輯電晶體(計算單元)縮小了約1.6 倍,但SRAM 單元幾乎沒有縮小(僅約5%)。這導致在單枚晶片(Die)上,SRAM 佔用的面積越來越大,成本飆升。但Groq 採取了「反向思維」。既然SRAM 縮放慢,那我就不再把它當作“昂貴的快取”,而是利用它在先進製程下極高的開關速度和確定性。 Groq 晶片目前主要採用台積電14nm/7nm。在這些節點上,SRAM 的技術非常成熟。但Groq官方路線圖是計畫走向4nm。到了4nm 或更先進的GAA(全環繞閘極) 架構下,雖然SRAM 單元面積縮小依然緩慢,但由於靜噪邊際改善,大規模SRAM 的讀寫穩定性反而更高了。在技​​術本質上,SRAM相比DRAM的存取延遲不是“更快一點”,而是“快一個數量級”。 HBM / DRAM的典型存取延遲大約在100ns,而SRAM僅需1ns。當權重直接常駐在SRAM 中,不需要Cache 猜測、預取、等待,這不是最佳化,而是物理層級的改變。Groq LPU的核心殺手鐧是完全拋棄HBM作為主存儲,改用數百MB的片上SRAM存放模型權重。 Groq的晶片將SRAM整合在處理器內部,存取延遲僅為HBM 的幾分之一。據Groq 官方數據顯示,其片上頻寬高達80TB/s。下圖展示了GroqChip 如何利用異質線程或「直線」線程,即線程不分支,而是對應不同的執行功能單元。資料路徑在兩個方向上完全流水線化。指令垂直流水線化,而資料流向東西方向流動,在功能單元處交叉執行運算,充分利用了局部性。我們可以從記憶體讀取數值,在向量單元上運算,然後將結果存回記憶體。此外,GroqChip 將計算與記憶體存取解耦——這對於實現更高的記憶體級並行性(MLP)至關重要,使大量讀寫操作可以同時處於在途狀態。這意味著GroqChip 在單步內即可完成有效的運算與通信,提供低延遲、高效能以及可預測的準確性。GroqChip處理器記憶體架構(圖源:Groq技術白皮書)進一步的,下圖展示了GroqChip 如何有效率地展現指令級並行(ILP)、記憶體級並行(MLP)和資料級並行(DLP),採用獨特的同步計算與通訊方法。在開發完成後,控制權交給了軟體端,透過大規模並行編譯器來利用所有這些形式的並發。這促成了Groq 在Batch 1 下提供高性能的能力。在其他架構中,訓練通常採用256 批次,這意味著在應用能提供關於第一張圖像的資訊之前,必須處理並「學習」完所有256 張圖像。而Groq 在Batch 1 下運行,影像一接收就處理(無需等待256 張湊齊),不僅減少了等待,還提升了準確性。此外,Groq 架構允許開發者無需像在GPU 或其他傳統架構中那樣去平攤長延遲成本。GroqChip處理器記憶體架構(圖源:Groq技術白皮書)所以,SRAM真正的隱性優勢就是其確定性。“快”和“每次都一樣快”,是兩件完全不同的事。為什麼「不確定延遲」很可怕?看視訊卡一下,你可能只是不爽,但是自動駕駛卡一下,可能已經撞了。對工業控制、自動駕駛、金融風控、核融合、能源調度等這些場景來說,「確定性」比「平均性能」更重要。這也是為什麼Groq 在Argonne 實驗室、金融業benchmark 中特別強調「deterministic ML」。在阿貢國家實驗室(Argonne National Laboratory)的託卡馬克核融合反應器預測任務中,Groq 的確定性架構在0.6ms內實現了19.3 萬次推理(IPS),比Nvidia A100結果高出600倍以上。這是GPU 體系結構先天不擅長的向度。阿貢國家實驗室延遲關鍵型控制系統的性能對比黃仁勳怎麼看?在近日的CES 2026大會期間,有訪談者問黃仁勳:輝達已經擁有CPX 技術,並透過收購Groq 獲得了推理所需的SRAM 存取權。輝達的團隊一個月前發表了一篇關於利用CPX 減少HBM 使用的論文,建議GDDR7 可以取代HBM。展望未來,Grok (=SRAM) + 內部CPX 的組合是否能讓HBM 使用量控制在更「可控」的程度?這會對利潤率產生正面影響嗎?CPX(計算與儲存解耦/壓縮技術) 結合GDDR7 或HBM。根據輝達近期發表的論文,利用CPX 可以減少對昂貴HBM 的依賴,甚至在某些場景下用GDDR7 取代HBM。對於上述提問,黃仁勳的答覆是:「先解釋各自的優勢,再說明為什麼沒那麼簡單。CPX 在單位成本的預填充(Prefill)性能上更優。如果一切都能裝進SRAM,HBM 確實沒必要。然而,問題是這會使模型尺寸縮小約100 倍。」這就是SRAM 的致命傷:太貴了。 如果你想讓一個千億參數的大模型(如Llama 3)完全跑在SRAM 上,你可能需要成百上千顆Groq 晶片,其成本和電力消耗將是一個天文數字。黃仁勳強調,「靈活性使我們成為了通用答案。」 面對不斷變化的MoE(混合專家模型)、多模態、甚至是SSM(狀態空間模型),能夠靈活切換壓力點(NVLink、HBM 或計算單元)的架構才是資料中心TCO 的最優解。輝達收購Groq 並不代表要全面倒向SRAM,而是在補齊「極致低延遲推理」這一塊拼圖。黃仁勳指出,資料中心本質上是“有限的電力資源”,而非無限的空間。針對單一工作負載(如特定的極速推理)進行極致優化是可能的,但如果這種優化只能涵蓋10% 的任務,剩下的電力就會被浪費。有限的電力必須在整個資料中心內優化利用,因此靈活性越高越好。集成度較高的架構也更好-例如,更新DeepSeek 模型可以瞬間提升資料中心所有GPU 的表現。更新模型庫可以改善整個資料中心。明白嗎?如果擁有17 種零散的架構,這個適合那個,那個適合這個,結果就是整體TCO(總擁有成本)提升並不明顯。 「總之,CPX 確實有優勢,但也會降低資料中心的靈活性。」黃仁勳說。結論SRAM並不是突然崛起的新技術,而是在AI 推理時代,被放到了一個從未承擔過的位置。它的優勢不在於容量或性價比,而在於確定性、能效和極低延遲;它的限制也同樣明確,面積、成本,以及對模型規模的天然約束。因此,「SRAM 取代HBM」是一個偽命題,真正的命題是「AI 推理如何實現TCO 最適解」。推理不是“算力終點”,而是“用量起點”。一個常被忽略的事實是:訓練只發生一次,推理會發生數十億次。訓練像“造發動機”,推理像“上路開車”,造發動機只造一次,但上路會開很多很多次。所以推理體驗變好(更低延遲、更自然響應)帶來的結果,往往不是“HBM 用得更少”,而是:在追求極致速度的邊緣側(如AI 眼鏡、工業實時控制)和特定高性能推理場景,SRAM 確實在通過ASIC 架構蠶食HBM 的份額;但在大規模數據中心,HBM 仍然是承載海量參數的基石;對於投資者和產業從業人員而言,不應押注單一技術的勝負,而應關注儲存層級化帶來的全面機會。在這個時代,快有快的代價(SRAM 的高昂成本與低密度),慢有慢的平衡(HBM 的高頻寬與通用性),兩者將在AI 推理的星辰大海中並肩而行。(半導體產業觀察)
巨額「收編」Groq,輝達意欲何為?
黃仁勳200億美元買的是Jonathan Ross這個人。「黃仁勳這200億美元,買的其實就是Jonathan Ross這個人 ,押注在此輝達未來可能會賺回三倍的錢,所以200 億美元實在不算貴。」某投資人近日向雷峰網透露。2025年12月24日,輝達以其史上最大規模交易額200億美金,將推理晶片獨角獸Groq的核心技術與團隊收入麾下。Groq創辦人、GoogleTPU初代核心開發者Jonathan Ross帶隊加盟輝達,其獨創的LPU晶片技術將融入輝達AI Factory架構。當下AI產業正從“規模競賽期”轉向“效率價值兌換期”,推理側需求大於訓練側需求已成為普遍共識。面對推理市場的爆發式成長,Groq的專屬LPU晶片以5-10倍於GPU 的速度優勢,以及1/10的成本優勢,成為異軍突起的核心玩家,而黃仁勳最終還是選擇了將這條攪動市場的鯰魚收入囊中。這究竟是招安潛在對手的緩兵之計,還是壟斷推理市場的霸權佈局?01重金收編的核心是什麼?2026年CES大會期間,輝達管理層在面向投資者的會議上強調,此次收購Groq不會對核心業務產生衝擊,反而將為公司開闢全新的成長空間。而這樁被包裝成「非獨家技術授權」的交易,本質是矽谷近年來流行的「收購式招聘」的升級版:用授權的名義實現「人才+技術」的雙收。瑞銀分析師團隊在研報中直言:“這是一場沒有收購之名的完全收購,輝達用最小的監管風險,獲得了最核心的戰略資產。”根據披露信息,輝達所支付的200億美元中,130億已即時到帳,剩餘款項中包含核心員工的股權激勵,其中Groq CEO Jonathan Ross個人獲得數億美元輝達股權。團隊核心成員幾乎全員轉入輝達,晶片設計、編譯器開發等核心資產也盡數歸入輝達體系。「黃仁勳這200億美元買的其實就是Jonathan Ross這個人,因為Jonathan Ross是個非一般意義的天才。如果拿黃仁勳類比傑夫里辛頓(深度學習教父)的話,那Jonathan Ross就要類比伊利亞(OpenAI聯合創始人兼首席科學家)。」苔蘚花園播客主理人、資深募資投資新籌網。身為Google初代TPU的核心設計者,Jonathan Ross早在2016年Groq成立時就已預判推理將成為規模化難題,並率先提出「推理市場規模終將遠超訓練」。他提前洞悉到推理的核心需求是“低延遲、高能效、低成本”,而不是計算密度。因此他摒棄了GPU架構改良思路,從零打造專為推理設計的LPU架構。LPU架構完全圍繞著「消除資料搬運延遲」展開,採用無外置記憶體、全片上SRAM作為主記憶體的設計,片上頻寬達80TB/s,是Blackwell B300 的HBM頻寬8TB/s的10倍。成本方面,Jonathan Ross曾在福布斯獨家專訪中公開聲明,“Groq LPU在LLM推理速度快10倍同時,成本是Nvidia GPU的1/10,功耗是Nvidia GPU的1/10。”這種集性能與成本優勢於一身的提升,精準擊中了輝達在推理賽道的核心短板,也成為黃仁勳不惜斥資200億果斷出手的關鍵所在。另一方面,回溯輝達過往的併購佈局便不難發現,這場交易也並非偶然。2000年,輝達以7,000萬美元+100萬股普通股收購了3dfx核心圖形資產,奠定GPU領域統治基礎;2013年,收購了HPC編譯器龍頭PGI,強化了CUDA生態在高效能運算領域的核心支撐;2019年,以約69億美元收購了Mellanox,全程資料中心網路數據中心。王韋華認為,「LPU現在已經不是0億美金市場了,但黃仁勳再次早於別人發現了LPU的重要性。輝達現在收購Groq,甚至比2019年收購Mellanox的重要性要更大,這一步直接讓輝達在推理端領先兩三年。雖然在輝達整個數據中心的槓桿作用中佔比大優勢,但只要在經濟上保持巨大推理。儘管Groq目前的市佔率遠未對輝達構成直接威脅,但它掌握的可重構資料流架構,代表了AI推理的未來方向。輝達此次用200億美元「買斷」這條技術路線,正是「技術補位+生態壟斷」併購策略的延續。而這種不計短期成本、鎖定長期技術優勢的大手筆操作,底氣完全來自其充沛到近乎「過剩」 的現金流。根據輝達最新財報,光是2026財年Q3,輝達的自由現金流便達到了220.89億美元。02為什麼是Groq?當下,全球僅有兩個團隊掌握TPU架構技術:Google與Groq。在此之前,Google憑藉TPU訓練出優質模型引發市場關注,導致輝達股價受挫,此次收編補齊了其在TPU架構路線上的短板,在鞏固行業地位的同時為其估值提供了重要支撐。王韋華表示,「輝達這次押注LPU不單是為了對抗谷歌的TPU,TPU專注於矩陣運算,更多還是強調在訓練方面的優勢。LPU 其實跟TPU 相比的話,更專注於推理這一塊。以後在推理這塊誰能省最多的電?目前在速度上面最有優勢?身為GoogleTPU的核心締造者,Jonathan Ross深知GPU處理線性代數運算時的架構冗餘,離開Google後他以第一原理為核心,選擇SRAM作為核心儲存、透過編譯器規劃資料路徑,打造低延遲LPU產品,其TPU開發經驗直接決定了Groq「順序延遲優先」的技術路線。從GoogleTPU的靈魂人物,到出走自立門戶成立Groq,過程中的勢力角逐,歡迎加入作者微信 IHAVEAPLANB- 交流。業內人士告訴雷峰網,TPU架構的運算效率遠超GPU的原因在於,GPU需經歷「運算-傳資料至儲存-讀寫-再運算」的循環,而TPU採用片上儲存直接運算,省去了資料往返儲存的環節,效率極高。當token的吞吐量效率落地到使用者體驗層面,Jonathan Ross表示,回應時間每縮短100 毫秒,桌面端用戶參與度就能提升8%,行動裝置更是高達34%。業界早已形成共識:當使用者體驗的回應時間控制在250到300毫秒以內時,商業收益才能最大化。根據Groq 官方訊息,實測數據顯示Groq LPU在運行Llama 3.3 70B模型時,token生成速度達284tokens/s,首token響應時間僅為0.22s,運行混合專家(MoE)模型時更是突破460 tokens/s。圖片來源:Groq官網這種極致性能讓Groq斬獲沙烏地王國15億美元業務承諾資金,也讓輝達意識到,要統治推理市場需補齊這一短板。輝達先前推出的H200、B300等推理優化晶片,本質仍是基於GPU架構的改良,未能突破馮諾依曼架構的先天局限,而谷歌TPU、AMD MI300等競爭對手,均在專用推理架構上持續發力。更嚴峻的是,Meta、Google等大客戶開始尋求算力供應多元化,Anthropic甚至宣佈接入100萬個谷歌TPU建構計算集群。在此背景下,收購Groq成為輝達快速搶佔推理高地、留住核心客戶的最優解。「輝達真正擅長的是訓練,在這一領域它是最出色的。輝達既不提供高速的token處理服務,也沒有低成本的token解決方案,這便是Groq要解決的問題。”在被輝達納入麾下之前,Jonathan Ross曾在播客中公開聲明,輝達與Groq並非競爭對手,二者的產品完全是不同維度的存在。然而事實果真如此嗎?某機構分析師張簡告訴雷峰網:「輝達要忌憚的,是Groq代表的「去GPU化」技術路線可能引發的產業變革。輝達的霸權建立在「GPU+CUDA生態+HBM/CoWoS稀缺產能「的三重護城河上,而Groq的技術路線恰恰繞開了這三大壁壘:可重構架構無需依賴CUDA生態,採用GlobalFoundries和三星代工,不佔用台積電稀缺的CoWoS產能。”「一旦這條路線跑通,意味著AI晶片的生產門檻將大幅降低,其他設計公司無需依賴稀缺供應鏈就能大規模生產推理晶片。輝達以200億美元收編Groq,意味著將這條潛在的顛覆路線握在自己手中,確保算力革命的主導權不旁落。”03推理市場變天?「為了成為心血管外科醫生,你不可能花費一生95%的時間接受培訓,真正手術的時間只佔5%。實際情況恰恰相反:你經過短暫培訓,隨後便會用餘生持續實踐這項技能。」對於推理市場未來的演進趨勢,Jonathan Ross曾打過這麼一個比方。2025年初Deepseek橫空出世時,Jonathan Ross將其稱為AI行業的「斯普特尼克時刻」;當下,推理市場也許將再次進入「斯普特尼克時刻」。據悉,在收購Groq後輝達會將LPU作為專用的DAC硬體單元嵌入CUDA生態系中,以維持CUDA編程的通用性。短期內,輝達會透過NVFusion快速整合LPU;長期來看,則會在底層架構和編譯器層面實現協同設計,從而滿足效能場景下的高效能需求。由於推理場景和訓練場景有顯著差異,無法透過單一架構解決所有問題,不同推理場景對大模型的工作負載要求各異,所以推理晶片架構將呈現多樣化,需要針對細分場景進行最佳化。業界人士爆料,輝達下一代Feynman GPU或將於2028年整合Groq的LPU單元,採用類似AMD X3D方案的獨立晶片堆疊設計,即利用台積電的SoIC混合鍵技術將3D V-Cache晶片整合到主運算晶片上。可能搭載LPU單元的Feynman晶片,圖片來源:Wccftech考慮到SRAM的擴展性有限,將其作為單元晶片整合到Feynman GPU中可能並非明智之舉,因為在先進製程上構建SRAM將導致高端矽片的浪費,並大幅增加每片晶圓面積的使用成本,因此輝達很可能會將LPU單元堆疊到Feynman晶片上。「這樣一來,像A16(1.6奈米)這樣的晶片將用於主Feynman晶片,而獨立的LPU晶片將包含大型SRAM存儲體。此外,為了將這些晶片連在一起,台積電的混合鍵合技術至關重要,因為它能提供更寬的接口,並且與封裝外存儲器相比,每比特能耗更低。可要做到上述也絕非易事,目前的主要問題仍在於CUDA在LPU風格執行中的行為方式,因為它需要明確的記憶體佈局,而CUDA核心設計初衷是為了實現硬體抽象。對於輝達團隊而言,在AI架構中整合SRAM難度極高,這需要「工程奇蹟」來確保LPU-GPU環境得到充分最佳化。然而,如果輝達想要主導推理市場,這或許是其願意付出的代價。本文作者長期聚焦海外To B半導體科技巨頭,更多公司動態、產業邏輯、價值投資訊息,歡迎加入作者微信IHAVEAPLANB-交流探討。(雷峰網)
【CES 2026】精華!黃仁勳CES 2026記者會:揭秘大殺器Vera Rubin ,談為什麼買Groq
1月6日,2026年CES展會期間,輝達創始人兼CEO黃仁勳面對全球200多名記者和分析師,進行了一場超過90分鐘的深度對話。剛剛亮相的Vera Rubi架構是業界關注的焦點。Vera Rubi架構號稱性能飆升10倍,成本卻砍到1/10,被稱為“打了類固醇的摩爾定律”。他斷言,到2026年底,輝達資料中心晶片銷售額將突破5000億美元。與AI提供商Anthropic等公司的交易,以及在中國前景的改善,“應該會提高我們對那個數字的預期”。這大大高於華爾街分析師的平均預期,他們預計輝達2026年總營收將達到3212億美元,增幅57%。2027年,他們估計輝達銷售額將超過4000億美元。對於輝達能否重返中國AI晶片市場,黃仁勳透露,該公司可以開始向中國客戶銷售其H200晶片,而且“中國客戶的需求很高,相當高,非常高”。“我期待你們的競爭,你們得努力工作了。”在回答中國競爭對手的提問時,黃仁勳笑著對來自中國的媒體說,在這個飛速發展的行業裡,“沒有任何領先是理所當然的”。以下為黃仁勳在1月6日CES媒體和分析師見面會上的精華內容,經AI聽譯,編輯整理,從現場38個問題中,精選其中20余個問題。大殺器“Vera Rubin”:10倍性能、1/10成本問題1:對已經採用Blackwell系統的客戶來說,Vera Rubin平台有什麼不可替代的價值?升級路徑是怎樣的?黃仁勳認為, 模型規模每年以十倍的速度增長,推理生成的Token數量每年增加五倍,這種指數級的計算需求已經“超出了預期”。從Hopper到Blackwell,從Blackwell到Vera Rubin,推理吞吐量都提升了十倍,而Token成本則降低十倍。輝達每年都在交付新一代“完整的AI工廠”——從CPU、GPU、網路晶片到擴展交換機,全部協同設計。黃仁勳表示,關鍵在於其資料中心架構是完全相容的。客戶不需要每隔幾年就徹底重建基礎設施,而是可以通過輝達的軟體更新,讓已經部署的AI工廠艦隊性能持續提升。“我們最佳化的不是17個不同的技術堆疊,而是一個通用架構。這個架構每年的改進,會直接轉化為客戶的AI工廠吞吐量提升、成本下降和能效提高,我稱它為“強化版的摩爾定律,是超級驅動的摩爾定律”。問題2:CPU在AI工廠中扮演什麼角色?輝達的基礎模型(如NIM, Cosmos)如何融入未來?黃仁勳認為,半導體物理已接近極限,但AI計算需求正以每年模型規模增長10倍、Token數量增長5倍的瘋狂速度擴張。僅靠晶片工藝的微小進步無法滿足。因此,輝達給出的答案是“極端協同設計”——從CPU、GPU、記憶體到網路交換晶片,乃至儲存處理器,對整個計算路徑進行系統性最佳化,以追求極限性能。這不僅涉及硬體,還包括軟體棧和模型層的創新。他以輝達的模型為例:Cosmos是前沿的物理AI模型,在自動駕駛等領域保持領先;Nemo 3則是首創的混合架構模型,在長上下文推理方面高效出眾。目標是在所專注的每一個領域都保持前沿。這一切最終匯聚成Vera Rubin系統。從Grace Blackwell到Vera Rubin,電晶體數量一年內僅增長約1.7倍。這個增幅如果放在單純的晶片性能提升上,根本不值得客戶為它建造一座新的資料中心。我們必須通過系統級創新,實現以一代際就提供10倍吞吐量、1/10的Token成本這樣的跨越,才能讓行業負擔得起向前探索的成本。為此,輝達投入了巨大的工程資源——僅Vera Rubin的研發就累計投入了約15000個工程年。問題3:在實現Vera Rubin的過程中,你們遇到的最大挑戰是什麼?是製造、頻寬還是延遲?黃仁勳說, 答案是“所有方面”。Vera Rubin的突破不僅是晶片級的,更是對整個AI基礎設施的重新定義。Vera Rubin解決了幾個核心痛點:系統可用性:以前更換一個故障的NVLink交換機,需要將整個價值數百萬美元的機架停機數小時。現在Vera Rubin支援熱插拔,可以在系統執行階段直接更換,甚至線上更新軟體,這能確保超大規模資料中心保持99.9%以上的運行效率。能源效率:AI訓練時所有GPU同步工作,導致電流劇烈波動,迫使資料中心過度配置25%的電力或安裝昂貴緩衝裝置。Vera Rubin通過功率平滑技術,消除了這種波動,讓電力供應能100%被利用。工程效率:過去組裝一個高性能節點需要像組裝一輛汽車一樣花費兩小時。現在,我們將其縮短到五分鐘。同時,我們消除了大量線纜,實現了100%的液冷。這些系統級創新與晶片和軟體突破同樣重要。02 Vera Rubin交付難題:只有一家公司做得到問題4:如何確保Vera Rubin的六顆新晶片能穩定量產?黃仁勳回應說, 答案是“非常仔細地規劃”。輝達與台積電合作近30年,雙方的規劃團隊保持著極為緊密的協作,幾乎是每日同步。在規劃Vera Rubin六顆全新晶片量產的同時,輝達還需管理Grace Blackwell、Hopper、遊戲GPU以及汽車晶片Thor等多條產品線的龐大產能。這極具挑戰,尤其是Vera Rubin採用了CPO(共封裝光學)等全新技術。黃仁勳表示有信心,在台積電的大力支援下,將會迎來產量巨大的一年。問題5:你宣佈Vera Rubin已進入“全面生產階段”,但又說按計畫在2026年下半年才發貨。這矛盾嗎?黃仁勳回應說,我們正在做的事情非常非常困難,世界上從未有過如此規模的電腦系統同時整合這麼多全新的晶片:六顆用於CPU的新晶片、全新的Vera GPU、Rubin CX9 NVLink交換機、六顆Spectrum-X(帶共封裝光學器件)以及BlueField-4。所有這些晶片都是全新的。我們已經拿到晶片一段時間了,正在嚴謹地進行驗證和測試。晶片已經完全可以投入製造,但軟體最佳化和系統驗證是持續的過程。世界上只有一家公司能以我們這樣的規模和速度做到這一點。03 資料中心年銷售額 將超5000億美元問題6:輝達與OpenAI合作建設的AI工廠何時動工?黃仁勳表示,並沒有計畫與OpenAI直接合作建設專屬的AI工廠。OpenAI等大型模型公司主要通過與微軟、OCI、CoreWeave等雲服務提供商合作來獲取輝達的計算能力。這種通過合作夥伴服務的模式運行得非常順利,預計不會改變。問題7:去年你預測未來幾年資料中心銷售額將達5000億美元,這個數字現在是否已經過時?黃仁勳表示,不希望定期更新這個數字,但可以說,自那個預測以來,許多新的進展應該會推高我們的預期。新的驅動力主要來自幾個方面:首先,我們與Anthropic等重要夥伴的合作進一步鞏固了輝達作為模型訓練首選平台的地位。其次,開放模型的成功遠超預期,今天全球生成的每四個Token中就有一個來自開放模型。這極大地推動了公共雲和輝達硬體的需求。同時,我們重返中國市場的處理程序也在展開,H200晶片將貢獻新的增量。所有這些因素共同作用,解釋了為什麼市場需求持續超出預期。04 中國戰場:訂單即訊號問題8:距離川普政府宣佈批准向中國出口H200晶片已經一個月了。你預計何時開始向中國客戶發貨?“客戶需求很高—相當高,非常高”,黃仁勳說,輝達已經啟動了供應鏈,H200正在生產線上流動。正在與美國政府完成許可證的最後細節。提問9:你期望看到關於政府方什麼訊號?黃仁勳表示只期待採購訂單。當採購訂單到來時,它將暗示其他一切,因為雙方都必須遵守各自的法律和規則。當採購訂單到達時,它們不言自明。川普總統已經說過H200被許可出口,現在需要完成所有流程步驟。一旦完成,預計採購訂單就會到來。提問10:面對華為等競爭對手,H200在中國市場還有競爭力嗎?黃仁勳說H200目前在市場上是有競爭力的,但它不會永遠有競爭力。所以,希望以後能夠發佈其他有競爭力的產品。為了保持美國在市場上的競爭力,監管也必須不斷演進。當它不再有競爭力時,希望會有新的產品。”這就是我所主張的,我們持續在市場上保持競爭力。“05 模型的盡頭是電力,能源問題如何解決?問題11:AI計算正面臨巨大的電力制約,你們如何解決這個問題?黃仁勳說,我們正處在一場新工業革命的開端,這個新產業需要能源來發展——任何形式的電力都會被使用,從天然氣到可再生能源。但最重要的是能源效率。每一代產品,當吞吐量提升10倍而功耗只提升2倍時,能效就提升了5倍。如果你的資料中心是1吉瓦,而我們的技術能讓每瓦吞吐量提升5倍,那麼客戶在同樣電力下生成的Token就能增加,收入也隨之增長。更高效的系統還能支援更大的模型,這提升了智能水平,也提高了Token的平均售價。因此,在有限的、受能源約束的資料中心內,提高每瓦Token數量、每美元Token數量的能力,在最終分析中是決定性的。06 自動駕駛:輝達和特斯拉的區別問題12:Alpamayo系統能夠進行L4/L5級駕駛嗎?黃仁勳認為目前部署在梅賽德斯-奔馳中的輝達自動駕駛系統,是世界上唯一一個擁有冗餘自動駕駛能力的系統。其中一個系統是經典設計,帶有大量人類先驗知識,本質上是汽車的“護欄”。在其之上,運行Alpamayo,這是一個端到端的AI模型,進行推理和決策。如果經典安全系統非常出色,能確保乘客永遠不會受到傷害,那麼AI駕駛員就能盡快變得儘可能好。相信將很快達到L4等級。唯一的問題是:操作域是什麼?它有多大的能力?在什麼條件下它有信心駕駛?問題13:那麼輝達的自動駕駛系統與特斯拉FSD的關鍵區別是什麼?黃仁勳毫不吝嗇地誇獎特斯拉,認為特斯拉的FSD棧完全是世界級的。他們在各個方面都是100%最先進的。他也擁有特斯拉,”我在家裡用它開車,它工作得非常棒“。至於輝達和特斯拉的區別,在於輝達不製造自動駕駛汽車,而只為其他所有人製造完整的棧和技術來建構自動駕駛汽車。輝達為整個汽車行業提供三台電腦:訓練電腦、模擬電腦和自動駕駛電腦(也就是車載電腦),以及相應的軟體棧。黃仁勳表示,他相信輝達的系統會普及,因為是技術平台提供商。今天路上的10億輛汽車,在未來10年,其中數億輛將擁有強大的自動駕駛能力。所以,這很可能成為未來十年增長最快的技術領域之一。此外,輝達還將全部開源:客戶既可以直接使用我們訓練好的模型,也可以基於我們的技術自行訓練,我們同樣會提供支援。07 機器人未來:今年突破,垂直為王問題14:我們什麼時候才能獲得真正具有人類水平能力的機器人?黃仁勳肯定說是“今年(2026年)”。因為清楚技術迭代的速度。移動能力很難,但進展驚人,它會最先被解決;其次是大關節運動和抓取問題。真正困難的是精細運動,畢竟製造一隻靈巧的手都不容易,電機、觸覺感知都很複雜,不過這些方向正在持續突破。與此同時,認知能力正在快速躍升。未來會有非常強的推理型AI模型直接運行在機器人內部。你會發現,AI本質上是“以人為中心”的:在車裡,它就是駕駛系統;拿起網球拍,它就成了揮拍能力。AI的真正優勢在於多重化身,我們把它訓練成人形機器人,但它同樣可以成為出色的操控系統,甚至是完美的自動駕駛大腦。問題15:機器人會搶走人類的工作嗎?黃仁勳表示“恰恰相反”。他認為機器人將創造就業機會。原因在於,我們正面臨全球性勞動力短缺,不是缺幾千人,而是數千萬人,而且由於人口下降,情況會越來越糟。如果沒有新的勞動力補充,我們將無法維持當前的經濟規模。因此,我們需要引入“AI移民”,讓它們進入製造車間,接手那些我們已經決定不再從事或無人願意做的工作。機器人革命首先將填補勞動力缺口,從而驅動經濟增長。經濟向好時,企業自然會僱用更多人。更重要的是,很多工作在很長時間內都無法被AI替代。我們需要的是健康的經濟環境:通膨可控,就業機會增多,生活成本降低。而AI的發展,恰恰能推動這一切的實現。問題16:對機器人初創公司,你有什麼建議?黃仁勳認為要建構一個完整的機器人系統,實際上需要三類電腦:訓練電腦、模擬電腦和機器人大腦電腦。訓練電腦很簡單,對於模擬電腦,由於機器人必須在物理精確的虛擬世界中學習、練習和評估,這樣在訓練階段就不需要在現實世界裡反覆“試錯”。為此,輝達建構了一個嚴格遵循物理定律的虛擬世界——Omniverse。再看機器人大腦。輝達目前使用的是Orin,下一代是Thor,它們擁有完整、獨立的技術堆疊。Thor配備了極高速的推理棧,並運行在一個安全作業系統之上,類似汽車中的安全系統,確保機器人始終在安全邊界內行動,只執行它有足夠把握的任務。真正的難點在於:不僅要同時理解並整合這三套計算棧,還要協調所有必需的電子系統和機械結構。這種複雜度,極其之高。對於創業者來說,最終歸結為:你想成為一家橫向公司,還是垂直的、特定領域的公司?橫向公司的好處是較少擔心具體應用,更多關注技術,如果成功了規模可能很大。但橫向佈局極其困難,競爭來自四面八方。我的偏好通常是建議尋找垂直領域。你必須非常深入地理解特定的應用——也許是EMS製造,也許是手術機器人。領域專長確實可能是一個優勢。08 競爭:中國崛起,但自信無可替代問題17:面對中國新興AI公司的快速進展,輝達的競爭優勢是什麼?黃仁勳表示,在中國湧現的眾多初創公司中,許多已經成功上市並取得了非常出色的成績,這充分證明了中國科技行業的活力與實力。可以毫不誇張地說,中國的企業家、工程師、技術專家和AI研究人員,屬於全球最優秀的群體之一。中國的科技生態系統正在以極快的速度發展,工程師勤奮投入,創業精神強烈,想法也極具創造力。因此,我完全相信中國科技市場將持續成長、不斷進步。對輝達而言,如果要為中國市場提供價值,就必須參與競爭,並持續推動自身技術向前發展。當然,輝達在AI領域的創新規模和深度,確實是全球其他公司難以企及的。我們是目前唯一一家從CPU、加速計算、儲存到完整軟體棧、模型層和基礎設施層全面佈局的公司。我們與全球幾乎所有重要的AI公司都有深度合作,並通過龐大的生態和管道,將這些技術大規模推向終端市場。無論是製造業(例如與西門子的合作)、醫療健康(如與禮來這樣的全球最大製藥公司合作)、汽車、金融服務,還是你能想到的任何行業,輝達都深度參與其中。因此,理應繼續在這個行業中保持領先。但沒有任何成功是理所當然的,這正是我們必須持續高強度投入的原因。這個行業的規模將極其龐大。過去10–15年,全球大約投入了10兆美元的資本,這些系統正處在從“傳統計算”向“AI現代化”全面轉型的過程中。我們用數千億美元的投入,去推動這10兆美元的現代化升級。更重要的是,這是歷史上第一次,軟體AI不再只是工具,而開始成為勞動力本身。人形機器人、自動駕駛汽車、軟體程式設計智能體、晶片設計智能體,正在直接補充甚至重塑勞動力結構。而全球勞動力市場規模約為100兆美元。也就是說,技術第一次真正服務於整個經濟體系中的“勞動層”。從這個角度看,這個市場巨大是完全合理的。最後我想說的是:我期待你們的競爭,但你們必須足夠努力。09 收購:Groq技術互補,但Vera Rubin仍是核心問題21:輝達200億美元收購Groq的技術和團隊,會推出基於其技術的推理卡嗎?黃仁勳的回答是輝達和Groq的技術路線“非常、非常不同”。不認為有任何東西能取代下一代Vera Rubin平台。或許能以某種方式整合他們的技術,實現一些獨特的增量改進,但更多細節需要等到下一次GTC大會公佈。總體而言,我們對Groq團隊和技術加入輝達感到興奮。問題22:輝達擁有巨額現金儲備,未來將如何分配?重點在收購還是招聘?黃仁勳表示,輝達的資本配置遵循一套清晰的“三層邏輯”,核心是圍繞AI生態進行長期投資。第一層,投資於“世界不能或不會做”的核心技術。 這是我們的首要任務。例如NVLink互聯技術,以及我們自主研發的Grace CPU,這些都是為滿足AI獨特需求(如海量上下文記憶體)而生的獨創架構。我們持續投資於建構那些若沒有輝達就不會存在的底層技術。第二層,投資於“上下游生態”,確保整個供應鏈的繁榮與韌性。 我們向上游與記憶體、晶片製造等關鍵供應商深度繫結,進行巨額資本承諾以保障先進產能。同時,我們也向下游投資,覆蓋從全球雲服務商、電腦製造商到新興的雲服務與AI基礎設施公司(如CoreWeave、Lambda),建構地球上最多元、最龐大的市場管道網路。第三層,是沿“AI五層蛋糕”進行全端投資。我們從最底層的土地、電力和資料中心外殼,到晶片、系統和基礎設施,再到上層的AI模型和最終應用,都會進行戰略性投資與合作。我們可能投資、合作,甚至收購一些半導體公司。目標是培育和加速整個AI產業,通過投資建立更深厚的夥伴關係,與未來最具影響力的公司共同成長。10 以色列是輝達的“晶片心臟”問題23:你為何能成為科技界任期最長的CEO之一?黃仁勳:秘訣很簡單:第一,不被解僱;第二,不感到無聊。 至於還能做多久?只要我覺得自己仍能勝任。引領輝達責任重大,我們是行業的關鍵推動者,全球合作夥伴都期待我們做好自己該做的事。公司成立34年來,我們越做越好。做一件事久了,你自然會逐漸掌握其中的門道——即便是我也不例外。問題24:輝達在以色列計畫大幅擴張,有何戰略考量?面對如此大規模招聘,如何保持人才優勢?黃仁勳誇獎“以色列團隊不可思議”,是輝達真正的“晶片心臟”。正在研發的Vera Rubin平台包含六顆新晶片,其中四顆(包括關鍵的交換機和網路晶片)都來自以色列團隊。雖然輝達已是全球最具影響力的公司之一,但一直把自己看作“世界上最小的大公司”。我們只有約4萬名員工。在以色列,計畫將團隊從5000人擴大到10000人。輝達在以色列的離職率極低,大約只有1%到2%。許多員工已任職20甚至25年。吸引和留住世界級人才的能力是頂級的。這不僅是因為提供好的工作,更在於CEO的職責之一是“為公司選擇正確的工作”——我們聚焦於那些激動人心、有深遠影響力的項目,這塑造了公司的文化和使命感,讓頂尖人才願意長期留下並創造奇蹟。 (網易科技)
老黃超200億美元的推理閉環成型了
財大氣粗的老黃7天內接連收購Groq、AI21 Labs,總投入超200億美元。平安夜剛砸200億把Groq的“TPU之父”團隊打包帶走;轉頭又瞄準AI21 Labs,斥20-30億美金將其收入麾下,還帶走了AI21背後的200名頂尖AI博士。而且,加上9月份9億美元買下的Enfabrica,收購3連招之後,輝達算是把“硬體-網路-架構”這條鏈子拉閉環了。AI21和Groq更適配輝達在AI訓練市場的份額早已超過90%,但推理市場卻是另一番景象:定製ASIC晶片搶佔了37%部署份額,Google、博通等巨頭虎視眈眈,市場正變得越來越分散。黃仁勳顯然不想在這場新較量中落後——搶人才就成了最直接的破局方式。前幾天的Groq,不僅拿走了LPU,也帶走了公司90%的員工。最新瞄準的AI21,表面看是一家估值14億美金的以色列初創公司,實則又是個“博士天團聚集地”。三位創始人是科技圈頂流配置。董事長Amnon Shashua是希伯來大學講席教授,手裡握著140多項專利,1999年創辦的Mobileye後來以153億美元賣給英特爾,讓他直接躋身以色列前20富豪;聯合CEO Ori Goshen是連續創業者,前兩家公司不是被收購就是成了行業標竿;還有史丹佛榮譽退休教授Yoav Shoham,曾是Google首席科學家,創業項目多次被巨頭打包帶走。這群大佬帶領的200多位博士,手裡還握著Jamba混合架構這張王牌。現在,輝達擁有了這個天團,於是事情就變得有趣了。此前收購的Groq,它們的LPU使用的並不是HBM,而是速度極快,但記憶體受限的SRAM。純Transformer模型在這上面表現不佳,因為KV快取會隨著上下文長度爆炸式增長。而AI21博士天團手裡的Jamba架構正是Groq這類記憶體受限的推理矽片所需要的。Jamba採用Mamba-Transformer混搭設計,長文字處理速度比同類模型快2.5倍,相比DeepSeek、Llama、Google效率提升2-5倍,還能在256K上下文裡輕鬆跑起4GBKV快取。收了Groq的LPU和核心團隊;拿下AI21,又把200個博士收入麾下,還能直接補上推理架構的短板。輝達正式開始了對GoogleTPU衝擊的回應……三重收購組合拳回頭再看三重收購的組合拳,每一步都被老黃算得精準。之前9億美元帶走了Enfabrica和CEO Rochan Sankar及其核心團隊,補上了網路技術,解決資料傳輸的卡脖子問題。前幾天收購Groq的時候,拿技術又得人心。不僅將推理矽握在手裡,連帶著“TPU之父”Jonathan Ross領銜的核心團隊一起,將90%的員工打包轉入輝達。而且人均套現500萬美元,連工作不滿一年的員工都被取消了“懸崖期”,老黃這波操作也算得上良心。AI21負責LLM架構,把算力轉化成能落地的商業解決方案。三者一結合,輝達在推理市場的“硬體-網路-架構”閉環直接成型。以前大家還在猜“GPU會不會被擠出推理賽道”,現在老黃用200多億美金給出了答案——不僅要守住,還要通過垂直整合把優勢拉滿。Google已經用TPU證明,GPU不是AI推理的唯一解,而老黃這波操作,就是要通過人才和技術的雙重佈局,對抗Google、博通的威脅。三重收購、200個博士背後,是能讓推理效率翻倍的技術,也是能對抗Google、博通的底氣。 (量子位)
1400億,他帶走AI晶片獨角獸的核心班底
平安夜老黃沒有休息,一項200億美元創紀錄晶片收購消息,轟動矽谷。輝達官宣:以200億美元現金與AI晶片初創公司Groq達成交易。消息一出迅速引發市場轟動,因為這是輝達有史以來最大規模的一筆交易,遠超2019年收購Mellanox的70億美元。但僅僅幾小時後,畫風突變。輝達和Groq雙雙發表聲明,對交易性質進行了澄清,並非收購。Groq在官方部落格中寫道:我們與輝達簽訂了一份非排他性技術許可協議。輝達方面也明確表態:我們不是在收購Groq這家公司,我們只是獲得技術授權,並將Groq的產品整合到未來的產品中。看起來老黃也學會了“人才收購”這招:重金掏空一家公司的人才和核心資產,但又避免觸發反壟斷。所以這200億美元到底買了什麼?席捲矽谷的“人才收購”答案是:技術授權,加上一整支核心團隊。最先爆料的是Groq主要投資方Disruptive,其CEO透露輝達已同意以200億美元現金收購Groq的資產,交易進展非常迅速。自2016年Groq成立以來,Disruptive已經往這家公司砸了超過5億美元。根據交易協議,Groq創始人兼首席執行長Jonathan Ross、總裁Sunny Madra以及其他高管將加入輝達,“共同推進和擴大授權技術的應用”。而Groq本身則繼續作為獨立公司營運,由原首席財務官Simon Edwards接任CEO,雲服務平台GroqCloud也將照常提供服務。這種看起來複雜的操作,其實已經多次發生,已經有了固定的名字Acqui-hire(人才收購)。這樣做能快速獲取頂尖人才和技術,同時規避傳統併購可能面臨的監管,幾乎所有的科技巨頭都玩過一遍,Google玩了兩遍:24年3月,微軟6.5億美元挖走Inflection創始人Mustafa Suleyman和核心團隊。24年6月,亞馬遜月4億美元挖走Adept創始人David Luan和團隊大部分成員,同時獲得技術授權24年8月,Google約27億美元挖走Character.AI創始人Noam Shazeer以及30多人核心研究團隊。25年6月,Meta約150億美元挖走Scale AI創始人亞歷山大王和核心工程師團隊。交易後,Scale AI裁減了部分員工,並調整業務方向。25年7月,Google約24億美元挖走Windsurf創始人Varun Mohan和Douglas Chen及研發團隊。25年10月,蘋果吸收了Prompt AI核心團隊,還是截胡了馬斯克的收購搶來的,交易金額未披露。……這些交易中,有時核心只是一個關鍵人物,比如Google請回Transformer論文作者Shazeer,協議中授權Character.ai的模型Google也用不太上,更多是把團隊開發的訓練技巧用於強化Gemini。有時核心又是技術轉讓,還是Google挖走Windsurf團隊後,沒幾個月就推出了自己的AI程式設計工具Antigravity。那麼這一次,輝達是看上了什麼?黃仁勳內部郵件曝光:劍指AI推理市場Groq成立於2016年,由一群前Google工程師創辦,是TPU的核心班底,專注於高性能AI加速器晶片的設計。就在9月,Groq剛剛完成了一輪7.5億美元的融資,估值達到約69億美元。投資方Disruptive的CEO透露,在被輝達接洽時,Groq其實並沒有出售的打算。公司今年的營收目標是5億美元,正處於高速增長期。輝達CEO黃仁勳隨後向員工傳送了一封內部郵件,被CNBC獲取並曝光。郵件中,黃仁勳直接點明了這筆交易的戰略意圖:我們計畫將Groq的低延遲處理器整合到輝達的AI工廠架構中,以服務更廣泛的AI推理和即時工作負載。這裡有個關鍵背景:隨著大模型LLM的普及,AI工作負載正在從模型訓練向推理大規模遷移。而Groq的技術專長恰恰在推理領域,其自研的語言處理單元(LPU)以超低延遲和高能效著稱,官方聲稱運行大模型的速度比傳統方案快10倍,能耗卻只有十分之一。更耐人尋味的是創始人Jonathan Ross的背景。他曾是Google張量處理單元(TPU)的核心研發者之一,而TPU正是輝達GPU在AI領域的主要競爭對手。輝達這次不僅拿下了一項關鍵技術,還把潛在對手陣營裡最懂晶片的人直接挖了過來。截至2025年10月底,輝達帳上躺著606億美元的現金和短期投資,相比2023年初的133億美元翻了近5倍。這為其接連大手筆收購提供了充足的彈藥。除了Groq,輝達近期還投資了AI與能源基礎設施公司Crusoe、AI模型開發商Cohere,並追加了對雲服務商CoreWeave的投資。今年9月,輝達還宣佈計畫向OpenAI投資最高1000億美元,同時向英特爾投資50億美元。One More ThingGroq並不是唯一一家在AI浪潮中崛起的晶片初創公司。英特爾已明確表示有意向收購AI晶片初創公司SambaNova,目前處於深入談判階段,甚至已簽署了不具約束力的意向書。英特爾現任CEO陳立武曾擔任SambaNova的執行董事長,其創投公司華登國際也是SambaNova的早期投資者之一。另一家明星企業Cerebras原本計畫今年上市,卻在10月撤回了IPO申請,轉而完成了一輪超過10億美元的融資。Cerebras的發言人表示,公司仍希望盡快上市,但並未透露撤回IPO的具體原因。又或者Cerebras的結局也是被一家巨頭收購也說不定。Groq、SambaNova和Cerebras最初都是以GPU顛覆者的形態登場。當巨頭開始用資本手段吸收潛在的顛覆者,留給其他玩家的窗口期或許正在縮小。 (芯師爺)
溢價三倍都要緊急收購Groq,輝達為何匆匆忙忙?
12月24日,平安夜裡,網上都在說輝達要以200億美元收購AI晶片公司Groq,200億美元的現金可不是小數目,要知道,2019年輝達收購Mellanox才花了69億美元。巧合的是,Groq三個月前的估值也有69億美元,現在,輝達花大約三倍的價格收購Groq,看得出很著急。為什麼這麼著急收購呢?在介紹這個之前,要說清楚的是,這次輝達不是收購Groq這家公司,而是用200億美元獲得Groq的非排他性技術授權,還有核心人才引進的協議。這不是普通的收購,況且,以輝達現在的規模,這次收購很容易受到監管機構的反對,此前400億美元收購ARM就是前車之鑑。為了避免重蹈覆轍,這次輝達拿到了非排他性技術授權,意味著別人也可以拿到這樣的技術授權,包括英特爾、AMD或者AWS或者Azure都可以。但是,由於Groq公司的多數核心人才都加入了輝達,即使拿到這些技術授權,熟悉這些的工程師都不在了,後續迭代和維護誰來做呢?儘管原來的公司還會繼續營運,看似對市場沒什麼不利影響,但其實,Groq公司顯然已經空心化了,未來還能走多遠都會是一個問題。這項交易能否順利進行?會不會遭到反對?會不會有別的公司,比如英特爾和AMD,以及AWS和Azure、或者Meta跳出來也要拿到這種授權呢?畢竟這是連AI晶片霸主都覬覦的技術呢?這裡分析一下為什麼老黃要急著收購Groq?Groq的晶片產品叫LPU(Language Processing Unit),是市場上少數能在推理速度和延遲表現上對輝達有挑戰的公司之一,如果這家公司被Google、亞馬遜或者Meta收購,輝達會很難受。Groq的優勢不是算得比GPU更猛,而是算得有更多的確定性。怎麼說呢?它把所有調度複雜度前移到編譯期,讓晶片執行階段像流水線一樣持續滿速跑,這在大模型推理場景下能顯著降低延遲、提高實際吞吐。而GPU恰恰相反,GPU追求的是高度通用與靈活性,需要處理複雜的調度器、同步機制和分支預測邏輯,在面對不規則、變化多端的工作負載時表現會很出色。但是,大模型推理這類場景的變化不多,GPU的通用性和靈活性就成了劣勢。而且,輝達的B200 GPU非常依賴片外HBM來儲存模型權重,在即時、小Batch推理中,計算單元需要頻繁跨晶片訪問HBM,訪存延遲沒法降低,計算效率會更低。相比之下,Groq的LPU 將關鍵權重等資料放置在230MB的片上SRAM中,顯著減少了片外訪存與等待狀態,這樣計算效率就高了,資料處理跟流水線一樣。這麼一番對比,LPU比GPU推理性能更好,推理效率更高,成本也更低,這顯然會讓GPU面臨壓力。這種模式的成功已經不是第一次了,Google的TPU也有類似的效果。他們都證明了一件事,就是GPU並不是最適合做推理的,這次收購意味著輝達也承認了這一點。這意味著越流越多的企業用自研ai推理處理器的做法是對的,比如AWS的Trainium晶片,當業內形成這種共識,也意味著會有更多雲廠商會走上這條路。這顯然會對輝達不利。摩根士丹利預測,到 2026 年底,推理市場將佔AI計算總需求的50%以上,超越了訓練場景。未來增長看推理,輝達牢牢掌控了訓練市場,推理市場如果還固守GPU,顯然是不行的。你要是老黃,你會咋辦?自研一個來對抗?研發出來黃花菜都涼了,最好還是趕緊收購吧,於是就有了現在的故事。有趣的是,這次200億美元,Groq的創始人Jonathan Ross就是Google初代TPU的主要架構師之一,也會加入輝達,把這項經過驗證的技術交給輝達。這是目前成功率最高的方式。 (科技巴圖魯)