推理專用晶片,火了

大模型催火推理芯片:輝達砸200億收購Groq,算力競爭轉向”毫秒必爭”。

在AI技術從實驗室走向規模化落地的處理程序中,推理(Inference)環節正成為決定體驗與成本的核心競爭——專門為推理最佳化的晶片,已然成為科技行業的新風口。要理解這股熱潮,首先要釐清AI工作流中訓練與推理的本質差異。

在AI工作流中,訓練(Training)與推理(Inference)承擔著截然不同的角色。訓練階段通過大量帶標籤資料迭代最佳化模型權重,使模型能夠學習複雜模式;而推理階段則使用已訓練好的模型對新輸入進行預測。從性能需求來看,訓練如同馬拉松,追求整體吞吐量與模型精度的持續提升;推理則如同百米衝刺,核心目標是降低單次預測延遲,實現即時響應。

訓練階段需要強大的通用計算平台,通常需要調動成千上萬張頂級GPU,通過海量資料(如全網際網路文字、圖片)進行長時間(數月甚至數年)的計算,耗資巨大。訓練對算力的絕對性能要求極高,晶片需要具備強大的計算能力和全面的計算能力,能夠處理各種複雜的計算任務。目前,輝達的GPU配合CUDA軟體生態幾乎處於壟斷地位,難以被其他廠商撼動。

然而,在推理階段,尤其是大語言模型(LLM)的即時互動場景中,情況發生了根本性轉變。LLM的推理過程具有"自回歸"特性,即生成第N+1個詞必須依賴上一輪第N個詞的結果。這種順序性導致GPU強大的平行計算能力在大多數時間處於"等待"狀態,無法充分發揮其優勢。

更為重要的是,隨著AI應用的廣泛落地,推理成本在AI總成本中的比重日益增加,已成為AI企業最大的單項支出。這促使業界開始探索專門的推理晶片解決方案。

01. 為何推理晶片成為剛需?

專門的推理晶片是AI發展到規模化應用階段的必然產物。其主要有以下優勢:

第一是性能精準最佳化。推理任務的核心是高效執行預訓練模型的前向計算,如矩陣乘法、摺積運算等。專門的推理晶片(如NPU、TPU)針對這些運算進行硬體級最佳化,能大幅提高計算效率,相比通用CPU或GPU,可實現更高的吞吐量和更低的延遲。例如,推理晶片可通過定製化的乘加單元(MAC)和平行計算架構,加速神經網路的推理過程,滿足自動駕駛、智能語音互動等即時性要求高的場景。

第二是能效比優勢,推理場景對功耗敏感,尤其是邊緣裝置和終端應用(如智慧型手機、可穿戴裝置)。專門的推理晶片通過低精度計算(如INT8、INT4)和硬體級最佳化,能在保證精度的前提下顯著降低功耗,延長裝置續航時間。相比之下,通用晶片在低功耗模式下性能受限,難以兼顧性能與能效。

第三是成本效益顯著。推理晶片的規模化生產可降低單位成本,尤其在大規模部署場景(如資料中心、邊緣計算節點)中,其性價比優勢明顯。與通用晶片相比,推理晶片無需支援複雜的訓練任務,可簡化硬體設計,減少晶片面積和製造成本,更適合高並行、低成本的推理需求。

第四是場景適配性靈活。不同應用場景對推理晶片的需求差異顯著。例如,雲端推理需處理高並行請求,要求高吞吐量和可擴展性;邊緣裝置則需緊湊設計、低功耗和即時響應。專門的推理晶片可通過靈活的架構設計(如存算一體、Chiplet技術)滿足多樣化場景需求,而通用晶片難以在所有場景中兼顧性能、功耗和成本。

最後,專用推理晶片能加速AI全民普及。推理晶片降低了AI應用的部署門檻,標準化的介面與工具鏈簡化了開發流程,讓更多企業與開發者能夠輕鬆落地預訓練模型,推動AI技術在各行業的滲透,助力AI生態持續繁榮。

可以說,推理晶片是AI從技術概念走向實際應用的關鍵支撐,通過性能、能效、成本與場景適配性的綜合最佳化,成為AI規模化發展的核心引擎。

02. 推理晶片賽道:百花齊放,群雄逐鹿

隨著需求爆發,推理晶片賽道呈現出多元化競爭格局,一批創新產品憑藉獨特技術優勢脫穎而出。

首先是LPU,全稱 Language Processing Unitix,是一種專門為語言處理任務設計的硬體處理器。它與我們熟知的 GPU(Graphics Processing Unit,圖形處理器)有著本質的區別。GPU 最初是為處理圖形渲染任務而設計的,在平行計算方面表現出色,因此後來被廣泛應用於人工智慧領域的模型訓練和推理。然而,LPU 則是專門針對語言處理任務進行最佳化的,旨在更高效地處理文字資料,執行諸如自然語言理解、文字生成等任務。LPU由前Google TPU團隊創立,專為大語言模型(LLM)推理設計,採用SRAM-only架構,無外部儲存延遲,單晶片整合230MB SRAM,頻寬高達80TB/s,延遲穩定,適合流式生成和互動式應用。

另一家公司SambaNova SN40L則跳出了傳統GPU平行計算框架,自研可重構資料流單元(RDU)架構,創造性地將神經網路圖直接對應到硬體執行。通過將多步推理計算壓縮為單一操作,大幅減少資料在記憶體與計算單元間的往返傳輸——這正是AI推理中功耗與延遲的核心痛點。其第四代RDU產品SN40L,宣稱推理性能達到輝達H100的3.1倍,訓練性能達到H100的2倍,而總體擁有成本(TCO)僅為H100的1/10。

此外,2024年發佈的第六代TPU v6(代號Trillium),也標誌著Google將主戰場從訓練轉向推理。面對推理成本成為全球AI公司最大單項支出的行業現狀,TPU v6從架構到指令集全面圍繞推理負載重構:FP8吞吐量暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度最佳化、晶片間頻寬大幅提升,能效比相比上一代提升67%。Google直言,這一代TPU的目標是成為“推理時代最省錢的商業引擎”。2025年推出的第七代TPU(TPU v7,代號Ironwood)更是聚焦超大規模線上推理場景,成為TPU系列首款專用推理晶片。與此前側重訓練的v5p、側重能效的v6e不同,Ironwood從第一天起就鎖定超大規模線上推理這一終極場景,並在多項關鍵指標上首次與輝達Blackwell系列正面抗衡,成為全球AI基礎設施領域的焦點產品。

03. 巨頭出手:輝達200億“收編”推理黑馬

面對推理賽道的激烈競爭,晶片巨頭輝達祭出重磅大招。

當地時間 12 月 24 日,AI 晶片初創企業 Groq 宣佈與輝達達成非獨家推理技術許可協議。根據協議約定,Groq 創始人喬納森・羅斯、總裁桑尼・馬達拉及核心技術團隊將正式加盟輝達,攜手推動授權技術的迭代升級與規模化落地。

值得注意的是,Groq 將繼續保持獨立營運地位,西蒙・愛德華茲已接任公司首席執行長,旗下 Groq 雲服務亦維持正常運轉,不受此次合作影響。輝達首席執行長黃仁勳在內部郵件中指出,此項合作將顯著拓寬公司技術版圖 —— 輝達計畫將 Groq 低延遲處理器整合至NVIDIA AI 工廠架構,進一步增強平台對各類 AI 推理及即時工作負載的服務能力。

這宗以非獨家技術許可為核心的交易,堪稱美國科技巨頭近年的“標準操作”。微軟、亞馬遜、Google等企業均曾通過類似模式,在不觸發全資收購的前提下,吸納頂尖 AI 人才、獲取關鍵技術壁壘。其核心邏輯在於,這種輕資產合作方式可有效規避當前美國嚴苛的反壟斷審查。儘管監管機構已開始關注此類交易,但迄今為止,尚無任何一筆同類合作被裁定撤銷。

對於手握 606 億美元巨額現金儲備的輝達而言,這無疑是一筆雙贏的戰略佈局:既消解了潛在的市場競爭威脅,又進一步加固自身技術護城河。據悉,該交易涉及資金規模約 200 億美元,較 Groq 數月前融資時 69 億美元的估值溢價近三倍。這一數字,也標誌著 Groq 作為獨立硬體挑戰者的征程暫告一段落,但其核心技術將在輝達的生態體系中,獲得更廣闊的研發與應用平台。

對 Groq 而言,200 億美元的現金流不僅極大緩解了公司財務壓力,也為現有投資者創造了豐厚回報。儘管核心團隊併入輝達體系,但 Groq 憑藉新 CEO 的到任與獨立營運架構的保留,得以繼續深耕 Groq Cloud 雲服務業務。更重要的是,依託輝達的資源優勢,Groq 的技術有望觸達更豐富的應用場景,加速商業化落地處理程序;同時,這種 “非全資收購” 的合作模式,既規避了品牌滅失的風險,更為企業未來發展預留了充分的自主空間。

04. 輝達的推理晶片野心,如何通過LPU技術降低推理成本

顯然此次獲取到Groq的技術許可,將有利於降低輝達未來推出的推理專用晶片的成本。

通過此次合作,NVIDIA 成功斬獲 Groq 核心智慧財產權,得以直接應用其 SRAM 架構技術,一舉繞開HBM 高頻寬記憶體與台積電 CoWoS 先進封裝的雙重限制。不妨設想:依託這項技術,NVIDIA 有望打造一款專攻 AI 快速推理的晶片產品,憑藉極致的運算速度,再搭配 NVLink 互聯技術,實現多顆 LPU 晶片的無縫協同,釋放更強勁的算力效能。

Groq LPU 晶片的核心優勢,在於將 AI 模型的核心權重資料,從傳統方案依賴的外接 HBM,遷移至晶片內建的 SRAM 中。這一設計使得晶片無需頻繁與外部儲存互動調取資料,算力效率自然實現躍升。而且,SRAM的讀寫速度可達HBM的10倍。HBM方案的弊端則十分突出:不僅需要依託台積電的CoWoS封裝技術,還受制於儲存廠商的產能限制,早已成為制約AI晶片大規模量產的關鍵瓶頸。

一旦跳過HBM與CoWoS,直接採用SRAM架構,晶片的生產效率將迎來質的飛躍。更值得一提的是,若在電路板中整合NVIDIA的NVLink C2C(晶片間直連技術),LPU晶片的擴展能力還將遠超當前水平,從而讓資料傳輸更迅捷、更穩定。

如此一來,NVIDIA既無需依賴美光、三星、SK海力士等廠商的HBM產品,徹底擺脫記憶體供應瓶頸;又能規避台積電CoWoS封裝的產能掣肘,實現供應鏈的自主可控。

此外,儘管Groq LPU晶片受限於記憶體容量,更適配輕量級AI模型,但在低延遲場景(如機器人即時控制、端側AI互動)中具備得天獨厚的優勢。而這恰好與NVIDIA GPU擅長處理大模型的能力形成互補——LPU化身“高效快手”,GPU擔當“算力基石”,二者強強聯合,將進一步鞏固NVIDIA在AI領域的霸主地位。

恰逢CoWoS封裝產能緊張、HBM成本居高不下的行業背景,NVIDIA這套“SRAM+NVLink”的組合拳,堪稱破局關鍵。200億美元的合作對價看似不菲,但對於NVIDIA這樣的行業巨頭而言,無疑是一筆“花小錢辦大事”的划算買賣。合作達成後,Groq可保持獨立營運,NVIDIA則收穫核心技術與頂尖人才,最終實現雙贏。

對於普通消費者而言,這場技術革新的紅利同樣觸手可及:未來的AI推理將更快速、更經濟,聊天機器人的響應會變得毫秒級迅捷,服務機器人的動作也將愈發流暢自然。與此同時,SRAM市場的熱度或將持續攀升,英特爾等相關產業鏈企業也有望從中分得一杯羹,推動整個行業生態的繁榮發展。 (半導體產業縱橫)