以往每年9月,都是手機發燒友的狂歡月,因為這時期蘋果、小米、華為等都會發新機。然而,今年的9月,一個更深層次的產業變革正在暗流湧動。當所有人都在對iphone 17的續航、聯網、鋁合金質感等“找茬”時,一場關於AI推理晶片的戰爭,已悄然打響。
過去幾年,雲廠商為了訓練大模型投入巨資購買晶片,如今也到了利用推理實現變現的時候了。根據麥肯錫報告,全球AI推理市場規模預計2028年將達1500億美元,年複合增長率超40%,遠高於訓練市場的20%。推理支撐著各類應用的即時推理需求,包括智能推薦、內容生成、虛擬助手等。可以說,推理階段才是實現實際應用和商業化的關鍵。
這場推理之戰,隨著華為、輝達和Google三大巨頭相繼發佈了各自的推理晶片之後,已經將正式打響!
9月18日,在2025年華為全聯接大會上,華為宣佈了昇騰晶片的規劃和進展。未來3年,也就是到2028年,華為在開發和規劃了三個系列,分別是Ascend 950系列、Ascend 960、Ascend 970系列。華為表示,將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求
焦點落在即將推出的Ascend 950系列,特別是Ascend 950PR和950DT兩顆晶片,它們均採用同一Ascend 950 Die(晶片裸片)。Ascend 950PR專攻推理Prefill階段和推薦業務,採用華為自研的低成本HBM(高頻寬記憶體)——HiBL 1.0。相較於高價位的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資,這在規模化部署中至關重要。晶片預計2026年一季度面世,首發形態包括標準卡和超節點伺服器。
與前代相比,Ascend 950的提升堪稱革命性:
從行業視角看,Ascend 950PR的低成本HBM策略直擊全球痛點:一方面是從一定程度上解決HBM供給緊缺,另一方面降低成本,在AI推理中,記憶體成本佔總支出的40%以上。華為此舉不僅挑戰國外廠商在HBM壟斷,還為中國本土生態注入活力,預計將加速AI在邊緣計算和雲服務的落地。
9月9日,輝達重磅推出Rubin CPX,一款專為大規模上下文處理設計的GPU。這標誌著輝達從“訓練霸主”向“推理專家”的蔓延。這款晶片預計於 2026 年底上市。
Rubin CPX整合在NVIDIA Vera Rubin NVL144 CPX平台中,單機架算力達8 Exaflops(百億億次浮點運算),較GB300 NVL72提升7.5倍,配備100TB快速記憶體和1.7PB/s頻寬。輝達還提供獨立計算托盤,相容現有系統,便於客戶升級。
黃仁勳強調,Rubin CPX開創了“CPX”新處理器類別,類似於RTX對圖形領域的顛覆。它針對百萬Token級上下文,處理速度和效率遠超傳統GPU。例如,在視訊生成中,AI需處理上百萬Token(相當於一小時視訊),傳統系統已達極限。Rubin CPX整合視訊編解碼器和長上下文推理技術於單晶片,支援NVFP4精度,峰值算力30 Petaflops,記憶體128GB GDDR7。
此外,Rubin CPX關鍵進步還包括:
輝達的洞察在於:長上下文是AI Agent的核心瓶頸。Gartner報告顯示,到2027年,80%的AI應用將涉及多模態長序列處理。Rubin CPX的上市(2026年底),將鞏固輝達的生態霸權。
在9月份聖克拉拉舉行的人工智慧基礎設施峰會上,Google人工智慧和計算基礎設施總經理 Mark LohmeyerMark Lohmeyer分享的資料顯示,Google內部的推理請求量在過去一年裡呈幾何級增長,如下圖所示,Google應用中的推理令牌(token)使用量在 2024年4月到2025年4月間,增長了驚人的50倍。這種增長趨勢在2025年下半年變得更加陡峭,僅2025年6月到8月,月推理速率就從980兆個飆升至接近1460兆個。這凸顯了高性能推理晶片的迫切需求。
今年4月份,Google在Google Cloud Next 25大會上推出了其首款Google TPU推理晶片Ironwood,這也是Google的第七代張量處理單元 (TPU)。
Ironwood 根據 AI 工作負載需求提供兩種尺寸:256 晶片配置和 9,216 晶片配置。後者總算力達到42.5 Exaflops,是El Capitan超算的24倍;單晶片峰值4.614 Exaflops,功率效率1.5倍於Trillium,每瓦性能翻倍,較首代TPU提升30倍。
Ironwood的深度最佳化還包括:
展示的是一塊帶有四個 Ironwood TPU 的系統板。每個晶片(帶有金色蓋子的方形物體)旁邊都有四個長條狀的記憶體模組,這些是高頻寬記憶體(HBM)。這塊板卡是Google為了將四個TPU晶片封裝在一起,從而提供極高的算力和記憶體頻寬而設計的。
Google不僅在硬體上發力,還展示了一整套針對AI推理最佳化的軟體堆疊,旨在顯著提升效率和降低成本。
軟體堆疊核心元件主要包括:
總的來說,通過這些軟硬體的協同最佳化,最終能幫助Google雲客戶將推理延遲降低高達 96%,吞吐量提高 40%,並將每個令牌的成本降低多達 30%。
除了這些晶片巨頭,AI初創公司——Groq最近的融資也為推理晶片的熱度再加一把燃料。Groq由前GoogleTPU工程師於2016年創立,專攻AI推理晶片。
2025年 9 月,Groq 宣佈融資7.5 億美元。這也是AI硬體領域最大的私人融資之一。自2024 年 8 月至 2025 年 9 月,Groq的估值已經從28億美元躍升至 69 億美元。而在2021 年,在老虎環球基金領投的一輪融資後,Groq 的估值略高於 10 億美元。
此次融資由 Disruptive 領投,三星和思科也加入了這一輪融資。此外之前投資者D1 Capital、Altimeter 和其他之前支援過Groq 的公司也加入了進來。投資者的廣泛性(從金融巨頭到科技公司)凸顯了人們對Groq的技術和市場方向的廣泛信心。
Groq表示,新資金將用於加大晶片產量,計畫到2025年第一季度部署超過108,000 個 LPU(14 奈米代),以滿足需求。該公司還一直在投資人才,最近任命Stuart Pann(前英特爾員工)為首席營運官,甚至聘請Yann LeCun(Meta 的首席 AI 科學家)擔任技術顧問。
除了風險投資,Groq的資金還因訂單而增加。2025年 2 月,Groq從沙烏地阿拉伯獲得了 15 億美元的承諾,用於在沙烏地阿拉伯資料中心部署Groq的推理晶片;Groq 還成為貝爾加拿大 AI Fabric(一個橫跨六個資料中心(計畫容量為 500 兆瓦)的國家 AI 雲網路)的獨家推理提供商,Groq 晶片將於 2025 年為首批站點提供支援,貝爾選擇Groq作為其主權人工智慧基礎設施的獨家推理合作夥伴,理由是Groq比其他處理器“推理性能更快,而且成本低得多”。
Groq 的晶片被稱為語言處理單元 (LPU),採用新穎的“張量流”架構。它們採用單個大核心,配備片上記憶體和確定性、軟體調度的資料流,這與 GPU 的多核、基於快取的設計不同。這使得延遲比領先的 GPU競爭對手低10倍,並且通過將資料保留在片上,記憶體頻寬優勢高達10 倍——非常適合即時AI推理。
從晶片巨頭的重磅發佈,到初創公司的估值飆升,種種跡象表明,AI的下半場——推理,已經進入了全面競爭的時代。這場競賽的焦點不再僅僅是原始算力的比拚,更是對成本、能效、軟體生態和應用場景的綜合較量。
可以說,當大模型從實驗室走向千家萬戶,當AI從概念變為日常應用,誰能提供更高效、更經濟、更靈活的推理解決方案,誰就將最終掌握AI時代的鑰匙。這場沒有硝煙的戰爭才剛剛拉開序幕,未來的AI世界,將由這些推理晶片的角逐結果來定義。 (半導體行業觀察)