一年前,我們在《DeepSeek掀起算力革命,輝達挑戰加劇,ASIC晶片悄然崛起》一文中,更多的是看好ASIC帶來類似博通和晶圓代工的產業機會。
一年後的今天,ASIC 的發展速度遠超預期。尤其近半年以來,ASIC甚至逐漸成為AI競爭的勝負手:國內外大廠開年以來股價表現最好的分別是百度、Google和阿里。
GoogleTPU+自研模型+雲+內部應用的王炸,已經讓其立於不敗之地;國內網際網路大廠,近期被重估的只有自研ASIC晶片拆分獨立IPO的百度(計畫拆分崑崙芯IPO)和阿里(計畫拆分平頭哥IPO)。
如今,ASIC 早已不只是單純的產業趨勢,更成為AI巨頭必煉的內功。
1. AI投資規劃越大,ASIC優勢就越明顯
ASIC(Application Specific Integrated Circuit,專用積體電路)與 GPU 的核心差異,在於 ASIC 是針對特定演算法和應用的 “定製化最佳化”,而 GPU 則是適配多場景的 “通用型選手”。
每個大廠都有自己獨特的應用、模型、雲和SaaS,ASIC 能精準匹配這些專屬需求,同時具備更低的成本與功耗優勢——這也是我們去年看好其在推理時代爆發的核心原因。
當前 AI 軍備競賽愈演愈烈,10 萬美元/顆的 GPU 已讓大廠不堪重負(輝達 FY2025 年整體毛利率達 75.5%,淨利率 57%,單顆 GPU 成本不足 3 萬美元)。頭部廠商的 AI 資本開支已逼近千億美元,甚至需要通過融資、租賃外部算力等方式填補缺口。
性價比更高的ASIC因此變得更為重要性:在AI算力向推理端傾斜、資料中心成本控制訴求升級的背景下,ASIC晶片憑藉顯著經濟性,正逐步打破GPU壟斷格局。
Google自研晶片的成功,無疑更是行業的一針強心劑。所以近期,超大規模雲服務商都開始嘗試擺脫對輝達的依賴,加速建構自己的晶片護城河,以追求極致的 TCO(總擁有成本)和供應鏈安全。
2. AI專用晶片邁過10億美元經濟生死線
理論上,所有領域的晶片都該走向專用化——專用晶片的適配性與效率最優,但能否落地,關鍵在於下游市場能否支撐高昂的自研成本。
當前 2nm 晶片流片成本已達 7 億美元,加上團隊搭建費用 3 億美元,自研門檻高達 10 億美元,這需要超 100 億美元的下游市場規模才能覆蓋成本。
資料中心市場AI晶片單顆價值非常高,只需要有數百萬顆出貨量即可突破經濟生死線;顯然2025年開始,一個大廠內部採購的AI晶片數量就輕鬆超過100萬顆,容量已經完全能滿足流片和高昂的招聘費用。
仍以Google為例,Techinsight資料顯示,其2023年自用TPU就超200萬顆,按年20億美金研發成本計算,單顆分攤成本僅幾千美金。
經濟性的釋放,直接驅動資料中心 ASIC 出貨量持續攀升。據芯智訊援引 DIGITIMES 資料,ASIC 出貨量將進入加速通道,2027 年將突破 1000 萬顆,接近同期 GPU 1200 萬顆的水平。
出貨量激增將同步帶動市場規模擴容,AI 用 ASIC 有望快速成長為千億美金賽道(對應單顆價值 1 萬美元左右,僅為輝達 GPU 的 1/5-1/10)。作為大廠 ASIC 核心合作方,博通給出更樂觀預期:2027 年大客戶 ASIC 可服務市場將達 600-900 億美元;Marvell 也預測,2028 年定製晶片將佔資料中心加速計算市場 25% 的份額。
先說結論:在高速增長、供不應求的算力需求這一大背景下,輝達GPU作為基石的作用仍不可替代,但其份額將逐漸被ASIC蠶食。
我們將在長期看到長期二者共存態勢:小型模型主導場景更利多 GPU 的靈活性,超大型模型持續增長則為 TPU 提供增長空間。
具體原因下面展開。
1. 輝達的領先,現在靠生態、產業鏈優先供應
輝達GPU是當前最昂貴的計算加速器,適配各類 AI 場景,客戶粘性強,因為有兩大優勢。
輝達明面上最大的優勢在於演算法生態:CUDA 生態與開發者習慣形成強壁壘、同時輝達 NVLink和InfiniBand長期主導 GPU 互聯。
所以中小模型與研發場景長期仍將以 GPU 為主;在大模型訓推中,CUDA 生態仍領先其他方案至少一年半的時間。
2. 另外一個在暗處的優勢是產業鏈優先支援輝達。
就像即使設計水平一樣,蘋果的晶片也至少領先其他手機廠商一年,因為台積電最先進的晶片產能,蘋果是包圓的。
同樣,輝達由於出貨量最大,是產業鏈優先支援的晶片廠,如:
我們最新瞭解到GoogleTPU 在 2026 年上半年有超過50%的產能缺口導致難大規模交付、微軟Maia 200也難產,都是由於產業鏈產能限制。
3. 但以上問題,都可以靠時間得到解決。
生態上:
另外隨著擴產,預計上游產能在2027 年逐步放量,供應鏈瓶頸開始緩解。同時2027年訓練與推理晶片資本開支佔比將趨近 50:50,給ASIC更大施展自己的舞台。
4. 更大的變局是GoogleTPU撕開輝達壟斷的裂縫
如果說去年初我們對ASIC到底是否能分得一杯羹還存在猶豫的話,Google技術和商業閉環上的成功,已經徹底打消了我們的疑慮。
Google TPU 的核心競爭力,首先源於技術層面的差異化優勢。
自 2016 年首款 TPU V1 發佈並用於資料中心推理以來持續進行迭代,其最新的 TPU v7 搭載 Inter-Chip Interconnect技術,可支援最多 9000 個節點的超大規模叢集,訊號損耗低。
硬體配置上,TPU 採用 HBM3E 記憶體,雖在容量和單系統算力上不及輝達產品,但功耗與乙太網路成本更具優勢,FP4 精度下每 PFLOPS 每小時成本僅 0.40 美元,性價比突出。
5. 實戰表現是最好的驗證。
GoogleNano Banana 等模型 100% 基於 TPU 完成訓練與推理,也支撐其內部語音搜尋、圖片搜尋等核心功能,成本低於 GPU,Google內部性能表現優異,在部分場景優於 GPU。
同時成功走向外部市場,尤其是最新的V7版本:
輝達的真正挑戰者,並非 AMD、英特爾等同行,而是Google這樣的跨界玩家。
我們調研瞭解到,單顆 TPU 晶片售價預計1—1.5 萬美元,定價瞄準 AMD,意圖通過低價擠壓競爭對手,倒逼輝達降價。僅 Meta 一家就可能為Google帶來 10 億美元以上的收入。
樂觀測算,到 2027 年,TPU 可能搶佔輝達15% 的訓練市場份額:現有輝達使用者遷移雖需時間,但新增工作負載更易轉向 TPU。Semianalysis更是預測2027年GoogleTPU(v6-v8)合計出貨量達到600萬顆。
這一預測並不激進 ——2027 年推理場景佔比將達 50%,ASIC 將承擔其中 50% 的工作負載,對應 ASIC 在算力晶片中的滲透率超 20%,而Google TPU 拿下其中一半份額(當前份額 75%)難度不大。
6. 來自EDA的產業鏈驗證
上述趨勢,得到了晶片行業最上游 EDA 領域的雙重驗證。
作為整個晶片行業最上游的EDA行業,Synopsys和Cadence最新的指引為:未來EDA 行業增長核心來自蘋果、Google、特斯拉等 “系統公司”,而不是第三方晶片設計廠;具體來說,這類系統性客戶佔當前 EDA 營收的 45%左右,未來 2-3 年將超 50%。
這意味著,大廠自研晶片,並通過外售攤薄成本(如Google、百度、阿里)的模式,將從今年起加速推進。
1. 成本集約、降低功耗符闔第一性原理
在《馬斯克說“中國將最終贏得AI競爭”,有什麼深意?》一文中,我們提到,當前AI用電還只佔美國用電的5%左右,到2030年AI耗電佔到10%,到2035年佔比接近20%,未來更加缺電。
除了增加發電容量外,降低單晶片功耗也同樣關鍵。ASIC對於大廠而言,不僅僅是降低成本,還能降低寶貴的額功耗。
GPU 作為通用計算晶片存在 30-40% 功能冗餘,必定導致功耗浪費,而 ASIC可針對特定工作負載最佳化,降低成本與功耗,成為大廠的必選。
主流ASIC在算力性能上已基本對齊輝達H系列GPU,但能效比優勢突出,同代際晶片具體指標對比:
2. 北美大廠近兩年加速
為搭上ASIC這班高速列車,海外雲廠CSP紛紛加碼自研ASIC,並依託外部晶片設計合作夥伴簡化落地難度,核心合作廠商包括Marvell、Broadcom、Alchip等。
這是由於大廠僅具備部分自研能力,例如Google、亞馬遜可完成前端設計(程式碼編寫、綜合),但物理層技術(如SerDes、交換機、相干光模組)存在高壁壘,需依賴外部成熟產品與IP,後端驗證、流片等體力活也需外部支援。
Google已深耕 TPU 十年,前文已有詳細討論;其他北美大廠則是近兩年加速跟上,動作開始變大。
亞馬遜:Trainium2於2023年發佈,由16顆Trainium2晶片支援的EC2 Trn2實例,性價比相較GPU-based實例高出30-40%,目前已服務超200位客戶,覆蓋營運商、航空、零售等領域,2024年出貨量年增率突破200%,2025年預計增長70%以上,但項目有些延遲,未來將重點聚焦Trainium3晶片,投入公有雲基礎設施及電商平台AI應用。
Meta:MTIA系列專為推薦推理任務設計。2024年MTIA v2採用台積電5nm工藝,TDP僅90W顯著降低功耗,可高效處理社交媒體內容推薦、廣告最佳化等內部任務;2025年推出MTIA v3,將搭載HBM記憶體,2026年有望實現放量。
微軟:2024年公佈Maia 100,採用台積電5nm工藝與CoWoS-S技術,當前承載內部10%-20%工作載荷,聚焦大規模AI工作負載的成本與效率最佳化;隨著 Maia 300 量產與 workload 適配深化,目標定製 ASIC 相較輝達件成本節省80%,能耗成本降低 50%,長期 TCO 最佳化達 80%;
OpenAI:2024年曝光首顆晶片,將採用台積電A16工藝,專為Sora視訊應用打造,且與博通達成100億美元合作,聯合開發專屬推理晶片,目標12個月內交付。
特斯拉:計畫2025年底推出下一代Dojo 2晶片,性能有望媲美輝達B200,核心服務於Dojo訓練電腦項目。xAI則是正式啟動x1晶片自研,計畫今年量產。
3. 中國大廠:晶片項目重要程度跳升
中國頭部大廠自研 ASIC 的時間早於北美同行,但此前多為小打小鬧。在Google TPU 驗證可行性、輝達晶片受限的雙重驅動下,ASIC 已上升為核心戰略,並已取得階段性成果。
百度崑崙芯:
崑崙芯擁有 15 年技術積累,一直錨定AI訓練與推理加速的核心場景,相容CUDA生態,目前已迭代至第三代。
崑崙芯2024年出貨量6.9萬片、營收20億,2025年預計出貨13萬片、營收沖35億。對外客戶,實現萬卡叢集部署並中標中國移動10億訂單,實際上外部客戶是2026年高增的主要來源,已進入中國移動、南方電網、比亞迪、招商銀行、地方智算中心等供應鏈。
阿里平頭哥:
核心產品線包括倚天、含光、PPU三類,其中PPU作為大算力晶片是市場焦點,又分為兩款主力產品:高端款單顆算力超300T、視訊記憶體96G,採用先進製程,僅以整機形式銷售,2024-2025年合計出貨估計30萬張,低端款採用中芯國際12nm(N+1)工藝,由燦芯負責後道IP及介面設計,單價不超2-3萬元,2026年Q1啟動流片量產,預計出貨50萬顆。
銷售模式以內部消化為主,對外銷售需搭配阿里雲方案,無獨立適配場景,2026年PPU整體出貨預計80萬顆。
字節跳動:字節佈局CPU與ASIC兩類晶片,自研處理程序落後於平頭哥、崑崙芯,當前採取“外采低端晶片+推進海外研發+國內先進製程排隊”策略,2026年將完成海內外先進工藝設計,等待產能流片,計畫2026年前實現量產。
騰訊:後發追趕,自研緊迫性較強,終止對燧原投資並重啟“紫霄”自研項目,以數倍薪酬挖角頂尖人才,需求集中在遊戲、AIGC、數字孿生等領域。
但相對海外巨頭,中國大廠面臨更大的挑戰,體現在幾個方面:
AI 產業的競爭,已從模型演算法的比拚,延伸到算力底層的硬核博弈。ASIC 晶片憑藉極致的能效比與成本優勢,正在重塑全球 AI格局,成為巨頭們構築競爭壁壘的核心抓手。
沒有自研 ASIC 晶片,在這場更燒錢、更考驗綜合實力的 AI 競賽中,終將失去話語權。晶片已經內化成生態的一環了,我們將在此後的文章中進一步展開。
對於中國企業而言,這既是順應產業趨勢的必然選擇,也是直面挑戰的艱難征程。儘管在盈利能力、先進產能、產業鏈配套等方面面臨著比海外企業更嚴峻的考驗,但自研 ASIC 已是無法迴避的戰略方向。
百度崑崙芯的穩步起量到阿里平頭哥的分拆提速,都宣告2026是中國大廠加速轉向之年。對此我們是偏樂觀的,在技術攻堅與生態建構的持續投入下,中國企業終將在全球 ASIC 賽道佔據一席之地。 (錦緞)