一年前,我們在《DeepSeek掀起算力革命,輝達挑戰加劇,ASIC晶片悄然崛起》一文中,更多的是看好ASIC帶來類似博通和晶圓代工的產業機會。一年後的今天,ASIC 的發展速度遠超預期。尤其近半年以來,ASIC甚至逐漸成為AI競爭的勝負手:國內外大廠開年以來股價表現最好的分別是百度、Google和阿里。GoogleTPU+自研模型+雲+內部應用的王炸,已經讓其立於不敗之地;國內網際網路大廠,近期被重估的只有自研ASIC晶片拆分獨立IPO的百度(計畫拆分崑崙芯IPO)和阿里(計畫拆分平頭哥IPO)。如今,ASIC 早已不只是單純的產業趨勢,更成為AI巨頭必煉的內功。01. ASIC趨勢比預期還要猛1. AI投資規劃越大,ASIC優勢就越明顯ASIC(Application Specific Integrated Circuit,專用積體電路)與 GPU 的核心差異,在於 ASIC 是針對特定演算法和應用的 “定製化最佳化”,而 GPU 則是適配多場景的 “通用型選手”。每個大廠都有自己獨特的應用、模型、雲和SaaS,ASIC 能精準匹配這些專屬需求,同時具備更低的成本與功耗優勢——這也是我們去年看好其在推理時代爆發的核心原因。當前 AI 軍備競賽愈演愈烈,10 萬美元/顆的 GPU 已讓大廠不堪重負(輝達 FY2025 年整體毛利率達 75.5%,淨利率 57%,單顆 GPU 成本不足 3 萬美元)。頭部廠商的 AI 資本開支已逼近千億美元,甚至需要通過融資、租賃外部算力等方式填補缺口。性價比更高的ASIC因此變得更為重要性:在AI算力向推理端傾斜、資料中心成本控制訴求升級的背景下,ASIC晶片憑藉顯著經濟性,正逐步打破GPU壟斷格局。Google自研晶片的成功,無疑更是行業的一針強心劑。所以近期,超大規模雲服務商都開始嘗試擺脫對輝達的依賴,加速建構自己的晶片護城河,以追求極致的 TCO(總擁有成本)和供應鏈安全。圖:GPU與ASIC比較資料來源:西南證券2. AI專用晶片邁過10億美元經濟生死線理論上,所有領域的晶片都該走向專用化——專用晶片的適配性與效率最優,但能否落地,關鍵在於下游市場能否支撐高昂的自研成本。當前 2nm 晶片流片成本已達 7 億美元,加上團隊搭建費用 3 億美元,自研門檻高達 10 億美元,這需要超 100 億美元的下游市場規模才能覆蓋成本。成功的代表是手機,每年全球近5000億美元的市場,自研主控SoC做的最好的是蘋果和華為,不僅降低了成本,更重要的是提升了手機性能,支撐溢價。但在比如汽車智駕領域,,由於市場空間並不夠大,主機廠自研並不具備經濟性,最終仍是輝達、地平線這樣的企業佔據主流。資料中心市場AI晶片單顆價值非常高,只需要有數百萬顆出貨量即可突破經濟生死線;顯然2025年開始,一個大廠內部採購的AI晶片數量就輕鬆超過100萬顆,容量已經完全能滿足流片和高昂的招聘費用。仍以Google為例,Techinsight資料顯示,其2023年自用TPU就超200萬顆,按年20億美金研發成本計算,單顆分攤成本僅幾千美金。經濟性的釋放,直接驅動資料中心 ASIC 出貨量持續攀升。據芯智訊援引 DIGITIMES 資料,ASIC 出貨量將進入加速通道,2027 年將突破 1000 萬顆,接近同期 GPU 1200 萬顆的水平。出貨量激增將同步帶動市場規模擴容,AI 用 ASIC 有望快速成長為千億美金賽道(對應單顆價值 1 萬美元左右,僅為輝達 GPU 的 1/5-1/10)。作為大廠 ASIC 核心合作方,博通給出更樂觀預期:2027 年大客戶 ASIC 可服務市場將達 600-900 億美元;Marvell 也預測,2028 年定製晶片將佔資料中心加速計算市場 25% 的份額。圖:可服務AISC市場規模估算資料來源:Marvell02. GPU和ASIC之爭繼續,結論是輝達難壟斷先說結論:在高速增長、供不應求的算力需求這一大背景下,輝達GPU作為基石的作用仍不可替代,但其份額將逐漸被ASIC蠶食。我們將在長期看到長期二者共存態勢:小型模型主導場景更利多 GPU 的靈活性,超大型模型持續增長則為 TPU 提供增長空間。具體原因下面展開。1. 輝達的領先,現在靠生態、產業鏈優先供應輝達GPU是當前最昂貴的計算加速器,適配各類 AI 場景,客戶粘性強,因為有兩大優勢。輝達明面上最大的優勢在於演算法生態:CUDA 生態與開發者習慣形成強壁壘、同時輝達 NVLink和InfiniBand長期主導 GPU 互聯。所以中小模型與研發場景長期仍將以 GPU 為主;在大模型訓推中,CUDA 生態仍領先其他方案至少一年半的時間。2. 另外一個在暗處的優勢是產業鏈優先支援輝達。就像即使設計水平一樣,蘋果的晶片也至少領先其他手機廠商一年,因為台積電最先進的晶片產能,蘋果是包圓的。同樣,輝達由於出貨量最大,是產業鏈優先支援的晶片廠,如:代工產能優先:輝達是台積電3nm 產能的優先合作夥伴,而Google等其他廠商在CoWoS 封裝、3nm 晶片產能上面臨競爭劣勢。HBM優先鎖定:全球僅 3 家 HBM 供應商(三星、海力士、美光),2026 年產能已售罄,2027 年仍可能供不應求,美光已明確表示不會因需求增加額外擴產,導致非輝達客戶產能得不到保障。我們最新瞭解到GoogleTPU 在 2026 年上半年有超過50%的產能缺口導致難大規模交付、微軟Maia 200也難產,都是由於產業鏈產能限制。3. 但以上問題,都可以靠時間得到解決。生態上:Google TPU 在AI 計算年支出超10 億美元超大型模型部署場景中已經有成本優勢了,所以將持續滲透大廠內部市場;此外,UALink、Ultra Ethernet 等開放標準正在崛起,有望打破輝達對互聯的壟斷。據測算,在10萬節點叢集中,Ethernet架構相較輝達InfiniBand,總擁有成本TCO最高可節省20%。另外隨著擴產,預計上游產能在2027 年逐步放量,供應鏈瓶頸開始緩解。同時2027年訓練與推理晶片資本開支佔比將趨近 50:50,給ASIC更大施展自己的舞台。圖:未來互聯技術選擇變多資料來源:錦緞研究院總結4. 更大的變局是GoogleTPU撕開輝達壟斷的裂縫如果說去年初我們對ASIC到底是否能分得一杯羹還存在猶豫的話,Google技術和商業閉環上的成功,已經徹底打消了我們的疑慮。Google TPU 的核心競爭力,首先源於技術層面的差異化優勢。自 2016 年首款 TPU V1 發佈並用於資料中心推理以來持續進行迭代,其最新的 TPU v7 搭載 Inter-Chip Interconnect技術,可支援最多 9000 個節點的超大規模叢集,訊號損耗低。硬體配置上,TPU 採用 HBM3E 記憶體,雖在容量和單系統算力上不及輝達產品,但功耗與乙太網路成本更具優勢,FP4 精度下每 PFLOPS 每小時成本僅 0.40 美元,性價比突出。5. 實戰表現是最好的驗證。GoogleNano Banana 等模型 100% 基於 TPU 完成訓練與推理,也支撐其內部語音搜尋、圖片搜尋等核心功能,成本低於 GPU,Google內部性能表現優異,在部分場景優於 GPU。同時成功走向外部市場,尤其是最新的V7版本:Meta,計畫2026年租用 TPU,並從 2027 年開始購買超100萬顆、價值數十億美元的 TPU,用於 Llama 模型部署,通過乙太網路與功耗最佳化實現15%-20% TCO 節省;OpenAI 達成合作協議,將部分推理工作負載從輝達晶片遷移至 TPU ;Anthropic 已承諾在 GCP 叢集中使用 TPU 訓練模型,2025年10月簽署 100 萬 TPU訂單;Apple 2024年就採購TPU用其進行 LLM 訓練;潛在客戶:部分新興雲廠商(如 Fluidstack、TeraWulf)因 GCP 提供付款擔保而嘗試採用 TPU。圖:GoogleTPU有清晰的路線圖資料來源:浙商證券輝達的真正挑戰者,並非 AMD、英特爾等同行,而是Google這樣的跨界玩家。我們調研瞭解到,單顆 TPU 晶片售價預計1—1.5 萬美元,定價瞄準 AMD,意圖通過低價擠壓競爭對手,倒逼輝達降價。僅 Meta 一家就可能為Google帶來 10 億美元以上的收入。樂觀測算,到 2027 年,TPU 可能搶佔輝達15% 的訓練市場份額:現有輝達使用者遷移雖需時間,但新增工作負載更易轉向 TPU。Semianalysis更是預測2027年GoogleTPU(v6-v8)合計出貨量達到600萬顆。這一預測並不激進 ——2027 年推理場景佔比將達 50%,ASIC 將承擔其中 50% 的工作負載,對應 ASIC 在算力晶片中的滲透率超 20%,而Google TPU 拿下其中一半份額(當前份額 75%)難度不大。6. 來自EDA的產業鏈驗證上述趨勢,得到了晶片行業最上游 EDA 領域的雙重驗證。作為整個晶片行業最上游的EDA行業,Synopsys和Cadence最新的指引為:未來EDA 行業增長核心來自蘋果、Google、特斯拉等 “系統公司”,而不是第三方晶片設計廠;具體來說,這類系統性客戶佔當前 EDA 營收的 45%左右,未來 2-3 年將超 50%。這意味著,大廠自研晶片,並通過外售攤薄成本(如Google、百度、阿里)的模式,將從今年起加速推進。03. Google示範效應下,大廠紛紛豪賭自研ASIC1. 成本集約、降低功耗符闔第一性原理在《馬斯克說“中國將最終贏得AI競爭”,有什麼深意?》一文中,我們提到,當前AI用電還只佔美國用電的5%左右,到2030年AI耗電佔到10%,到2035年佔比接近20%,未來更加缺電。除了增加發電容量外,降低單晶片功耗也同樣關鍵。ASIC對於大廠而言,不僅僅是降低成本,還能降低寶貴的額功耗。GPU 作為通用計算晶片存在 30-40% 功能冗餘,必定導致功耗浪費,而 ASIC可針對特定工作負載最佳化,降低成本與功耗,成為大廠的必選。主流ASIC在算力性能上已基本對齊輝達H系列GPU,但能效比優勢突出,同代際晶片具體指標對比:算力方面,輝達H100 FP16算力為990 TFLOPS,GoogleTPU V6e為918 TFLOPS,AWS Trainium2為667 TFLOPS;功耗上,H100達700W,TPU V6e僅383W,Trainium2為500W;互聯頻寬上,H100以900GB/s領先,TPU V6e為448GB/s,Trainium2為512GB/s。2. 北美大廠近兩年加速為搭上ASIC這班高速列車,海外雲廠CSP紛紛加碼自研ASIC,並依託外部晶片設計合作夥伴簡化落地難度,核心合作廠商包括Marvell、Broadcom、Alchip等。這是由於大廠僅具備部分自研能力,例如Google、亞馬遜可完成前端設計(程式碼編寫、綜合),但物理層技術(如SerDes、交換機、相干光模組)存在高壁壘,需依賴外部成熟產品與IP,後端驗證、流片等體力活也需外部支援。圖:合作的ASIC廠商優劣勢對比資料來源:錦緞研究院總結Google已深耕 TPU 十年,前文已有詳細討論;其他北美大廠則是近兩年加速跟上,動作開始變大。亞馬遜:Trainium2於2023年發佈,由16顆Trainium2晶片支援的EC2 Trn2實例,性價比相較GPU-based實例高出30-40%,目前已服務超200位客戶,覆蓋營運商、航空、零售等領域,2024年出貨量年增率突破200%,2025年預計增長70%以上,但項目有些延遲,未來將重點聚焦Trainium3晶片,投入公有雲基礎設施及電商平台AI應用。Meta:MTIA系列專為推薦推理任務設計。2024年MTIA v2採用台積電5nm工藝,TDP僅90W顯著降低功耗,可高效處理社交媒體內容推薦、廣告最佳化等內部任務;2025年推出MTIA v3,將搭載HBM記憶體,2026年有望實現放量。微軟:2024年公佈Maia 100,採用台積電5nm工藝與CoWoS-S技術,當前承載內部10%-20%工作載荷,聚焦大規模AI工作負載的成本與效率最佳化;隨著 Maia 300 量產與 workload 適配深化,目標定製 ASIC 相較輝達件成本節省80%,能耗成本降低 50%,長期 TCO 最佳化達 80%;OpenAI:2024年曝光首顆晶片,將採用台積電A16工藝,專為Sora視訊應用打造,且與博通達成100億美元合作,聯合開發專屬推理晶片,目標12個月內交付。特斯拉:計畫2025年底推出下一代Dojo 2晶片,性能有望媲美輝達B200,核心服務於Dojo訓練電腦項目。xAI則是正式啟動x1晶片自研,計畫今年量產。圖:海外CSP巨頭自研ASIC時間表資料來源:申萬宏源圖:北美廠商ASIC晶片及合作夥伴梳理資料來源:東吳證券3. 中國大廠:晶片項目重要程度跳升中國頭部大廠自研 ASIC 的時間早於北美同行,但此前多為小打小鬧。在Google TPU 驗證可行性、輝達晶片受限的雙重驅動下,ASIC 已上升為核心戰略,並已取得階段性成果。百度崑崙芯:崑崙芯擁有 15 年技術積累,一直錨定AI訓練與推理加速的核心場景,相容CUDA生態,目前已迭代至第三代。崑崙芯2024年出貨量6.9萬片、營收20億,2025年預計出貨13萬片、營收沖35億。對外客戶,實現萬卡叢集部署並中標中國移動10億訂單,實際上外部客戶是2026年高增的主要來源,已進入中國移動、南方電網、比亞迪、招商銀行、地方智算中心等供應鏈。阿里平頭哥:核心產品線包括倚天、含光、PPU三類,其中PPU作為大算力晶片是市場焦點,又分為兩款主力產品:高端款單顆算力超300T、視訊記憶體96G,採用先進製程,僅以整機形式銷售,2024-2025年合計出貨估計30萬張,低端款採用中芯國際12nm(N+1)工藝,由燦芯負責後道IP及介面設計,單價不超2-3萬元,2026年Q1啟動流片量產,預計出貨50萬顆。銷售模式以內部消化為主,對外銷售需搭配阿里雲方案,無獨立適配場景,2026年PPU整體出貨預計80萬顆。字節跳動:字節佈局CPU與ASIC兩類晶片,自研處理程序落後於平頭哥、崑崙芯,當前採取“外采低端晶片+推進海外研發+國內先進製程排隊”策略,2026年將完成海內外先進工藝設計,等待產能流片,計畫2026年前實現量產。騰訊:後發追趕,自研緊迫性較強,終止對燧原投資並重啟“紫霄”自研項目,以數倍薪酬挖角頂尖人才,需求集中在遊戲、AIGC、數字孿生等領域。但相對海外巨頭,中國大廠面臨更大的挑戰,體現在幾個方面:主業掙錢不如海外大廠,股東對於內部晶片業務虧損不滿,所以阿里百度都開始分拆上市平衡短期虧損與長期戰略投入;先進產能資源更加稀缺,中國由於美國的封鎖,中芯國際等先進製程產能供不應求;配套AI晶片服務廠類似博通、Marvell,由於制裁原因也很難為國內企業提供定製服務,國內相關的芯原股份、翱捷科技等在技術積累、IP沉澱、經驗上都有比較明顯的差距。04. 結語:AI競爭錨點之變AI 產業的競爭,已從模型演算法的比拚,延伸到算力底層的硬核博弈。ASIC 晶片憑藉極致的能效比與成本優勢,正在重塑全球 AI格局,成為巨頭們構築競爭壁壘的核心抓手。沒有自研 ASIC 晶片,在這場更燒錢、更考驗綜合實力的 AI 競賽中,終將失去話語權。晶片已經內化成生態的一環了,我們將在此後的文章中進一步展開。對於中國企業而言,這既是順應產業趨勢的必然選擇,也是直面挑戰的艱難征程。儘管在盈利能力、先進產能、產業鏈配套等方面面臨著比海外企業更嚴峻的考驗,但自研 ASIC 已是無法迴避的戰略方向。百度崑崙芯的穩步起量到阿里平頭哥的分拆提速,都宣告2026是中國大廠加速轉向之年。對此我們是偏樂觀的,在技術攻堅與生態建構的持續投入下,中國企業終將在全球 ASIC 賽道佔據一席之地。 (錦緞)