#ASIC
百芯大戰
一年前,我們在《DeepSeek掀起算力革命,輝達挑戰加劇,ASIC晶片悄然崛起》一文中,更多的是看好ASIC帶來類似博通和晶圓代工的產業機會。一年後的今天,ASIC 的發展速度遠超預期。尤其近半年以來,ASIC甚至逐漸成為AI競爭的勝負手:國內外大廠開年以來股價表現最好的分別是百度、Google和阿里。GoogleTPU+自研模型+雲+內部應用的王炸,已經讓其立於不敗之地;國內網際網路大廠,近期被重估的只有自研ASIC晶片拆分獨立IPO的百度(計畫拆分崑崙芯IPO)和阿里(計畫拆分平頭哥IPO)。如今,ASIC 早已不只是單純的產業趨勢,更成為AI巨頭必煉的內功。01. ASIC趨勢比預期還要猛1. AI投資規劃越大,ASIC優勢就越明顯ASIC(Application Specific Integrated Circuit,專用積體電路)與 GPU 的核心差異,在於 ASIC 是針對特定演算法和應用的 “定製化最佳化”,而 GPU 則是適配多場景的 “通用型選手”。每個大廠都有自己獨特的應用、模型、雲和SaaS,ASIC 能精準匹配這些專屬需求,同時具備更低的成本與功耗優勢——這也是我們去年看好其在推理時代爆發的核心原因。當前 AI 軍備競賽愈演愈烈,10 萬美元/顆的 GPU 已讓大廠不堪重負(輝達 FY2025 年整體毛利率達 75.5%,淨利率 57%,單顆 GPU 成本不足 3 萬美元)。頭部廠商的 AI 資本開支已逼近千億美元,甚至需要通過融資、租賃外部算力等方式填補缺口。性價比更高的ASIC因此變得更為重要性:在AI算力向推理端傾斜、資料中心成本控制訴求升級的背景下,ASIC晶片憑藉顯著經濟性,正逐步打破GPU壟斷格局。Google自研晶片的成功,無疑更是行業的一針強心劑。所以近期,超大規模雲服務商都開始嘗試擺脫對輝達的依賴,加速建構自己的晶片護城河,以追求極致的 TCO(總擁有成本)和供應鏈安全。圖:GPU與ASIC比較資料來源:西南證券2. AI專用晶片邁過10億美元經濟生死線理論上,所有領域的晶片都該走向專用化——專用晶片的適配性與效率最優,但能否落地,關鍵在於下游市場能否支撐高昂的自研成本。當前 2nm 晶片流片成本已達 7 億美元,加上團隊搭建費用 3 億美元,自研門檻高達 10 億美元,這需要超 100 億美元的下游市場規模才能覆蓋成本。成功的代表是手機,每年全球近5000億美元的市場,自研主控SoC做的最好的是蘋果和華為,不僅降低了成本,更重要的是提升了手機性能,支撐溢價。但在比如汽車智駕領域,,由於市場空間並不夠大,主機廠自研並不具備經濟性,最終仍是輝達、地平線這樣的企業佔據主流。資料中心市場AI晶片單顆價值非常高,只需要有數百萬顆出貨量即可突破經濟生死線;顯然2025年開始,一個大廠內部採購的AI晶片數量就輕鬆超過100萬顆,容量已經完全能滿足流片和高昂的招聘費用。仍以Google為例,Techinsight資料顯示,其2023年自用TPU就超200萬顆,按年20億美金研發成本計算,單顆分攤成本僅幾千美金。經濟性的釋放,直接驅動資料中心 ASIC 出貨量持續攀升。據芯智訊援引 DIGITIMES 資料,ASIC 出貨量將進入加速通道,2027 年將突破 1000 萬顆,接近同期 GPU 1200 萬顆的水平。出貨量激增將同步帶動市場規模擴容,AI 用 ASIC 有望快速成長為千億美金賽道(對應單顆價值 1 萬美元左右,僅為輝達 GPU 的 1/5-1/10)。作為大廠 ASIC 核心合作方,博通給出更樂觀預期:2027 年大客戶 ASIC 可服務市場將達 600-900 億美元;Marvell 也預測,2028 年定製晶片將佔資料中心加速計算市場 25% 的份額。圖:可服務AISC市場規模估算資料來源:Marvell02. GPU和ASIC之爭繼續,結論是輝達難壟斷先說結論:在高速增長、供不應求的算力需求這一大背景下,輝達GPU作為基石的作用仍不可替代,但其份額將逐漸被ASIC蠶食。我們將在長期看到長期二者共存態勢:小型模型主導場景更利多 GPU 的靈活性,超大型模型持續增長則為 TPU 提供增長空間。具體原因下面展開。1. 輝達的領先,現在靠生態、產業鏈優先供應輝達GPU是當前最昂貴的計算加速器,適配各類 AI 場景,客戶粘性強,因為有兩大優勢。輝達明面上最大的優勢在於演算法生態:CUDA 生態與開發者習慣形成強壁壘、同時輝達 NVLink和InfiniBand長期主導 GPU 互聯。所以中小模型與研發場景長期仍將以 GPU 為主;在大模型訓推中,CUDA 生態仍領先其他方案至少一年半的時間。2. 另外一個在暗處的優勢是產業鏈優先支援輝達。就像即使設計水平一樣,蘋果的晶片也至少領先其他手機廠商一年,因為台積電最先進的晶片產能,蘋果是包圓的。同樣,輝達由於出貨量最大,是產業鏈優先支援的晶片廠,如:代工產能優先:輝達是台積電3nm 產能的優先合作夥伴,而Google等其他廠商在CoWoS 封裝、3nm 晶片產能上面臨競爭劣勢。HBM優先鎖定:全球僅 3 家 HBM 供應商(三星、海力士、美光),2026 年產能已售罄,2027 年仍可能供不應求,美光已明確表示不會因需求增加額外擴產,導致非輝達客戶產能得不到保障。我們最新瞭解到GoogleTPU 在 2026 年上半年有超過50%的產能缺口導致難大規模交付、微軟Maia 200也難產,都是由於產業鏈產能限制。3. 但以上問題,都可以靠時間得到解決。生態上:Google TPU 在AI 計算年支出超10 億美元超大型模型部署場景中已經有成本優勢了,所以將持續滲透大廠內部市場;此外,UALink、Ultra Ethernet 等開放標準正在崛起,有望打破輝達對互聯的壟斷。據測算,在10萬節點叢集中,Ethernet架構相較輝達InfiniBand,總擁有成本TCO最高可節省20%。另外隨著擴產,預計上游產能在2027 年逐步放量,供應鏈瓶頸開始緩解。同時2027年訓練與推理晶片資本開支佔比將趨近 50:50,給ASIC更大施展自己的舞台。圖:未來互聯技術選擇變多資料來源:錦緞研究院總結4. 更大的變局是GoogleTPU撕開輝達壟斷的裂縫如果說去年初我們對ASIC到底是否能分得一杯羹還存在猶豫的話,Google技術和商業閉環上的成功,已經徹底打消了我們的疑慮。Google TPU 的核心競爭力,首先源於技術層面的差異化優勢。自 2016 年首款 TPU V1 發佈並用於資料中心推理以來持續進行迭代,其最新的 TPU v7 搭載 Inter-Chip Interconnect技術,可支援最多 9000 個節點的超大規模叢集,訊號損耗低。硬體配置上,TPU 採用 HBM3E 記憶體,雖在容量和單系統算力上不及輝達產品,但功耗與乙太網路成本更具優勢,FP4 精度下每 PFLOPS 每小時成本僅 0.40 美元,性價比突出。5. 實戰表現是最好的驗證。GoogleNano Banana 等模型 100% 基於 TPU 完成訓練與推理,也支撐其內部語音搜尋、圖片搜尋等核心功能,成本低於 GPU,Google內部性能表現優異,在部分場景優於 GPU。同時成功走向外部市場,尤其是最新的V7版本:Meta,計畫2026年租用 TPU,並從 2027 年開始購買超100萬顆、價值數十億美元的 TPU,用於 Llama 模型部署,通過乙太網路與功耗最佳化實現15%-20% TCO 節省;OpenAI 達成合作協議,將部分推理工作負載從輝達晶片遷移至 TPU ;Anthropic 已承諾在 GCP 叢集中使用 TPU 訓練模型,2025年10月簽署 100 萬 TPU訂單;Apple 2024年就採購TPU用其進行 LLM 訓練;潛在客戶:部分新興雲廠商(如 Fluidstack、TeraWulf)因 GCP 提供付款擔保而嘗試採用 TPU。圖:GoogleTPU有清晰的路線圖資料來源:浙商證券輝達的真正挑戰者,並非 AMD、英特爾等同行,而是Google這樣的跨界玩家。我們調研瞭解到,單顆 TPU 晶片售價預計1—1.5 萬美元,定價瞄準 AMD,意圖通過低價擠壓競爭對手,倒逼輝達降價。僅 Meta 一家就可能為Google帶來 10 億美元以上的收入。樂觀測算,到 2027 年,TPU 可能搶佔輝達15% 的訓練市場份額:現有輝達使用者遷移雖需時間,但新增工作負載更易轉向 TPU。Semianalysis更是預測2027年GoogleTPU(v6-v8)合計出貨量達到600萬顆。這一預測並不激進 ——2027 年推理場景佔比將達 50%,ASIC 將承擔其中 50% 的工作負載,對應 ASIC 在算力晶片中的滲透率超 20%,而Google TPU 拿下其中一半份額(當前份額 75%)難度不大。6. 來自EDA的產業鏈驗證上述趨勢,得到了晶片行業最上游 EDA 領域的雙重驗證。作為整個晶片行業最上游的EDA行業,Synopsys和Cadence最新的指引為:未來EDA 行業增長核心來自蘋果、Google、特斯拉等 “系統公司”,而不是第三方晶片設計廠;具體來說,這類系統性客戶佔當前 EDA 營收的 45%左右,未來 2-3 年將超 50%。這意味著,大廠自研晶片,並通過外售攤薄成本(如Google、百度、阿里)的模式,將從今年起加速推進。03. Google示範效應下,大廠紛紛豪賭自研ASIC1. 成本集約、降低功耗符闔第一性原理在《馬斯克說“中國將最終贏得AI競爭”,有什麼深意?》一文中,我們提到,當前AI用電還只佔美國用電的5%左右,到2030年AI耗電佔到10%,到2035年佔比接近20%,未來更加缺電。除了增加發電容量外,降低單晶片功耗也同樣關鍵。ASIC對於大廠而言,不僅僅是降低成本,還能降低寶貴的額功耗。GPU 作為通用計算晶片存在 30-40% 功能冗餘,必定導致功耗浪費,而 ASIC可針對特定工作負載最佳化,降低成本與功耗,成為大廠的必選。主流ASIC在算力性能上已基本對齊輝達H系列GPU,但能效比優勢突出,同代際晶片具體指標對比:算力方面,輝達H100 FP16算力為990 TFLOPS,GoogleTPU V6e為918 TFLOPS,AWS Trainium2為667 TFLOPS;功耗上,H100達700W,TPU V6e僅383W,Trainium2為500W;互聯頻寬上,H100以900GB/s領先,TPU V6e為448GB/s,Trainium2為512GB/s。2. 北美大廠近兩年加速為搭上ASIC這班高速列車,海外雲廠CSP紛紛加碼自研ASIC,並依託外部晶片設計合作夥伴簡化落地難度,核心合作廠商包括Marvell、Broadcom、Alchip等。這是由於大廠僅具備部分自研能力,例如Google、亞馬遜可完成前端設計(程式碼編寫、綜合),但物理層技術(如SerDes、交換機、相干光模組)存在高壁壘,需依賴外部成熟產品與IP,後端驗證、流片等體力活也需外部支援。圖:合作的ASIC廠商優劣勢對比資料來源:錦緞研究院總結Google已深耕 TPU 十年,前文已有詳細討論;其他北美大廠則是近兩年加速跟上,動作開始變大。亞馬遜:Trainium2於2023年發佈,由16顆Trainium2晶片支援的EC2 Trn2實例,性價比相較GPU-based實例高出30-40%,目前已服務超200位客戶,覆蓋營運商、航空、零售等領域,2024年出貨量年增率突破200%,2025年預計增長70%以上,但項目有些延遲,未來將重點聚焦Trainium3晶片,投入公有雲基礎設施及電商平台AI應用。Meta:MTIA系列專為推薦推理任務設計。2024年MTIA v2採用台積電5nm工藝,TDP僅90W顯著降低功耗,可高效處理社交媒體內容推薦、廣告最佳化等內部任務;2025年推出MTIA v3,將搭載HBM記憶體,2026年有望實現放量。微軟:2024年公佈Maia 100,採用台積電5nm工藝與CoWoS-S技術,當前承載內部10%-20%工作載荷,聚焦大規模AI工作負載的成本與效率最佳化;隨著 Maia 300 量產與 workload 適配深化,目標定製 ASIC 相較輝達件成本節省80%,能耗成本降低 50%,長期 TCO 最佳化達 80%;OpenAI:2024年曝光首顆晶片,將採用台積電A16工藝,專為Sora視訊應用打造,且與博通達成100億美元合作,聯合開發專屬推理晶片,目標12個月內交付。特斯拉:計畫2025年底推出下一代Dojo 2晶片,性能有望媲美輝達B200,核心服務於Dojo訓練電腦項目。xAI則是正式啟動x1晶片自研,計畫今年量產。圖:海外CSP巨頭自研ASIC時間表資料來源:申萬宏源圖:北美廠商ASIC晶片及合作夥伴梳理資料來源:東吳證券3. 中國大廠:晶片項目重要程度跳升中國頭部大廠自研 ASIC 的時間早於北美同行,但此前多為小打小鬧。在Google TPU 驗證可行性、輝達晶片受限的雙重驅動下,ASIC 已上升為核心戰略,並已取得階段性成果。百度崑崙芯:崑崙芯擁有 15 年技術積累,一直錨定AI訓練與推理加速的核心場景,相容CUDA生態,目前已迭代至第三代。崑崙芯2024年出貨量6.9萬片、營收20億,2025年預計出貨13萬片、營收沖35億。對外客戶,實現萬卡叢集部署並中標中國移動10億訂單,實際上外部客戶是2026年高增的主要來源,已進入中國移動、南方電網、比亞迪、招商銀行、地方智算中心等供應鏈。阿里平頭哥:核心產品線包括倚天、含光、PPU三類,其中PPU作為大算力晶片是市場焦點,又分為兩款主力產品:高端款單顆算力超300T、視訊記憶體96G,採用先進製程,僅以整機形式銷售,2024-2025年合計出貨估計30萬張,低端款採用中芯國際12nm(N+1)工藝,由燦芯負責後道IP及介面設計,單價不超2-3萬元,2026年Q1啟動流片量產,預計出貨50萬顆。銷售模式以內部消化為主,對外銷售需搭配阿里雲方案,無獨立適配場景,2026年PPU整體出貨預計80萬顆。字節跳動:字節佈局CPU與ASIC兩類晶片,自研處理程序落後於平頭哥、崑崙芯,當前採取“外采低端晶片+推進海外研發+國內先進製程排隊”策略,2026年將完成海內外先進工藝設計,等待產能流片,計畫2026年前實現量產。騰訊:後發追趕,自研緊迫性較強,終止對燧原投資並重啟“紫霄”自研項目,以數倍薪酬挖角頂尖人才,需求集中在遊戲、AIGC、數字孿生等領域。但相對海外巨頭,中國大廠面臨更大的挑戰,體現在幾個方面:主業掙錢不如海外大廠,股東對於內部晶片業務虧損不滿,所以阿里百度都開始分拆上市平衡短期虧損與長期戰略投入;先進產能資源更加稀缺,中國由於美國的封鎖,中芯國際等先進製程產能供不應求;配套AI晶片服務廠類似博通、Marvell,由於制裁原因也很難為國內企業提供定製服務,國內相關的芯原股份、翱捷科技等在技術積累、IP沉澱、經驗上都有比較明顯的差距。04. 結語:AI競爭錨點之變AI 產業的競爭,已從模型演算法的比拚,延伸到算力底層的硬核博弈。ASIC 晶片憑藉極致的能效比與成本優勢,正在重塑全球 AI格局,成為巨頭們構築競爭壁壘的核心抓手。沒有自研 ASIC 晶片,在這場更燒錢、更考驗綜合實力的 AI 競賽中,終將失去話語權。晶片已經內化成生態的一環了,我們將在此後的文章中進一步展開。對於中國企業而言,這既是順應產業趨勢的必然選擇,也是直面挑戰的艱難征程。儘管在盈利能力、先進產能、產業鏈配套等方面面臨著比海外企業更嚴峻的考驗,但自研 ASIC 已是無法迴避的戰略方向。百度崑崙芯的穩步起量到阿里平頭哥的分拆提速,都宣告2026是中國大廠加速轉向之年。對此我們是偏樂觀的,在技術攻堅與生態建構的持續投入下,中國企業終將在全球 ASIC 賽道佔據一席之地。 (錦緞)
突發!黃仁勳“兆元宴”放話:ASIC取代GPU不合理也不現實!2026 產業鏈‘極度吃緊’!
黃仁勳放話:ASIC取代GPU不合理也不現實,輝達掌控整個AI基礎架構!2026年AI產業極度吃緊:This year is going to be very big!!黃仁勳台北宴請供應鏈高管核1月31日晚間,輝達CEO黃仁勳在台灣台北磚窯古早味懷舊餐廳,宴請輝達合作供應鏈高管,原定35人,實際到場近40位台企高管,僅1位大陸企業(勝宏科技)高管出席。宴會合影中,第一排就坐的有華碩施崇棠、聯發科蔡力行、台積電魏哲家等供應鏈資深高管;第二排及以後包括鴻海劉揚偉、和碩童子賢等多位台企高管。現場唯二女性為緯穎洪麗寧、同德股份劉盈君。黃仁勳開場致詞(站上椅子):“歡迎大家來到這裡!這稱不上是年度聚會,但我們一起工作這麼辛苦、這麼努力,所以我們每6個月應該聚在一起喝一杯。”黃仁勳提及2025年的挑戰:“2025年是非常充滿挑戰的一年,因為我們開始生產Grace Blackwell,現在回頭看,與Grace Blackwell相比,Hopper 簡直太簡單了。Hopper 的半導體系統在當時是最先進的,但Grace Blackwell又將先進技術推向極限,系統也相當困難,過去一年來,我們一起挑戰極限,在座的各位一起完成了不可思議的任務。”針對Grace Blackwell量產困難及設計修改,黃仁勳坦言:“今年運作模式跟以往也將有所不同,他對過去一年的成果非常滿意,也確實一路很挑戰,感謝大家一起工作,他也誠摯的要說謝謝,還有對不起。”關於產品進展,他表示:“目前GB300機櫃已經進入量產初期階段,GB200是輝達的第二代產品,量產非常順利,而Vera Rubin(第三代產品),希望量產會變得很簡單,現在供應鏈會跑得比以往任何時候都快,也感謝彼此的夥伴關係,相信今晚也是全台灣關注的一晚。”談及AI產業變化:“AI 變得有用,大語言模型變得非常有用,對產業也有用。也因此,現在 Token是可以賺錢的,2024年生成的 Token 沒那麼聰明,當 AI 不夠聰明時,就不太能獲利,現在 AI 變聰明了,就能有獲利模式。”黃仁勳回應關鍵問題:AI產業供需:“2026 年將是AI 產業‘極度吃緊的一年’,不論是高性能計算或低功耗應用,‘AI 要有智慧,就一定要有儲存’,今年對高頻寬記憶體(HBM)與LPDDR 的需求將大幅爆發,整體供應鏈面臨前所未有的壓力,但同時也將迎來‘非常好的一年’。”產品研發:“輝達目前已全面量產Grace Blackwell 架構,同步啟動下一代Vera Rubin 平台,Vera Rubin 是由六顆全球最先進晶片組成,製程與整合複雜度極高。”OpenAI融資:“輝達將參與OpenAI 下一輪融資,且金額可能是輝達史上最大的一筆戰略投資。OpenAI 是這個時代最具影響力的公司之一,輝達將持續加碼資金與算力支援。”ASIC晶片競爭:“外界擔憂AI專用晶片ASIC將取代GPU的疑慮不合理也不現實,因為輝達不是只做單一晶片,而是打造整個AI 基礎架構,這種規模與研發強度,不是單一ASIC 團隊可以追上的。”台灣供應鏈:“沒有台灣,輝達就不可能存在。預期未來十年台積電產能將遠超過倍數成長,是整個人類史上最大規模的科技基礎建設擴張之一。”△黃仁勳與台積電董事長魏哲家合影此外,黃仁勳透露:“輝達目前每年研發預算已達200 億美元,未來仍將以每年約50% 的速度成長,從Hopper 到Blackwell、再到Rubin,技術難度已從困難變成不可能,但也正因如此,必須持續高速投資,確保領先地位。”晚宴尾聲,他再度致謝:“今年是非常關鍵/盛大的一年(This year is going to be very big),換句話說,供應鏈會工作得很辛苦,但台灣供應鏈的優秀條件是獨一無二的。” (深科技)
微軟Maia200發佈,液冷架構曝光,Asic液冷,電源市場迎來新買家
01.微軟Maia 200晶片發佈時隔兩年,微軟宣佈推出第二代人工智慧晶片Maia 200。微軟雲與人工智慧執行副總裁斯科特·格思裡表示,Maia 200採用台積電3奈米工藝製造,每顆晶片包含超過 1400 億個電晶體,為大規模  AI 工作負載量身打造,同時兼顧高性價比。他稱Maia  200是微軟迄今為止部署的最高效推理系統,其每美元性能比微軟目前部署的最新一代硬體提升了30%。他同時表示,Maia 200的FP4性能是第三代  Amazon Trainium的3倍。目前,Maia 200已部署在微軟位於愛荷華州得梅因附近的美國中部資料中心區域,接下來將部署位於亞利桑那州鳳凰城附近的美國西部3資料中心區域,未來還將部署更多區域。Maia 200 的每個 Tray 整合 4 顆晶片,單晶片TDP達750W,並採用完全直連、無交換的高頻寬互連結構。在這種高算力密度、持續滿載的推理工況下,傳統風冷已無法在可控噪音與能效條件下穩定工作,所以在散熱方面,微軟首先採用冷板液冷,每個晶片上覆蓋一塊小冷板,在管路方面採用不鏽鋼波紋管,目前Maia 200的液冷僅覆蓋晶片部分,電源等部件採用風扇輔助散熱。微軟Maia 200伺服器機櫃採用微軟自研的第二代閉環液冷 Heat Exchanger Unit(HXU),也就是saidecar方案。Sidecar是一種外掛在機櫃側面的液冷“小模組”,它最大的特點就是不用去動伺服器本身的結構,也不用把資料中心整個重做水路、換風道、重布管線,方便快速部署。02.2026年成Asic晶片,液冷,電源迎來新機會CoWoS 產能的客戶分配,本質上是 AI 晶片市場話語權的爭奪。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前在台積電的的CoWoS產能份額正在勻速升高,預估在AI市場的推動下,預估到今年ASIC晶片CoWoS份額將會快速升高至36%-40左右。出來微軟,近期google,aws等廠商接連發佈最新一代aisc晶片及伺服器整機的消息,頭部CSP廠商的節奏明顯加快很多,同時結合台積電的Coswos資料來看,今年將是Aisc晶片市場元年。從液冷,電源等基礎設施廠商來看,24-25液冷,電源廠商基本只能背靠輝達生態,今年Asic市場的快速爆發且出貨量上升有望打破輝達的單點客戶市場,液冷,電源等廠商可以匯入ASIC伺服器市場,從而獲取訂單,對於廠商來看,是利多資訊。今年台灣頭部液冷公司AVC在2025年度財報會發言也稱:今年除GPU平台液冷客戶外,切入ASIC伺服器液冷供應鏈,進入初期匯入階段。部分ASIC平台開始採用水冷配置,惟目前出貨仍以驗證與小量匯入為主,實際放量節奏將隨客戶平台推進而後移,預期ASIC水冷相關滲透率將於2026年第三季有較明確提升。所以今年零氪認為Asic市場的爆發對液冷,電源市場將會有大波新訂單需求。 (零氪1+1)
輝達封死了ASIC的後路?
NVIDIA 計畫憑藉下一代 Feynman 晶片主導推理堆疊,因為該公司可以將 LPU 單元整合到架構中。乍看之下,NVIDIA 就 Groq 的 LPU 單元達成的 IP 授權協議似乎只是小打小鬧,畢竟收購規模和涉及的營收數額都相當龐大。但實際上,NVIDIA 的目標是通過 LPU 在推理領域佔據領先地位,我們此前已對此進行了深入報導。至於 NVIDIA 將如何整合 LPU,目前已有多種方案;不過,根據GPU 專家 AGF 的觀點,LPU 單元或許會通過台積電的混合鍵合技術堆疊在下一代 Feynman GPU 上。輝達要堵死ASIC的道路專家認為,該方案的實現方式可能類似於AMD在X3D CPU上的做法,即利用台積電的SoIC混合鍵合技術將3D V-Cache晶片整合到主計算晶片上。AGF指出,考慮到SRAM的擴展性有限,將SRAM整合到單晶片上可能並非Feynman GPU的正確選擇,因為採用先進工藝節點會浪費高端矽片,並大幅增加每片晶圓的成本。AGF認為,NVIDIA會將LPU單元堆疊到Feynman計算晶片上。AGF表示,Groq LPU 模組將於 2028 年首次出現在 Feynman(Rubin 後世代)。確定性、編譯器驅動的資料流,配合靜態低延遲調度和低批處理場景中的高模型浮點利用率(MFU),將在有利工作負載下為費曼帶來巨大的推理性能提升。但單片晶片的 SRAM 縮放停滯非常嚴苛:位元單元面積從 N5(~0.021 μm²)到 N3E 幾乎沒有變化,甚至 N2 也只能達到~0.0175 μm²,密度為~38 Mb/mm²。這是一種非常昂貴的晶圓面積使用。NVIDIA Feynman 在台積電 A16 上,配備背面供電+全 GAA 將面臨 SRAM 的門檻和成本物理。那麼解決方案是什麼?很簡單,就是製作分離的 SRAM 晶片,並將它們疊放在主計算晶片(也就是 AMD X3D)上。背面電源傳輸簡化了頂部的高密度混合粘結,使 3D 疊加垂直整合 SRAM 更實用,即避免前端布線的噩夢。所以預計 Feynman 核心會在 A16 上混合邏輯/計算晶片,實現最大密度/孔徑+堆疊 SRAM,在更便宜/成熟的節點上實現極高封裝頻寬且不會帶來巨大密度損失。這保留了 HBM 作為容量(訓練/預填充),而 SRAM 堆疊則修復低延遲解碼 MFU,這正是 Pouladian 的“作弊碼”。這似乎讓廠商放棄了所有 ASIC 成功的機會....現在看來,這種方案似乎合情合理。方案中,像A16(1.6nm)這樣的晶片將用於主Feynman晶片,其中包含計算模組(張量單元、控制邏輯等),而獨立的LPU晶片則包含大型SRAM儲存體。此外,為了將這些晶片連接起來,台積電的混合鍵合技術至關重要,因為它能夠實現寬介面,並且與封裝外儲存器相比,每位元能耗更低。更重要的是,由於A16採用背面供電設計,正面可以用於垂直SRAM連接,從而確保低延遲解碼響應。然而,這種技術也存在一些問題,例如NVIDIA將如何應對散熱限制,因為在高計算密度的工藝流程中堆疊晶片本身就是一個挑戰。而且,對於專注於持續吞吐量的LPU來說,這可能會造成瓶頸。更重要的是,這種方法也會極大地增加執行層面的影響,因為LPU依賴於固定的執行順序,這自然會在確定性和靈活性之間造成衝突。即使NVIDIA能夠解決硬體層面的限制,主要問題仍然在於CUDA在LPU式執行模式下的行為,因為它需要顯式的記憶體分配,而CUDA核心的設計初衷是面向硬體抽象。對於NVIDIA來說,將SRAM整合到AI架構中並非易事,因為這需要精湛的工程技術才能確保LPU-GPU環境得到充分最佳化。然而,如果NVIDIA想要在推理領域保持領先地位,這或許是它願意付出的代價。Groq 的 LPU 架構是關鍵過去幾個月,人工智慧行業的計算需求發生了翻天覆地的變化。像OpenAI、Meta、Google等公司在致力於訓練前沿模型的同時,也在尋求建構強大的推理堆疊,因為這才是大多數超大規模資料中心的主要盈利點。Google發佈 Ironwood TPU 時,業界將其吹捧為專注於推理的利器,而這款 ASIC 晶片也被譽為輝達的替代品,這主要是因為當時有說法稱 Jensen 尚未推出一款在推理吞吐量方面佔據主導地位的解決方案。我們有 Rubin CPX,但我稍後會討論它。談到推理,計算需求會發生顯著變化,因為在訓練過程中,業界更看重吞吐量而非延遲和高運算強度,這也是為什麼現代加速器都配備了 HBM 和海量張量核心的原因。由於超大規模資料中心正轉向推理,它們現在需要快速、可預測且前饋式的執行引擎,因為響應延遲是主要瓶頸。為了實現快速計算,NVIDIA 等公司針對大規模上下文推理(預填充和通用推理)等工作負載推出了 Rubin CPX,而 Google 則宣稱其 TPU 方案具有更高的能效。然而,在解碼方面,可供選擇的方案並不多。解碼是指Transformer模型推理過程中的詞元生成階段,它作為人工智慧工作負載分類的關鍵環節,其重要性日益凸顯。解碼需要確定性和低延遲,而考慮到推理環境中使用HBM帶來的限制(延遲和功耗),Groq的獨特之處在於它使用了SRAM(靜態隨機存取儲存器)。既然我已經闡明了為什麼需要重新審視推理計算,現在是時候討論LPU了。LPU是 Groq 前 CEO Jonathan Ross 的傑作,順便一提,他最近已加入 NVIDIA。Ross 因其在 Google TPU 方面的工作而聞名,因此我們可以肯定,NVIDIA 正在內部獲得一項重要的資產。LPU 是 Groq 針對推理類工作負載的解決方案,該公司區別於其他公司的關鍵在於其兩大核心優勢。首先是確定性執行和片上 SRAM 作為主要權重儲存。這是 Groq 通過確保可預測性來提升速度的方法。Groq此前已展示了兩款領先的解決方案:GroqChip和基於合作夥伴的GroqCard。根據官方檔案披露的資訊,這些晶片配備230MB片上SRAM,片上記憶體頻寬高達80TB/s。SRAM的使用是LPU的關鍵優勢之一,因為它能顯著降低延遲。與HBM相比,考慮到DRAM訪問和記憶體控製器佇列帶來的延遲,SRAM的優勢顯而易見。片上SRAM使Groq能夠實現數十TB/s的內部頻寬,從而提供領先的吞吐量。SRAM 還使 Groq 能夠提供一個節能平台,因為訪問 SRAM 所需的每位元能量顯著降低,並消除了 PHY 開銷。此外,在解碼過程中,LPU 顯著降低了每個令牌的能耗,考慮到解碼工作負載是記憶體密集型的,這一點至關重要。這是 LPU 的架構方面,雖然這看似重要,但這只是 LPU 性能的一部分。另一個關鍵因素是利用確定性周期,即通過編譯時調度來消除核心間的時間差異。編譯時調度確保解碼流水線中不存在“延遲”,這是一個至關重要的因素,因為它能夠實現流水線的完美利用,從而相對於現代加速器實現更高的吞吐量。總而言之,LPU 完全專用於滿足超大規模資料中心所需的推理功能,但業界目前忽略了一個關鍵問題。LPU 是真實有效的推理硬體,但它們高度專業化,尚未成為主流的默認平台,而這正是 NVIDIA 的用武之地。除了上述AGF的方法,將LPU整合到NVIDIA產品中的另一種方法是將其作為機架級推理系統(類似於Rubin CPX)的一部分,並搭配網路基礎設施。這樣一來,GPU可以處理預填充/長上下文資訊,而LPU則專注於解碼,這意味著在推理任務方面,NVIDIA已經解決了所有問題。這有望將LPU從實驗性選項轉變為標準推理方法,從而確保其在超大規模資料中心得到廣泛應用。毫無疑問,這筆交易標誌著輝達在推進其產品組合方面取得的最大成就之一,因為所有跡象都表明,推理將是輝達接下來要討論的選項,而 LPU 將成為該公司在人工智慧工作負載領域戰略的核心部分。為了規避反壟斷風險,選擇授權在日勤,CNBC率先報導了這一消息,聲稱輝達將以200億美元的巨額交易“收購”Groq公司,這將是詹森·黃仁勳迄今為止最大的一筆收購。此消息在業內引發軒然大波,有人認為監管調查會阻礙這筆交易,也有人斷言Groq的末日已至。然而,隨後Groq在其官網上發佈官方聲明,稱已與輝達達成“非獨家許可協議”,授予這家人工智慧巨頭使用其推理技術的權利。“我們計畫將 Groq 的低延遲處理器整合到 NVIDIA AI Factory 架構中,從而擴展該平台,使其能夠服務於更廣泛的 AI 推理和即時工作負載。雖然我們正在吸納優秀人才並購買 Groq 的智慧財產權許可,但我們不會收購 Groq 這家公司。”輝達首席執行長黃仁勳在一封內部郵件中表示因此,在Groq發表聲明後,至少從表面上看,合併的說法不攻自破。現在看來,這一系列事件頗為耐人尋味,尤其是考慮到這筆交易距離被視為全面收購只差一步之遙,那就是官方披露中未提及此事。這是輝達典型的“反向收購”策略。如果有人不知道這意味著什麼,這是微軟的慣用伎倆。早在2024年,這家科技巨頭就宣佈以6.53億美元收購Inflection,其中包括Mustafa Suleyman和Karén Simonya等人加入微軟,後者曾是微軟人工智慧戰略的先鋒。反向收購是指一家公司從一家初創公司挖走關鍵人才,並保留“最基本的”公司架構,從而避免被認定為合併。現在看來,詹森似乎也採用了類似的策略來規避美國聯邦貿易委員會(FTC)的調查。他將與Groq的交易包裝成“非獨家許可協議”,從而使輝達實際上游離於《哈特-斯科特-羅迪諾反壟斷改進法案》(HSR法案)的管轄範圍之外。值得注意的是,Groq提到GroqCloud將繼續營運,但僅以“精簡架構”的形式存在。事情的經過是這樣的:輝達斥資200億美元收購了Groq的人才和智慧財產權,並成功避開了監管調查,從而在短短幾天內就完成了交易。而談到他們現在擁有的硬體資源,這才是輝達收購Groq這筆交易中最引人注目的部分。 (EDA365電子論壇)
2026年全球半導體展望(ㄧ) 從CoWoS看GPU與ASIC的AI世紀大戰
2025年,黃仁勳在GTC上擲地有聲的「未來六個季度資料中心收入5000億美元」預言,不僅是對市場的強心針,更是對整個算力產業鏈的總動員令。然而,硝煙從未散去。2026年開局的CES,老黃直言90%的ASIC可能都會失敗。如此一來,戰局愈發清晰,以輝達為首的通用GPU陣營,與以博通(承載GoogleTPU、Meta Mtia等)、Marvell(承載AWS Trainium等)為代表的定製化ASIC陣營,在台積電CoWoS先進封裝產能這一終極戰略資源上,展開了寸土必爭的爭奪。本報告將以CoWoS產能為唯一錨點,精確測算2026年AI算力晶片的出貨格局,並首次進行系統性覆盤,驗證此前預測的成敗得失。同時,我們將深入剖析CES上黃仁勳與蘇姿丰描繪的技術藍圖,探討「物理AI的ChatGPT時刻」對戰局的深遠影響,以及輝達收購Grop這一關鍵棋步背後的戰略意圖。結論將揭示:這場對決不僅是算力的比拚,更是生態、架構與供應鏈掌控力的全面戰爭。第一章. 復盤2025在深入2026年戰局前,必須對我們2025年的預測進行一次嚴苛的覆盤。所有的預測不去檢討不去復盤那都是妥妥的胡扯與耍流氓。先來看看預言精準之處:1. CoWoS產能是絕對瓶頸與勝負手:2025原文開篇即點出,2023年輝達因應AI爆發向台積電緊急加單CoWoS,但產能仍嚴重不足,並精確追蹤了2023年台積電與Amkor第二供應源的總出貨量(約63K/片)。以CoWoS為核心稀缺資源進行供需測算的分析框架,在2025年同樣被完全驗證。無論是輝達Blackwell的放量,還是博通承接的GoogleTPU、Meta Mtia等ASIC大單,其出貨上限無一不受制於台積電CoWoS的產能爬坡速度。2025原文中「CoWoS的產能增幅,對應的不只是AI晶片出貨量數量的增加,還疊加了Interposer面積不斷放大的增量」這一判斷,成為理解後續GPU與ASIC出貨量與營收增速差異的關鍵。這一點也是從晶片製造端瞭解未來AI晶片必須建立的基礎認知。2. ASIC陣營增速將超越GPU: 這是筆者2025年原文最核心、也最具前瞻性的判斷。2025原文筆者的模型基於CoWoS booking資料推測:『2024到2027年將進入ASIC的超級增長周期,三年80%的複合增長率』,25年原文明確指出博通的ASIC業務(AI業務中扣除交換器業務)將從2024年的80億美元增長至2027年的400億美元。如今看來,2025單單ASIC業務大約增長50%到120億,當初預測2027年400億將是打底的數字,目前樂觀可以看到500億以上,也就是說2026-2027年都是博通ASIC的超高增長年,這一點我們從文章的2026-27 CoWoS booking資料也能看出端倪。博通ASIC業務增長率(不含交換機)事實證明,2025年1月筆者當初公佈的模型極具前瞻的洞察力。2025年,博通接連拿下Anthropic超210億美元、OpenAI超百億美元的ASIC大單,其AI相關營收暴增,股價與市值一路飆升,完全印證了ASIC賽道在推理市場爆發下的強勁增長。原文中「2024-2027年ASIC的CoWoS消耗量複合增長率將達80%高於GPGPU」的判斷,這一點在2026年博通 CoWoS booking 100%+的年增量遠高於輝達的65%增量上完全驗證,根據筆者的一手訊息,博通2027年的CoWoS增量將繼續超越輝達。3.輝達面對ASIC的挑戰將尋求策略轉變:2025原文大膽預測:『NV的業績在2025年將突破2000億美元,來到2100億美元…但在2026年增幅下降』、『如果維持現有死守訓練端的高毛利策略,2027年將出現業績零增長的可能』。所以,2025年原文,筆者也預見性地指出:「ASIC必然是NV現階段不想做(低毛利)但未來卻不得不做的業務」、「NV不可能坐以待斃…如果市場到了沒辦法再繼續維持超高毛利的階段,輝達手上的武器一個一個放出來都是王炸」。2025年的市場走勢與輝達的動向完美呼應了筆者所有判斷,輝達2025財年營收確如預期突破2100億美元大關,但市場已開始擔憂其2026年增長率。更重要的是,筆者在2025年一月文章中,預測輝達一定會針對ASIC採取針對性行動,他不能也不會只死守訓練高毛利市場。隨後,在2025年1月的CES首先推出GB10的桌面工作站晶片,3月GTC推出DGX Spark,9月推出搭載GDDR的Rubin CPX,全部都是針對推理市場的專用晶片。10月份的GTC,老黃又扔出開放生態的NVLink Fusion,這猶如攻入ASIC腹地的特洛伊木馬。12月份以200億美元的超高溢價收購Groq,意圖直取ASIC高能耗效比的命門。這一系列動作,明確展現出輝達進軍定製化、低毛利市場以對抗ASIC侵蝕的戰略意圖,與筆者2025年1月的原文的預判完全一致。當然筆者在2025年1月無法預測輝達會採取什麼手段,只能做出輝達一定會有針對ASIC的戰略轉向與調整的預言。4.出貨量(顆數)與營收(價值)的背離:2025年原文深刻指出,由於ASIC的Interposer面積通常小於GPU,因此「採用不同方案的不同晶片,一片CoWoS能切割出的晶片數量天差地別」。這導致在消耗相同CoWoS面積(產能)的情況下,ASIC可以產出更多的晶片顆數。因此,比較出貨顆數時ASIC可能快速逼近甚至超越GPU,但在營收和利潤上,單價高昂的GPU仍將佔據主導。這一細微但關鍵的區分,是理解GPU與ASIC市場份額之爭的基石。預測偏差部分:1. GPU增長韌性超呼筆者的預期:2025原文對2026年GPU增長「陡降」的判斷可能過於悲觀。從2025年底至2026年初的產業動態看,由於「物理AI」、機器人等新興應用的強勁需求,以及輝達Rubin等新一代平台帶來的性能飛躍,訓練端需求並未如預期般快速見頂,反而保持了強勁勢頭。這使得GPU在2026年的CoWoS消耗佔比和營收增長,比25年的原文預期的更為堅挺。2. 技術路線融合加速:2025年原文的特點就是從晶片製造等物理層面,將GPU與ASIC視為兩條相對平行的賽道去分析,是整個網路上唯一用晶片製造的視角去看待與分析AI格局演變的文章。但實際上架構,軟體,生態等技術融合趨勢不斷再加劇。輝達通過NVLink Fusion等技術開放生態,試圖將ASIC納入其體系;而一些ASIC也在增強可程式設計性。兩者的界限正在模糊,未來的競爭可能更多是「可程式設計通用加速器」與「高度定製化專用加速器」在不同場景下的混合架構之爭。2026年的展望系列,我們還是會從晶片製造的硬體視角出發,並結合軟體層面,更全面的來看待未來AI晶片的市場格局。復盤結論:總體而言,筆者2025年初的預測文章,在核心邏輯(CoWoS為王、ASIC增速將超越GPU、輝達需戰略轉型)和關鍵資料推演上,展現了極高的精準性和前瞻性。成功地預見了博通等ASIC設計公司的崛起,以及輝達面臨的增長拐點與戰略抉擇。儘管在輝達2026增長曲線的斜率上存在細微偏差,但文章建立的「以CoWoS產能為錨,穿透出貨量與價值背離」的分析框架,依然是研判2026年乃至更長期AI算力格局最有力的工具。第二章:戰爭的底層邏輯 - AI算力需求大爆炸要理解今天在CoWoS產能上的寸土必爭,必須回到一切的起點:AI不只是近年興起的大語言模型(LLM),目前多模態,AI Agent甚至物理世界模擬,讓AI對算力近乎貪婪的渴求。面對每年5倍增長的token衍伸出的算力需求,依靠摩爾定律兩年翻一倍電晶體數量的算力增長已經完全跟不上節奏。因為AI的出現,整個半導體行業迸發了無窮的潛力,在後摩爾定律時代竟然電晶體增加速度遠超以前,記得數年前許多人云亦云的網民,高喊著摩爾定律已死,現在看來甚是可笑,誰知道再過幾年又有啥新科技出現呢?從晶片製造層面,面對AI恐怖的算力增長需求,晶片製造領域唯有不斷縮小單位線寬同時不斷加大晶片面積,一縮一放的加乘效果才能勉強跟上AI的節奏。當然增加出貨量也是一個辦法,但這裡就遇到了前段製程與CoWoS產能的瓶頸。傳統的CPU架構在平行矩陣運算面前效率低下,也催生了專用加速晶片的黃金時代。最終,AI的出現推動半導體技術演進沿著三條相互交織又彼此競爭的路徑展開:1. 架構路徑:從通用到專用,生態與效率的終極對決GPGPU的霸權之路: 輝達的CUDA生態,將圖形處理器鍛造成了通用平行計算GPGPU的絕對王者。其核心武器是極高的記憶體頻寬(通過HBM)和大規模流處理器陣列。從H200、GB200到今年即將推出的“Vera Rubin”,都是這條路徑的產物,性能提升直接與視訊記憶體頻寬、NVLink互連規模掛鉤。輝達構築的,是一個從硬體到軟體(CUDA、AI軟體棧)的封閉而強大的帝國。正如老黃在CES演講所說,物理AI的ChatGPT時刻來了,AI的第二拐點,從理解語言到理解物理世界,將還是由通用型GPGPU主導。ASIC的精準革命: 當AI工作負載,尤其是雲端推理側的負載日益固化,為特定演算法(如Transformer)定製的ASIC便展現出碾壓級的能效比Performance per Watt,和總擁有成本(TCO)優勢。Google的TPU、亞馬遜的Inferentia/Trainium、微軟的Athena,以及中國的華為Ascemd,寒武紀MLU都是這條路徑的先鋒。它們通過犧牲通用性,換取在特定戰場上的極致性價比。而博通、Marvell、Al chip等設計公司,正是通過為這些CSP雲巨頭定製ASIC,撕開了兆市場的一道口子。2.製程路徑:奈米尺度的軍備競賽摩爾定律的延續是性能提升的物理基礎。從7nm、5nm、3nm到2026年量產的2nm,每一次製程躍進都意味著電晶體密度和能效的提升。2024年3月份台積電的劉德音與黃漢森在IEEE發表的文章 , 計算出不用十年 , 人類就可以製造出一兆顆電晶體的GPU單晶片。未來不再只是通過光刻等製程微縮這單一手段來提升電晶體數量 , GAA、CFET等立體結構的最佳化、2D新材料以及先進封裝每一個技術都能有效並持續的提升電晶體數量。然而,單純靠微縮已面臨“功耗牆”和“儲存牆”。2nm晶圓的代工價格傳聞高達3萬美元,這已非所有玩家都能承受的賭桌入場費。3.封裝路徑:超越摩爾,系統級創新的主戰場當製程微縮邊際效益遞減且成本飆升,“超越摩爾”(More than Moore)成為新的增長引擎。其核心就是先進封裝,而CoWoS正是台積電為高性能計算打造的“皇冠上的明珠”。CoWoS的精髓在於異構整合。它不再追求製造一個巨大且良率堪憂的單片晶片,而是將多個小晶片,例如計算芯粒(GPU/ASIC核心)、高頻寬記憶體(HBM)、I/O芯粒等,通過Interposer進行超高密度、超高頻寬互連,整合在一個封裝內。CoWoS帶來了三大降維打擊優勢:*突破光罩板極限: 製造遠超單個光刻機視場尺寸的超大晶片成為可能。*混合搭配,最優解: 可以整合不同工藝節點、不同功能的芯粒,實現性能、成本、功耗的最佳平衡。*極致互連性能: 矽中介層上的微凸塊(μBump)間距極小,使得芯粒間通訊頻寬激增,延遲和功耗大幅降低。正因如此,無論是追求極致性能的輝達GPU,還是追求最佳TCO的雲巨頭ASIC,但凡涉足頂級AI算力,都離不開CoWoS。它從一項“使能技術”,變成了決定最終產品出貨量的戰略瓶頸資源。後摩爾定律時代,More than Moore成為主角,各種型態的先進封裝技術孕育而生我們從下面的例子可以清楚看出,後摩爾定律時代利用多種手段的電晶體推進速度。2022年輝達採用N4製程的Hopper的電晶體數量為800億。2024年採用N4P製程+D2D Chiplet的Blackwell電晶體數量為2080億。2026年輝達將推出N3P製程的Rubin晶片,單die預計在1680億電晶體左右,雙die為3360億電晶體。2027年整合度更高的CPO,以及CoWoS的極限4 die合封,Rubin ultra晶片電晶體總量將達到6720億。2028年輝達將推出Feynman,採用A16製程,4 die合封的電晶體總數將達到8000億左右。2030年輝達的更新一代晶片將採用A14製程,再加上利用CoPoS技術做到8die合封,電晶體總量達到2兆。所以利用晶片製程不斷的微縮,加上不斷放大面積的interposer,單顆晶片的電晶體數量增長比摩爾定律時代更高。2022年的800億,提升到2030年的2兆,8年25倍的提升,比摩爾定律每2年翻1倍,8年16倍還來得更驚人。全球CoWoS產能對於CoWoS產能,儘管OSAT以及英特爾、三星等都在大力投資,但2026年的有效產能主要由2025年的投資決定,彈性有限。更重要的是,壟斷CoWoS市場的台積電,在2028年將推出方型基版的CoPoS取代CoWoS,屆時佔CoWoS產能一半以上的輝達將率先轉入新技術,這將導致這兩年為了滿足市場剛擴產的CoWoS產能因被替換而大量閒置。所以目前台積電對CoWoS的產能建設趨於保守,這對AI晶片客戶來說不是一個好消息,目前得應對之策就是將短期外溢的訂單轉給OSAT或者精度要求不高的低端ASIC考慮英特爾EMIB。從現況來看,2026-2027年CoWoS產能,將出現2023-2024年高度緊張度狀態,從筆者一手訊息來看,2026年Q3開始台積電CoWoS的稼動率將回到100%以上,直到CoPoS產能開出後又將迅速跌落。目前台積電內部對這兩年的CoWoS產能建設有很大的分歧。因此,分析2026年的戰局,必須首先看清CoWoS這座「軍火庫」的儲備與分配。未來AI晶片的競爭,是架構、製程、封裝“三維戰爭”。到了2026年,當製程進入2nm深水區,成本高企,架構路線(GPU vs. ASIC)出現根本性分叉時,再度緊缺的CoWoS先進封裝的產能分配,就成了決定算力版圖的最關鍵變數,沒有之一。第三章:2026年CoWoS產能沙盤推演基於筆者的訊息,我們對2026年台積電CoWoS產能及預訂Booking情況進行建模分析。根據筆者模型,台積電CoWoS產能近幾年的爬坡如下:2023年底:約 12K/月2024年底:約 36K/月2025年底:約 80K/月2026年底(目標):達到 ~120K/月。對於2026年台積電CoWoS產能逐月提升過程,我們取一個不樂觀也不保守的全年有效平均值:94K/月。即 2026年台積電CoWoS總有效產能約為:94K/月 × 12個月 約 1,120,000片。這是本次測算的總彈藥基數。CoWoS產能分配的邏輯推演:台積電的產能分配是一場基於技術、商業、地緣政治的複雜棋局。核心考量如下:技術繫結與生態深度: 輝達是CoWoS最早期、最大膽的共同定義者和投資者,其架構(如NVLink)與台積電CoWoS工藝深度耦合,享有最高優先順序。訂單規模與戰略押注: 蘋果、輝達、AMD是台積電前三VVIP大客戶,其巨額預付款和長期協議鎖定了基礎產能。不過蘋果要到2028年才有自研AI晶片,這兩年不需要CoWoS產能。博通、Marvell因承接Google、AWS、Meta等雲巨頭天量ASIC訂單,已躋身頂級VIP客戶行列。地緣政治與第二供應鏈: 美國對華技術限制,迫使中國頭部AI公司,透過第三方等各種方式全力爭取任何可能的CoWoS產能。同時,ASIC以及AMD、英特爾乃至中國客戶,都是台積電制衡輝達分散客戶風險的重要力量。產品迭代與良率: 更複雜、整合度更高的封裝(如整合更多HBM、更大中介層)初期良率較低,實際有效產出需打折。下圖清晰展示了各主要玩家的爭奪格局:2026年台積電CoWoS產能分配:輝達:2026年6*萬片。年增*%,依舊保持高增長。儘管面臨競爭,但其產品需求最旺、單價最高、技術最領先,仍將佔據最大份額。輝達接近台積電CoWoS總產能*%的預訂量,遙遙領先其他AI晶片企業,幾乎不受ASIC崛起而稀釋,繼續保持絕對主導的份額。當然輝達的CoWoS預訂的增量,有很大一部分是來自Interposer面積放大的結果,2026年推出的Rubin達到5.5x reticle,比Blackwell的3.3x reticle大了1.6倍。也就是輝達在晶片出貨數量不變的情況下,就必須增加1.6倍的CoWoS產能,或者說從輝達在Rubin時代增加60%的CoWoS產能,晶片出貨量與Blackwell時代相比是沒有增加的。當然整個2026年Blackwell還是出貨主力,輝達65%的CoWoS增量,必然是出貨數量以及單價的雙雙齊漲的局面。AMD:2026年*萬片,年增*%。多款Mi300系列已證明AMD的競爭力,剛剛開幕的CES,蘇大媽正式官宣Mi400系列的來勢洶洶,預計下半年開始出貨。從CoWoS booking數量來看,與25年相比有*%的增量,與輝達的增幅幾乎一致。這也標示著AMD對Mi455的信心十足。Broadcom博通:2026年*萬片,年增*%。主要客戶GoogleTPU開始對外銷售,對博通是利多,不過博通主要負責TPU v6 以及 v7p,偏向推理的v7e會在2026年下半年推出,由聯發科負責流片。下一代的TPU v8 還是會遵循v7的模式,由博通與聯發科兩家分別下單台積電CoWoS。2026年博通向台積電預定的CoWoS產能有60~65%給到TPU第二大客戶Meta的Mtia晶片,今年今年將推出第三代產品,Mtia v2 & v3大約佔博通CoWoS預訂量的20%左右。未來的大客戶Open AI將於2026年底推出內部代號Titan晶片,採用台積電N3製程,預計佔今年博通預訂量的5-10%,2027年將達到20%。2028年蘋果的AI ASIC - Baltra也將面世,目前由博通負責高速互聯,SerDes IP以及後段布線,預計2026年上半年進入TO階段。很顯然,博通是未來ASIC崛起的最大贏家。Marvell美滿:2026年*萬片,年增*%。2026年CoWoS預定數量與2025年持平,幾乎是AI晶片最失意的廠家。主要是出貨主力AWS下一代的Trainium 3轉由Al chip設計。2026年主要客戶還是AWS的Trainium 2 ,新客戶Microsoft採用N3E製程的Maia 200 加入,避免了下滑。Al chip世芯:2026年*萬片,年增*%。2026年CoWoS 200%的增幅,主要是拿下AWS的Trainium 3 訂單2026年出貨包含少量Trainium 1 ,決大部分為N3製程的Trainium 3 Anita,加上Inferentia 2 以及少量的Intel Gaudi 3,以及微軟上一代的-Maia 100。Al chip的客戶數量比博通還多,但出貨量級都不高。AWS已暫停Inferentia 3的開發,轉向以Trainium統一承擔推理跟訓練的工作負載,目前未見Inferentia 3的TO訊息。Annapurna:2026年2.4萬片,年增64%。作為AWS的子公司,Annapurna一直承擔AWS AI ASIC的開發任務,同時也向台積電直接預定CoWoS產能,Trainium 3的 Mariana版本有別於Al chip的Anita版本,同時在台積電投片。MTK 聯發科:2026年2萬片。作為台積電CoWoS的新進客戶,目前聯發科已調撥大量人力支援ASIC業務,AI ASIC未來將成為聯發科的重點業務。2026年下半年主要承擔TPU v7e的出貨,2027年為出貨主力年,同時2027年將疊加TPU v8e的訂單,2027年MTK有機會出現5~600%的CoWoS同比增幅。聯發科目前已將AI ASIC最為為來核心業務,作為行業巨頭,聯發科的加入也將很大影響ASIC設計的市場格局。聯發科這兩年的ASIC業務雖然這兩年高歌猛進,但由於只是做後段布線,缺乏博通強大的IP,雖然增幅大,但單價較低,對於體量本就不小的全球第三fabless巨頭來說,並不能帶來營收的大幅度增長。當然從CoWoS增量來看,聯發科在AI以及端側的佈局非常積極,又有ASIC業務的高增長加持,將是這兩年除了博通之外,ASIC陣營的最大受益者。剩下的台積電CoWoS客戶的量級就都是小於1萬片,其中微軟自研ASIC-Athena 還是由內部團隊在台積電投片小批次的不斷迭代推進。GUC創意還是小型AI晶片初創企業在CoWoS流片的首選,也是國內AI的重要第三方,畢竟GUC是台積電的親兒子。Xilinx這個最早的CoWoS客戶,因為CoWoS不斷漲價,FPGA又不如AI晶片的利潤那麼高,已經逐漸放棄高成本的CoWoS,改由成本更低的IoFO_LSI方案。剩下的兩家交換機廠家思科與中興微,因為其高端交換機有採用HBM,所以一直以來也都是台積電CoWoS客戶,只是預定量只有幾千片的水平。至此,我們得到了2026年各陣營的“彈藥”配額:再加上FPGA、Switch的 2萬多片,即時2026年台積電CoWoS的出貨總量。從彈藥分配來看,拿下整個CoWoS產能65%的GPGPU陣營還是擁有絕對的火力優勢,甚至輝達一家的火力就超過全球其他企業的總和。第四章:超越數量 - 價值、生態與功耗的深層次博弈然而,僅比較CoWoS還是會誤判戰局。雖然CoWoS數量與面積是一切的根本,但不同的封裝方案,比如single-die以及dual-die方案,將導致Interposer面積出現很大的不同,每片CoWoS可切割數量有很大差別。其中最顯而易見的就是Hopper時代的每片切29顆,到了Blackwell時代的每片14顆,這正是Interposer不斷放大的結果。所以台積電CoWoS的產能增幅,對應的不只是AI晶片出貨量數量的增加,還疊加了Interposer面積不斷放大的增量。又比如2026年Google的TPU v7p是dual-die的D2D方案,interopser size 在2400mm2左右,一片CoWoS可切割16顆左右。而同一代針對推理的TPU v7e,採用single die設計,interposer size只有1500mm2左右,每片CoWoS可切數量超過30顆以上。AI晶片的Interposer越來越大的尺寸是明確的技術路線,目前Interposer是3.3x的reticle size,2026年的Rubin是4~5.5x,而2027年4-die合封的Rubin Ultra將達到9~9.5x。所以不斷放大的Interposer面積也是台積電CoWoS不斷大幅度擴產的一大主因。正因如此,以CoWoS的產能(消耗面積)增減幅度來計算企業AI營收增減幅度,會比企業的AI晶片出貨顆數量增減來的更為準確。AI晶片戰爭的勝負,除了CoWoS消耗面積以外,還要在兩個維度上評判:算力維度:一顆輝達B300的FP8算力達10 PFLOPS,而一顆定製推理ASIC的算力可能僅為其幾分之一,即便是最強的TPU v7p也只有輝達B300的一半,這還是不考慮今年與TPU v7同台競技的Rubin的差距,如果用Rubin來對比差距將更大。剛開幕的CES老黃說Rubin的性能將比blackwell在推理提升了5倍,訓練提升了3.5倍,GPU與ASIC的性能差距並沒有縮小,反而是在擴大中。因此,即使顆數接近,輝達陣營輸出的總算力(TFLOPS) 很可能仍大幅領先。這是GPU通用架構的“蠻力”優勢。總算力領先的物理基礎就是來自CoWoS消耗面積(電晶體)的多寡。價值維度:這是最殘酷的差距。輝達單顆GPU售價高達3萬美元以上,未來會提升到4-5萬美元。而云巨頭自研ASIC的“成本”僅體現為台積電的代工費用和博通的設計服務費,即便成本相差無多,但ASIC其“內部結算價”必然遠低於GPU售價。即便ASIC對外銷售,我們可以用Anthropic向博通採購210億美元的TPU為例,百萬顆的TPU v7p 扣除伺服器等諸多配置,單顆對外售價在1.5萬以下。目前最強的ASIC是採用最先進N3P製程的TPU v7p,製程領先輝達Blackwell一個世代,但其對外售價不到Blackwell的一半,這與剛才我們計算的TPU v7p的算力只有B300的一半,算力與售價差距大致上是對等。從這一點來看,完全證明我們文章剛才所說,AI晶片是多維度的比拚,不單單比摩爾定律比晶片製程,還要比誰的面積更大,能放進更多電晶體,最終表現在性能上的差別也決定他的最終價格。因此,輝達用60%的CoWoS產能,創造了整個AI加速晶片市場70%以上的收入和90%以上的利潤。這正是黃仁勳“6個季度,5000億美元狂言”的底氣 — 他賣的是“黃金”,而ASIC陣營在為自己鍛造“精鋼武器”。生態鎖死 vs. 專用解放:輝達的帝國城牆: CUDA軟體棧、龐大的開發者社區、最佳化的AI框架(TensorRT、Triton),以及NVLink、NVSwitch構成的系統級優勢,構成了幾乎無法踰越的生態壁壘。使用者購買的是一整套最強的“交鑰匙”解決方案。ASIC的破局邏輯: ASIC的優勢在於,對於CSP這類超大規模使用者,當其軟體棧完全自控,從TensorFlow/PyTorch框架到推理服務Triton,且工作負載高度特化且穩定(如搜尋推薦、廣告排名、語音識別推理)。所以自研ASIC能帶來極致的TCO(總擁有成本)最佳化和能效比。它們用“專用化”換取“去輝達化”的戰略自由和長期成本節約。最終直指CSP採用自研晶片最佳化財務報表的內在動力。這也說明了一個侷限,ASIC只有超大型CSP或者大模型等超大規模企業會使用,首先ASIC的資金以及人力投入巨大,但這兩點已經確定了客戶範圍,所有用量不大的中小型使用者都不可能使用ASIC。即便是購買現成的ASIC,我們以Anthropic向博通採購210億美元的TPU為例,這背後需要養一隻極為強大底層系統工程師團隊不斷的進行深度遷移以及適配。單這一項開支,就足以說明這並非普通企業所能承受的,當然目前GPU高昂的價格,讓市場更願意採用各種降本方案,可即便是購買現成ASIC的模式,大概也就能拓展到Anthropic這體量的大模型企業,很難再往下拓展。系統級創新與功耗牆:功耗即成本,散熱即極限: AI叢集的功耗已從幾十千瓦邁向兆瓦級,未來晶片功耗將飆升至數千瓦。風冷已到極限,液冷(包括冷板、浸沒式)成為標配。這不僅關乎電費,更決定了資料中心的物理設計和最大叢集規模。ASIC的能效優勢: 專用電路在執行特定任務時,能效通常遠高於通用GPU。這意味著在相同的供電和散熱預算下,可以部署更多ASIC算力單元。互連與封裝創新: 戰爭遠不止於單顆晶片。CPO共封裝光學是突破“功耗牆”和“互連牆”的關鍵,CPO展示了系統級互連的競爭。系統架構創新,如華為的384顆NPU互連的CloudMatrix 384,來挑戰輝達NVLink全互連系統的思路。CoWoS只是起點,其上的互連網路(NVLink, CXL, UCIe)、光引擎(CPO)的競爭同樣激烈,而且每一個技術領先都有決定性的作用,目前輝達在每一個維度上的表現都處於行業領先地位。第五章:GPU的技術反擊與生態擴張:2026年開年CES,黃仁勳與蘇姿丰的演講,清晰地勾勒出GPU陣營未來的技術路線圖和反擊策略,特別是對「物理AI」這一新戰場的定義,將深刻影響GPU與ASIC的競爭格局。輝達在CES宣告的戰略意圖:1.下一代「Rubin」架構正式亮相:基於台積電N3P製程,並將interpose面積放大1.4~1.6倍,首次實現整合超過3000億個電晶體的單一GPU,電晶體總數達3360億,較上一代電晶體數量提升1.6倍。並搭載下一代 HBM4 記憶體,單GPU容量直奔 288GB 甚至更高,儲存頻寬突破 22TB/s,較上一代Blackwell提升2.8倍,可見HBM4相對於HBM3e,在介面頻寬以及logic base die的提升可謂相當驚人。互連技術 NVLink 6.0 將提供超過 3.6TB/s 的GPU間直連頻寬,較上一代Blackwell提升1.8倍。推理性能比Blackwell高出5倍,訓練的性能高出3.5倍。Rubin不僅是性能的躍升,更是輝達鞏固其在訓練和複雜推理市場絕對領導地位的利器。2. 物理AI的ChatGPT時刻 :這是黃仁勳演講中最具震撼力的宣言。他認為,AI的下一個前沿是理解和模擬物理世界,應用於機器人、自動駕駛、數字孿生、科學發現(如氣候模擬、藥物研發)等領域。這些應用需要處理海量、多模態的感測器資料,進行複雜的物理模擬和即時決策,工作負載極度複雜、演算法迭代快速。為何老黃會這樣說,因為「物理AI」恰恰是通用GPU的絕對主場。定製化ASIC在處理固定、已知的模型推理時效率極高,但面對物理AI所需的持續學習、多工處理、快速演算法適配等場景,其架構僵化的劣勢將被放大。GPU憑藉其無與倫比的可程式設計性和龐大的CUDA生態,能夠靈活適應從計算流體力學到機器人控制等各種新興物理AI任務。因此,「物理AI的ChatGPT時刻」極大地擴展了GPU的應用邊界和市場總量,為其增長提供了全新的可開發疆域,這是ASIC現有技術難以切入的賽道。3.收購Groq:對ASIC的「釜底抽薪」之舉。2025年底,輝達宣佈收購專注於低精度推理和極低延遲語音模型的初創公司Groq。這筆收購遠不止是技術補充,而是對ASIC陣營的戰略性反擊。Groq的技術核心在於其LPU(語言處理單元)架構,在特定推理任務(如大語言模型對話)上能實現遠超GPU和傳統ASIC的能效和速度。輝達通過收購Groq,直接獲得了在ASIC最具優勢的「高能效推理」領域的尖端技術和產品。這使得輝達能夠以「內部ASIC」的方式,正面迎戰博通、Google等的定製化推理晶片。這不僅是產品線的補充,更是商業模式的轉變,從單純銷售通用GPU,轉變為提供「通用GPU + 特定領域最佳化加速器(如LPU)」的全端解決方案。這將有效遏制ASIC在推理市場的侵蝕,並可能奪回推理市場市佔率的重要武器。此舉加劇了AI加速器市場的融合與競爭。未來的界限不再是簡單的GPU對ASIC,而是「全端生態公司」與「專項設計公司」的對決。輝達正在利用其資本和生態優勢,將潛在的顛覆性技術收編入自身體系,戰場的主導權還是掌握在輝達手上。AMD則在CES公佈MI400系列的細節,正式發佈基於3nm增強版製程的 「AMD Instinct MI400」 加速器。核心參數瞄準超越輝達當前旗艦,宣稱在關鍵AI訓練和推理工作負載上,實現相比MI300系列100%的性能提升,並強調其能效比優勢。AMD持續推廣其開放式軟體棧ROCm,並通過與微軟Azure、Oracle Cloud等雲服務商的深度合作,以更開放且更具性價比的方案爭奪輝達之外的市場份額。蘇姿丰強調,未來的AI計算將是多元化的,AMD將為客戶提供「第二選擇」。總而言之,2026年的GPU陣營,並非消極防守。輝達通過定義「物理AI」新戰場、收購Grop補強推理短板,正在從技術和生態兩方面建構更深的護城河。AMD則堅定地走開放與性價比路線,蠶食市場。GPU的增長故事,正從單純的「大模型訓練」擴展到更廣闊的「物理世界智能化」,這為其對抗ASIC的專用化攻勢提供了戰略縱深。第六章:超越產能 - 生態、功耗與終局之戰CoWoS產能決定了「彈藥」數量,但戰爭的勝負還取決於「彈藥」的效率、協同和最終產生的價值。1. 生態系統的終極壁壘:輝達的CUDA生態依然是其最堅固的堡壘。數百萬開發者、龐大的軟體庫、從訓練到部署的全端工具鏈,構成了極高的遷移成本。儘管Google的TensorFlow、PyTorch等框架也在努力實現對不同硬體後端的支援,但在易用性、性能和社區支援上,仍與CUDA有差距。ASIC陣營的優勢在於『垂直整合』,Google可以為TPU深度最佳化TensorFlow,Meta可以為MTIA定製模型。但對於廣大的企業和開發者而言,輝達全面且最優的「交鑰匙」方案仍然是最佳選擇。收購Groq後,輝達有望將這一生態優勢進一步延伸到特定推理場景。2. 功耗牆與成本牆:隨著單晶片功耗突破千瓦級,資料中心的供電和散熱成本已成為不可忽視的因素。ASIC憑藉其專用架構,在能效比(Performance per Watt)上通常有顯著優勢。這也是雲巨頭在規模化部署推理服務時傾向採用自研ASIC的核心經濟動因。輝達需要通過製程與封裝技術的進步、架構創新(如稀疏計算、低精度推理)以及系統級最佳化(如液冷、CPO共封裝光學)來對抗ASIC的能效優勢。Rubin架構和收購Groq,正是其在性能和能效兩端同時發力的體現。3. 未來的融合與分野:長遠來看,GPU與ASIC的界限會進一步模糊。輝達可能會推出更多「可配置」或「領域專用」的加速器(類似收購Groq後的產品線)。而ASIC設計公司(如博通)也可能會為不斷強化ASIC的性能,並給客戶提供更具靈活性的平台化方案。未來的競爭,將是「高度最佳化的通用平台」與「深度定製但具有一定可程式設計性的專用平台」之間的競爭。CoWoS產能依然是基礎,但在此之上,軟體生態、能效表現、總擁有成本(TCO)和對新興應用的適應能力,將成為決勝的關鍵。2026,對峙與滲透的拐點綜上所述,基於對CoWoS產能的沙盤推演、對2025年預測的覆盤以及對最新技術動向的分析,我們對2026年GPU與ASIC的對決格局得出以下結論:1. CoWoS分配格局固化,輝達主導地位難撼:2026年,輝達仍將消耗台積電過半的CoWoS先進產能,這確保了其在高端訓練和複雜推理市場的供給優勢,並在ASIC固守的推理市場不斷的嘗試進攻。ASIC陣營份額依舊維持快速增長,主要來自CSP掌握的大量推理算力的增量和生力軍頭部大模型企業的加入,短期內依然無法動搖輝達的根基,但卻能在固守方陣內不斷壯大與繁榮。2. ASIC在推理市場不斷壯大,實現規模化突破,但GPU開闢「物理AI」新戰線:ASIC憑藉成本和能效優勢,將在雲巨頭的大規模、固定模式推理場景中確立主流地位,並開始向Open AI以及Anthropic等頭部大模型公司滲透。然而,輝達通過定義「物理AI」這一全新、複雜且快速演進的賽道,為GPU找到了下一個爆發性增長點,有效避險了ASIC在傳統推理市場的衝擊。3.競爭從「硬體對抗」升級為「生態與系統級對抗」:輝達收購Groq標誌著戰術的轉變,從單純防守轉向「以彼之道,還施彼身」,用定製化能力反擊定製化。未來的競爭將是全端能力的競爭:從晶片、互連、封裝、系統到軟體和開發者生態。擁有更完整生態和更強系統整合能力的玩家將贏得最終優勢。結 論以2026年台積電約115萬片CoWoS產能為沙盤推演,我們測算出:ASIC陣營(37.5萬片)達到GPGPU陣營(75萬片)剛好50%的水平,這個資料2024年為52%,2025年為45%,2026年為50%。也就是說2026年ASIC對比GPGPU的CoWoS佔比提高了5%。這再次印證,筆者2025年原文所稱,2024-2027年為ASIC超級增長周期,其中2026-2027年將是周期高峰,大家可以再次翻閱2025年全球半導體展望中原文的模型。面對ASIC基數較低的超高增長,GPGPU在基數龐大的情況下,CoWoS佔比也沒有大幅度的下滑,比筆者一年前預測的更有韌性,這除了輝達GPGPU持續熱銷以外,還有GPGPU更願意採用最新技術有較大關係,比如2026年的Rubin率先採用4~5.5x reticle的interposer,2027年很快推進到9~9.5x,這個變數將直接翻倍。而ASIC的絕對性能沒有GPGPU那般的極致要求,2026年ASIC的Interposer在2.9~3x ,在2027年也還是停留在3.3x的水平。GPGPU是面積快速放大但出貨數量微幅增長,ASIC是出貨數量快速放大而面積微幅增長,最終勝敗就表現就在CoWoS預定資料,ASIC在出貨數量增幅遠高GPGU 15%以上,但在CoWoS產能的佔比則是從45%,提升5個點到50%。根據筆者模型,2027年ASIC將來到GPGPU的58%,ASIC佔比持續增加,意味著2026-2027筆者早早預測的ASIC迎來超級增長周期,增長率超過GPGPU。至於企業營收,那自然與CoWoS出貨量成正比,晶片性能與面積(電晶體總數)成正比,同製程雙顆的dual-die性能必然是高於single-die的晶片,文前有比較過性能與售價成同比例漲跌(TPUv7與B300),也就是性能高兩倍,單價大概也會高兩倍。這裡面多少nm製程與多大的面積都對性能(電晶體數量)有決定性的影響。ASIC的代表GoogleTPU,除了CSP自研自用以外,開始向外提供,這標誌著ASIC從正式邁入“規模化部署”以不斷蠶食GPGPU領地。然而,在商業價值(營收/利潤)和算力總量上,輝達憑藉其極高的單價和通用算力優勢,在2026年及之後一段時間內,仍將保持王者地位。輝達的帝國,將繼續統治需要靈活性、創新性和全端解決方案的廣闊疆域(訓練、新興應用、中小企業、科研)。ASIC的諸侯國,將在超大規模資料中心內部,在推理、推薦、搜尋等成熟且量大的固定戰場上,建立起基於極致TCO和能效比的自治領地。未來,我們更可能看到的是一個 “GPU+ASIC”的混合算力世界:雲巨頭用輝達GPU進行前沿模型研發和訓練,同時用自研ASIC進行成本敏感的大規模推理部署。戰爭的號角早已吹響,2026年的CoWoS產能分配表,就是這場世紀算力大戰最真實、最殘酷的兵力部署圖。ASIC群雄時代結束,Google/博通已成為共主,圍獵與反圍獵已經開始,而輝達帝國依然強大。這場好戲,還在後頭!而更接近未來事實的是,這場戰爭並非一場你死我活的殲滅戰,而是一場持久且複雜的“劃界戰爭”。隨著戰爭的推進,各方勢力意圖提高競爭力去打敗對手的同時,不斷提高的技術能力,導致技術外溢,其產生的結果不一定是打敗對手,而是如哥倫布一般,隨著航海技術的提升,發現更為廣闊的新天地。AI世界還有太多未知的疆域需要更高的技術才能去探索與挖掘。未來GPGPU以及ASIC可能都是贏家。2026-2027年ASIC的增幅將繼續高於GPGPU,2028年融合了LPU的Feynman有沒有可能帶領輝達在ASIC堅守的領地攻城拔寨,目前言之過早,未來誰主沉浮猶未可知?而GPGPU以及ASIC在整體算力需求不斷上漲的雙贏背後,卻始終站著一位終極大BOSS,更大的幕後贏家不動聲色冷眼旁觀。台積電作為這場戰爭共同且唯一“軍火商”,坐擁CoWoS產能的絕對定價權,將是無論那一方獲勝都不可或缺且毫無疑問的終極大贏家。(梓豪談芯)
半導體,最新預測
人工智慧革命才剛剛開始三年,但考慮到其發展速度之快,感覺好像還要等二十年。半導體是人工智慧領域創新最為迅猛的領域之一。以下是您在2026年可以期待的晶片和人工智慧加速器領域的發展趨勢。我們的第一個預測來自早期風險投資公司TDK Ventures的投資總監 Ankur Saxena。Saxena表示: “2026年將成為ASIC加速的關鍵節點,屆時自主研發的晶片出貨量將超過GPU。超大規模資料中心營運商陷入了囚徒困境,必須超額投入才能避免落後。隨著通用GPU成本過高,定製晶片成為維持利潤的唯一可行途徑。GoogleTPU v7、亞馬遜Inferentia/Trainium、微軟Maia/Cobalt、Meta MTIA以及OpenAI與博通聯合設計的加速器都將達到量產規模,從而降低對輝達的依賴。”Saxena表示,新的一年將迎來一場系統之戰,而非晶片之戰。“浮點運算性能不再是衡量性能的唯一標準,互連、記憶體和編譯器將決定最終的性能表現,”他說道。“NVLink Fusion和定製交換機ASIC正在重塑叢集規模的拓撲結構,而軟體鎖定將成為新的護城河,因為編排和編譯器將決定資源利用率。HBM和GPU供應緊張將推高雲AI的價格,歐洲方面已暗示將在2026年初迎來價格上漲。”半導體製造商使用的技術也將在 2026 年發生變革。達索系統全球高科技產業戰略家約翰·麥卡利表示,這將對晶片產生深遠的影響。“半導體行業正經歷著指數級的變革,其驅動力包括日益增長的複雜性、新興技術以及不斷變化的全球需求,”麥卡利表示。“預計到2025年,先進工藝節點將達到2奈米,研究目標是實現埃級精度。展望2026年,3D封裝、量子計算和人工智慧加速器等創新技術正在塑造下一代晶片,而企業高管則專注於降低成本和加快產品上市速度。”隨著半導體技術發展步伐加快,製造商們被迫另闢蹊徑。“我們預計,到2026年,人工智慧驅動的虛擬孿生模擬和基於模型的系統工程(MBSE)方法將使企業能夠以數位化方式最佳化設計、面向可製造性進行設計、減少對物理原型的依賴並提高系統性能,”麥卡利說道。你是否夢想擁有自己的GPU?印度軟體開發公司Talentica Software新興技術主管Pankaj Mendki表示,到2026年,你可能會意識到租賃才是更划算的選擇。Mendeki表示: “隨著對推理級GPU計算的需求激增,企業將不再自行管理叢集,而是採用按需GPU服務。無伺服器GPU模型將實現動態擴展,降低維運成本,並使高性能計算的獲取更加普及。這種轉變將成為各種規模企業開展GenAI工作負載的標準基礎設施方案。”輝達在人工智慧晶片市場佔據主導地位,市場份額估計約為 90%。矽谷 GenAI 基礎設施公司 FriendliAI 的創始人 Byung-Gon Chun 表示,這種情況到 2026 年不太可能改變。Chun表示:“鑑於輝達的生態系統和軟體棧,它在2026年仍將佔據主導地位。AMD在MI400系列發佈和ROCm成熟後可能會變得更具競爭力,但現在判斷他們能否成功執行其戰略還為時過早。”Chun表示, GPU價格呈下降趨勢,但AI工作負載量不斷增長,AI模型規模也越來越大。這意味著AI基礎設施總成本將繼續攀升。“2026 年 AI 定價最終將取決於供需平衡。隨著 Blackwell 的推出,Hopper GPU 的價格顯然正在下降。然而,需求仍在快速增長,這意味著儘管硬體成本下降,但獲取 GPU 供應(這直接影響 AI 定價)仍然不容易。”半導體大戰固然精彩,但晶片並非一切。資料中心電氣裝置供應商Molex預計,到 2026 年,互連技術將重新受到關注。該公司表示:“高速互連對於在現代超大規模資料中心中實現人工智慧/機器學習工作負載所需的速度和密度仍然至關重要。資料中心伺服器或機箱內主要計算單元(例如 GPU 和 AI 加速器)之間的通訊需要結合高速背板和板對板解決方案,這些解決方案專為 224Gbps PAM-4 速度而設計,同時還需要高速可插拔 I/O 連接器,以支援高達 400/800Gbps 的聚合速度,並提供通往 1.6T 的路徑。”能夠以 1.6 Tbps 的速度傳輸資料的技術之一是共封裝光晶片 (CPO),該晶片由輝達和博通公司開發。Molex表示:“共封裝光器件(CPO)對於在AI驅動架構中處理GPU間的互連至關重要。CPO旨在直接在晶片邊緣提供超高頻寬密度,從而在降低功耗和電訊號損耗的同時,實現更高的互連密度。由於CPO是專門為滿足超大規模資料中心和AI/ML叢集的巨大功率和頻寬需求而開發的,預計未來一年對CPO的關注度將進一步提升。”由於市場對其晶片的需求旺盛,輝達在2025年成為首家市值達到5兆美元的上市公司。它會在2026年達到6兆美元嗎?沒人知道——但這正是預測的樂趣所在。根據世界半導體貿易統計( WSTS)的資料,去年全球半導體銷售額增長22.5%,達到7720億美元。WSTS預測,到2026年,全球半導體銷售額將增長26%,達到9750億美元。一些分析師,例如美國銀行的維韋克·阿亞(Vivek Arya),預測全球晶片銷售額將增長更為強勁,年均增長率將達到30%,超過1兆美元。在最近發佈的題為《展望2026年:雖有波折,但前景依然樂觀》的報告中,Arya 估計,到2030年,人工智慧資料中心市場規模可能增長至1.2兆美元,年增長率達38%。其中大部分增長(9000億美元)將來自人工智慧加速晶片,例如圖形處理器(GPU)和定製處理器。 (半導體行業觀察)
高盛2026年科技行業十大趨勢預測:蘋果“折疊”救市、ASIC崛起與兆級光通訊盛宴
高盛Allen Chang分析師團隊在最新報告指出,AI伺服器出貨量將在2026年實現爆發式增長,ASIC晶片滲透率預計提升至40%,帶動800G/1.6T光模組出貨同比激增逾兩倍。ASIC專用晶片的加速滲透將推動AI伺服器與光通訊產業邁向兆級新高。消費電子方面,$蘋果 (AAPL.US)$即將推出的折疊屏iPhone有望成為智慧型手機市場的強力催化劑,成為市場關注焦點,PC市場仍面臨嚴峻挑戰,龍頭仍具備韌性。高盛強調,AI相關技術與高端硬體需求將持續驅動中國半導體、光通訊、PCB等產業鏈的業績增長。與此同時,智能駕駛、AI軟體、低軌衛星等新興賽道也在政策與技術突破下加速落地,為投資者提供多元化佈局機會。AI伺服器:ASIC強勢崛起與連接升級AI伺服器市場正在經歷結構性調整。高盛預計,機架級AI伺服器出貨量將從2025年的1.9萬架激增至2026年的5萬架。其中的關鍵趨勢是平台的多樣化與網路連線的增強。ASIC晶片憑藉在特定AI工作負載中的能效優勢,其滲透率預計在2026年達到40%,並在2027年進一步升至45%。這一趨勢將使得客戶更加依賴具有強大設計與製造能力的頭部供應商,如鴻海和$工業富聯 (601138.SH)$。光通訊:800G/1.6T光模組爆發光通訊類股將直接受益於AI基礎設施的擴張。隨著資料中心網路從400G向800G/1.6T升級,以及矽光子(Silicon Photonics)和CPO(共封裝光學)技術的應用增加,光收發器需求將呈爆發式增長。高盛強調,ASIC晶片滲透率的提升將進一步支撐光模組需求,因為ASIC更依賴網路能力來實現AI工作負載。散熱技術:液冷滲透率加速提升隨著算力密度的提升,散熱技術正面臨升級拐點。高盛指出,液冷技術的滲透率將顯著上升,特別是在ASIC AI伺服器領域。為了應對更高計算能力帶來的熱功耗挑戰,供應鏈將加速向液冷方案遷移,利多AVC、Auras等散熱元件供應商。ODM廠商:美國產能佈局成勝負手在ODM(原始設計製造商)領域,地緣政治與供應鏈韌性成為關鍵考量。高盛認為,那些在美國擁有堅定承諾或產能計畫的廠商將跑贏大市。具備強大研發能力、垂直整合優勢以及全面晶片組平台敞口的ODM廠商,如鴻海、Wistron和Wiwynn,將更受市場青睞。PC:市場挑戰嚴峻,龍頭具備韌性PC市場在2026年面臨多重逆風。高盛分析,Win10換機周期已近尾聲,AI PC的增長預期已被市場消化,且儲存成本上升可能導致產品規格下降或價格上漲。在此背景下,只有全球市場領導者(如聯想)憑藉更強的供應鏈議價能力和高端產品敞口,有望在充滿挑戰的市場中保持韌性。智慧型手機:蘋果折疊屏一枝獨秀?報告指出,蘋果將在2026年推出折疊屏iPhone,預計出貨量達1100萬至3500萬部,成為智慧型手機市場的強力催化劑。高端折疊機型滲透率持續提升,帶動相關零部件企業業績增長。高盛指出,iPhone的外形變化(Form Factor Change)將是核心驅動力,尤其是折疊屏iPhone的推出將吸引消費者並支撐終端需求。儘管儲存成本上升構成潛在風險,但高端品牌和折疊屏等新特性將降低消費者的價格敏感度。PCB:高端產能緊缺,量價齊升儘管市場對長期供需動態存在分歧,但高盛認為PCB(印製電路板)需求依然穩固。特別是高端CCL(覆銅板)和PCB供應商,受益於AI伺服器出貨量增長及ASIC滲透率提升,將面臨有利的供需格局。隨著CCL等級向M8+及M9升級,預計高端產品的平均售價(ASP)將在2026年和2027年每年增長20-30%。中國半導體:AI驅動新一輪擴張中國半導體行業將繼續保持增長態勢。高盛看好本土領軍企業(如$中芯國際 (00981.HK)$、鴻海)在先進製程上的擴張計畫,以及本土GPU供應商的崛起。AI技術創新和邊緣裝置(如AI眼鏡)的新需求將是主要推手。此外,半導體裝置和材料領域也將受益於供應鏈的本土化趨勢。L4晶片與Robotaxi:自動駕駛持續升級智能駕駛趨勢在2026年將持續深化。高盛預計,城市NOA(導航輔助駕駛)和Robotaxi(自動駕駛計程車)的普及將推動晶片組、軟體和感測器供應商的增長。Horizon Robotics等企業的解決方案正被更多車型採用,而$小馬智行 (PONY.US)$等Robotaxi營運商的商業化處理程序也在加速,這將為相關供應鏈帶來新的增長極。低軌衛星:發射加速與規格升級低軌衛星(LEO)行業將進入加速期。高盛指出,隨著火箭運載能力的提升和發射成本的降低,衛星發射將顯著提速。同時,衛星規格也在升級,頻寬將從單頻段向多頻段(Ka、E、V、W)演進。考慮到衛星5-6年的生命周期,換代需求最早可能在2026年啟動,這將推動星座網路基礎設施的建設。 (富途牛牛)
高盛:AI 伺服器需求再超預期:機架級、ASIC、液冷全線加速!
我們更新了全球伺服器總潛在市場的覆蓋範圍,具體包括:(1)人工智慧訓練伺服器(全機架 / 高功率)、(2)人工智慧推理伺服器、(3)通用伺服器、(4)高性能計算(HPC)伺服器,以及(5)美國和中國頭部雲服務商的資本支出。隨著 AMD 發佈 “Helios” 人工智慧伺服器機架,我們將全機架伺服器預測範圍擴大至更多元化的晶片平台,預計 2025 年、2026 年(預測)、2027 年(預測)的機架級伺服器數量分別為 1.9 萬台、5.5 萬台、8 萬台。專用積體電路(ASIC)人工智慧伺服器方面,我們預計 ASIC 的採用率將加速提升,其在人工智慧晶片中的佔比將從此前預測的 2025/2026/2027 年38%/40%/45%,上調至 38%/40%/50%。結合 ASIC 和 GPU 架構的基板式人工智慧伺服器需求上調、人工智慧全機架納入更多元化晶片平台,以及 2026 年下半年將有更多搭載新型人工智慧晶片的伺服器推出,我們上調了全球人工智慧伺服器出貨量預測,預計 2025-2027 年(預測)人工智慧晶片需求將達 1100 萬 / 1600 萬 / 2100 萬顆(圖表 1)。我們認為,人工智慧基礎設施周期將持續至 2027 年(預測),為行業增長提供支撐。人工智慧伺服器推薦標的:Wiwynn/ 緯創Wistron(原始設計製造商,ODM)、Hon Hai/ FII(ODM)、LandMark(矽光技術)、VPEC(矽光技術)、AVC/ Fositek(液冷)、Auras(液冷)、King Slide(滑軌)、Chenbro(機箱)、EMC(覆銅板,CCL)、GCE(印刷電路板,PCB)、TSMC(晶圓代工廠;重點推薦)、MPI(探針卡)、WinWay(測試插座)、Aspeed(無晶圓廠模式)、Hon Precision(最終測試處理器)。圖表 1:人工智慧伺服器預測:隱含 GPU 與 ASIC 出貨量人工智慧伺服器更新要點在全球雲服務商資本支出增加及人工智慧應用普及率提升的支撐下,我們上調了高功率人工智慧伺服器(搭載算力超 500 兆次 / 秒的 ASIC 和 GPU,如 H200、B200 等)2025-2027 年的出貨量預測,同比增幅分別為 9%/30%/50%;同時上調推理型人工智慧伺服器(搭載算力低於 500 兆次 / 秒的晶片,如 L40S、L20、ASIC 等)同期出貨量預測,同比增幅分別為 7%/3%/2%。近期人工智慧模型迭代持續推進,Gemini 3 Deep Think、OpenAI GPT-5.2、DeepSeekV3.2 及Qwen Code v0.5.0 等模型已陸續上線。隨著更多晶片平台轉向機架級設計,我們將全機架人工智慧伺服器(如搭載 GB200、GB300、MI450 系列等)2025-2027 年(預測)出貨量預測上調至 1.9 萬 / 5.5 萬 / 8 萬台(此前僅針對輝達機架的預測為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模分別為 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年預測僅輝達機架的規模為 540 億 / 1570 億 / 2320 億美元)。雲服務商資本支出客戶支出方面,我們的美國網際網路團隊預測,2025-2027 年(預測)美國頭部雲服務商資本支出合計同比增幅將達 78%/37%/15%(高於 9 月更新時的 67%/23%/15%);中國網際網路團隊則預計,同期中國頭部雲平台資本支出同比增幅將達 62%/17%/9%(高於此前的 55%/8%/6%)。伺服器行業前景展望1. 人工智慧訓練伺服器 —— 全機架預測擴展至更多晶片平台全機架人工智慧伺服器(如採用 NVL72/NVL144 配置的 GB200/GB300/Vera Rubin,及採用 Helios 配置的 MI450 系列)自 2024 年第四季度隨輝達 Blackwell 平台開始出貨,預計 2026 年下半年起,包括 AMD Helios 機架在內的更多伺服器將採用全機架設計。我們現將非輝達全機架納入預測,預計 2025-2027 年(預測)全機架出貨量為 1.9 萬 / 5.5 萬 / 8 萬台(此前僅輝達機架為 1.9 萬 / 5 萬 / 6.7 萬台),對應總潛在市場規模 550 億 / 1650 億 / 2550 億美元(此前 2025-2027 年(預測)僅輝達機架為 540 億 / 1570 億 / 2320 億美元)2. 人工智慧訓練伺服器 —— 高功率機型出貨量加速增長高功率人工智慧訓練伺服器(如 H200/B200/B300 伺服器及 ASIC 人工智慧伺服器,單晶片算力超 500 兆次 / 秒)方面,以 8 GPU 等效單位計算,預計 2025-2027 年(預測)出貨量為 69.2 萬 / 95.2 萬 / 122.7 萬台,同比增幅 26%/38%/29%(此前預測為 63.7 萬 / 73.2 萬 / 81.9 萬台),對應總潛在市場規模 1800 億 / 2050 億 / 2510 億美元(此前預測為 1360 億 / 1380 億 / 1390 億美元)。我們看好基板式人工智慧伺服器的需求前景,因其定製化空間更大且能減輕客戶預算壓力;同時,高功率 ASIC 晶片的產能提升也支撐我們對該細分領域的積極看法。3. 推理型伺服器緊隨增長推理型伺服器(如 L40S/L20 伺服器及 ASIC 人工智慧伺服器,單晶片算力低於 500 兆次 / 秒)方面,預計 2025-2027 年(預測)出貨量為 47 萬 / 53.9 萬 / 65.6 萬台,同比增幅 1%/15%/22%(此前預測為 44.1 萬 / 52.2 萬 / 64.6 萬台),對應總潛在市場規模 300 億 / 360 億 / 480 億美元(此前預測為 270 億 / 300 億 / 360 億美元)。增長動力主要來自人工智慧應用場景的持續拓展。4. 通用伺服器回歸正常增長我們預計 2025-2027 年(預測)其出貨量將實現同比 11%/8%/2% 的增長,營收同比增長 51%/19%/5%,增長支撐因素包括:(1)新 CPU 平台替換周期結束後,出貨量回歸正常增長;(2)資料處理需求提升推動產品結構升級,疊加儲存價格上漲,帶動平均銷售價格(ASP)上升。圖表 2:全球伺服器總潛在市場(TAM):2025-2027 年(預測)同比增長 71%/40%/26%,規模分別達 4330 億 / 6060 億 / 7640 億美元圖表 3:隱含人工智慧晶片出貨量(2027 年預測)圖表 4:機架級人工智慧伺服器:2025-2027 年(預測)輝達機架數量維持 1.9 萬 / 5 萬 / 6.7 萬台不變圖表 5:基板式高功率人工智慧伺服器將維持增長圖表 6:美國頭部雲服務商(CSP)2025-2027 年(預測)資本支出同比增長 78%/37%/15%圖表 7:中國頭部雲服務商 2025-2027 年(預測)資本支出同比增長 62%/17%/9%圖表 8:伺服器總潛在市場(TAM):營收預測調整圖表 9:伺服器總潛在市場(TAM):出貨量預測調整個人電腦(PC):2026 年(預測)/2027 年(預測)同比增長 3%/2%智慧型手機:2026 年(預測)/2027 年(預測)出貨量同比增長 1%/1%;可折疊手機 2026 年 / 2027 年(預測)出貨量達 4600 萬 / 6600 萬台(大行投研)