#GPU
2026年全球半導體展望(ㄧ) 從CoWoS看GPU與ASIC的AI世紀大戰
2025年,黃仁勳在GTC上擲地有聲的「未來六個季度資料中心收入5000億美元」預言,不僅是對市場的強心針,更是對整個算力產業鏈的總動員令。然而,硝煙從未散去。2026年開局的CES,老黃直言90%的ASIC可能都會失敗。如此一來,戰局愈發清晰,以輝達為首的通用GPU陣營,與以博通(承載GoogleTPU、Meta Mtia等)、Marvell(承載AWS Trainium等)為代表的定製化ASIC陣營,在台積電CoWoS先進封裝產能這一終極戰略資源上,展開了寸土必爭的爭奪。本報告將以CoWoS產能為唯一錨點,精確測算2026年AI算力晶片的出貨格局,並首次進行系統性覆盤,驗證此前預測的成敗得失。同時,我們將深入剖析CES上黃仁勳與蘇姿丰描繪的技術藍圖,探討「物理AI的ChatGPT時刻」對戰局的深遠影響,以及輝達收購Grop這一關鍵棋步背後的戰略意圖。結論將揭示:這場對決不僅是算力的比拚,更是生態、架構與供應鏈掌控力的全面戰爭。第一章. 復盤2025在深入2026年戰局前,必須對我們2025年的預測進行一次嚴苛的覆盤。所有的預測不去檢討不去復盤那都是妥妥的胡扯與耍流氓。先來看看預言精準之處:1. CoWoS產能是絕對瓶頸與勝負手:2025原文開篇即點出,2023年輝達因應AI爆發向台積電緊急加單CoWoS,但產能仍嚴重不足,並精確追蹤了2023年台積電與Amkor第二供應源的總出貨量(約63K/片)。以CoWoS為核心稀缺資源進行供需測算的分析框架,在2025年同樣被完全驗證。無論是輝達Blackwell的放量,還是博通承接的GoogleTPU、Meta Mtia等ASIC大單,其出貨上限無一不受制於台積電CoWoS的產能爬坡速度。2025原文中「CoWoS的產能增幅,對應的不只是AI晶片出貨量數量的增加,還疊加了Interposer面積不斷放大的增量」這一判斷,成為理解後續GPU與ASIC出貨量與營收增速差異的關鍵。這一點也是從晶片製造端瞭解未來AI晶片必須建立的基礎認知。2. ASIC陣營增速將超越GPU: 這是筆者2025年原文最核心、也最具前瞻性的判斷。2025原文筆者的模型基於CoWoS booking資料推測:『2024到2027年將進入ASIC的超級增長周期,三年80%的複合增長率』,25年原文明確指出博通的ASIC業務(AI業務中扣除交換器業務)將從2024年的80億美元增長至2027年的400億美元。如今看來,2025單單ASIC業務大約增長50%到120億,當初預測2027年400億將是打底的數字,目前樂觀可以看到500億以上,也就是說2026-2027年都是博通ASIC的超高增長年,這一點我們從文章的2026-27 CoWoS booking資料也能看出端倪。博通ASIC業務增長率(不含交換機)事實證明,2025年1月筆者當初公佈的模型極具前瞻的洞察力。2025年,博通接連拿下Anthropic超210億美元、OpenAI超百億美元的ASIC大單,其AI相關營收暴增,股價與市值一路飆升,完全印證了ASIC賽道在推理市場爆發下的強勁增長。原文中「2024-2027年ASIC的CoWoS消耗量複合增長率將達80%高於GPGPU」的判斷,這一點在2026年博通 CoWoS booking 100%+的年增量遠高於輝達的65%增量上完全驗證,根據筆者的一手訊息,博通2027年的CoWoS增量將繼續超越輝達。3.輝達面對ASIC的挑戰將尋求策略轉變:2025原文大膽預測:『NV的業績在2025年將突破2000億美元,來到2100億美元…但在2026年增幅下降』、『如果維持現有死守訓練端的高毛利策略,2027年將出現業績零增長的可能』。所以,2025年原文,筆者也預見性地指出:「ASIC必然是NV現階段不想做(低毛利)但未來卻不得不做的業務」、「NV不可能坐以待斃…如果市場到了沒辦法再繼續維持超高毛利的階段,輝達手上的武器一個一個放出來都是王炸」。2025年的市場走勢與輝達的動向完美呼應了筆者所有判斷,輝達2025財年營收確如預期突破2100億美元大關,但市場已開始擔憂其2026年增長率。更重要的是,筆者在2025年一月文章中,預測輝達一定會針對ASIC採取針對性行動,他不能也不會只死守訓練高毛利市場。隨後,在2025年1月的CES首先推出GB10的桌面工作站晶片,3月GTC推出DGX Spark,9月推出搭載GDDR的Rubin CPX,全部都是針對推理市場的專用晶片。10月份的GTC,老黃又扔出開放生態的NVLink Fusion,這猶如攻入ASIC腹地的特洛伊木馬。12月份以200億美元的超高溢價收購Groq,意圖直取ASIC高能耗效比的命門。這一系列動作,明確展現出輝達進軍定製化、低毛利市場以對抗ASIC侵蝕的戰略意圖,與筆者2025年1月的原文的預判完全一致。當然筆者在2025年1月無法預測輝達會採取什麼手段,只能做出輝達一定會有針對ASIC的戰略轉向與調整的預言。4.出貨量(顆數)與營收(價值)的背離:2025年原文深刻指出,由於ASIC的Interposer面積通常小於GPU,因此「採用不同方案的不同晶片,一片CoWoS能切割出的晶片數量天差地別」。這導致在消耗相同CoWoS面積(產能)的情況下,ASIC可以產出更多的晶片顆數。因此,比較出貨顆數時ASIC可能快速逼近甚至超越GPU,但在營收和利潤上,單價高昂的GPU仍將佔據主導。這一細微但關鍵的區分,是理解GPU與ASIC市場份額之爭的基石。預測偏差部分:1. GPU增長韌性超呼筆者的預期:2025原文對2026年GPU增長「陡降」的判斷可能過於悲觀。從2025年底至2026年初的產業動態看,由於「物理AI」、機器人等新興應用的強勁需求,以及輝達Rubin等新一代平台帶來的性能飛躍,訓練端需求並未如預期般快速見頂,反而保持了強勁勢頭。這使得GPU在2026年的CoWoS消耗佔比和營收增長,比25年的原文預期的更為堅挺。2. 技術路線融合加速:2025年原文的特點就是從晶片製造等物理層面,將GPU與ASIC視為兩條相對平行的賽道去分析,是整個網路上唯一用晶片製造的視角去看待與分析AI格局演變的文章。但實際上架構,軟體,生態等技術融合趨勢不斷再加劇。輝達通過NVLink Fusion等技術開放生態,試圖將ASIC納入其體系;而一些ASIC也在增強可程式設計性。兩者的界限正在模糊,未來的競爭可能更多是「可程式設計通用加速器」與「高度定製化專用加速器」在不同場景下的混合架構之爭。2026年的展望系列,我們還是會從晶片製造的硬體視角出發,並結合軟體層面,更全面的來看待未來AI晶片的市場格局。復盤結論:總體而言,筆者2025年初的預測文章,在核心邏輯(CoWoS為王、ASIC增速將超越GPU、輝達需戰略轉型)和關鍵資料推演上,展現了極高的精準性和前瞻性。成功地預見了博通等ASIC設計公司的崛起,以及輝達面臨的增長拐點與戰略抉擇。儘管在輝達2026增長曲線的斜率上存在細微偏差,但文章建立的「以CoWoS產能為錨,穿透出貨量與價值背離」的分析框架,依然是研判2026年乃至更長期AI算力格局最有力的工具。第二章:戰爭的底層邏輯 - AI算力需求大爆炸要理解今天在CoWoS產能上的寸土必爭,必須回到一切的起點:AI不只是近年興起的大語言模型(LLM),目前多模態,AI Agent甚至物理世界模擬,讓AI對算力近乎貪婪的渴求。面對每年5倍增長的token衍伸出的算力需求,依靠摩爾定律兩年翻一倍電晶體數量的算力增長已經完全跟不上節奏。因為AI的出現,整個半導體行業迸發了無窮的潛力,在後摩爾定律時代竟然電晶體增加速度遠超以前,記得數年前許多人云亦云的網民,高喊著摩爾定律已死,現在看來甚是可笑,誰知道再過幾年又有啥新科技出現呢?從晶片製造層面,面對AI恐怖的算力增長需求,晶片製造領域唯有不斷縮小單位線寬同時不斷加大晶片面積,一縮一放的加乘效果才能勉強跟上AI的節奏。當然增加出貨量也是一個辦法,但這裡就遇到了前段製程與CoWoS產能的瓶頸。傳統的CPU架構在平行矩陣運算面前效率低下,也催生了專用加速晶片的黃金時代。最終,AI的出現推動半導體技術演進沿著三條相互交織又彼此競爭的路徑展開:1. 架構路徑:從通用到專用,生態與效率的終極對決GPGPU的霸權之路: 輝達的CUDA生態,將圖形處理器鍛造成了通用平行計算GPGPU的絕對王者。其核心武器是極高的記憶體頻寬(通過HBM)和大規模流處理器陣列。從H200、GB200到今年即將推出的“Vera Rubin”,都是這條路徑的產物,性能提升直接與視訊記憶體頻寬、NVLink互連規模掛鉤。輝達構築的,是一個從硬體到軟體(CUDA、AI軟體棧)的封閉而強大的帝國。正如老黃在CES演講所說,物理AI的ChatGPT時刻來了,AI的第二拐點,從理解語言到理解物理世界,將還是由通用型GPGPU主導。ASIC的精準革命: 當AI工作負載,尤其是雲端推理側的負載日益固化,為特定演算法(如Transformer)定製的ASIC便展現出碾壓級的能效比Performance per Watt,和總擁有成本(TCO)優勢。Google的TPU、亞馬遜的Inferentia/Trainium、微軟的Athena,以及中國的華為Ascemd,寒武紀MLU都是這條路徑的先鋒。它們通過犧牲通用性,換取在特定戰場上的極致性價比。而博通、Marvell、Al chip等設計公司,正是通過為這些CSP雲巨頭定製ASIC,撕開了兆市場的一道口子。2.製程路徑:奈米尺度的軍備競賽摩爾定律的延續是性能提升的物理基礎。從7nm、5nm、3nm到2026年量產的2nm,每一次製程躍進都意味著電晶體密度和能效的提升。2024年3月份台積電的劉德音與黃漢森在IEEE發表的文章 , 計算出不用十年 , 人類就可以製造出一兆顆電晶體的GPU單晶片。未來不再只是通過光刻等製程微縮這單一手段來提升電晶體數量 , GAA、CFET等立體結構的最佳化、2D新材料以及先進封裝每一個技術都能有效並持續的提升電晶體數量。然而,單純靠微縮已面臨“功耗牆”和“儲存牆”。2nm晶圓的代工價格傳聞高達3萬美元,這已非所有玩家都能承受的賭桌入場費。3.封裝路徑:超越摩爾,系統級創新的主戰場當製程微縮邊際效益遞減且成本飆升,“超越摩爾”(More than Moore)成為新的增長引擎。其核心就是先進封裝,而CoWoS正是台積電為高性能計算打造的“皇冠上的明珠”。CoWoS的精髓在於異構整合。它不再追求製造一個巨大且良率堪憂的單片晶片,而是將多個小晶片,例如計算芯粒(GPU/ASIC核心)、高頻寬記憶體(HBM)、I/O芯粒等,通過Interposer進行超高密度、超高頻寬互連,整合在一個封裝內。CoWoS帶來了三大降維打擊優勢:*突破光罩板極限: 製造遠超單個光刻機視場尺寸的超大晶片成為可能。*混合搭配,最優解: 可以整合不同工藝節點、不同功能的芯粒,實現性能、成本、功耗的最佳平衡。*極致互連性能: 矽中介層上的微凸塊(μBump)間距極小,使得芯粒間通訊頻寬激增,延遲和功耗大幅降低。正因如此,無論是追求極致性能的輝達GPU,還是追求最佳TCO的雲巨頭ASIC,但凡涉足頂級AI算力,都離不開CoWoS。它從一項“使能技術”,變成了決定最終產品出貨量的戰略瓶頸資源。後摩爾定律時代,More than Moore成為主角,各種型態的先進封裝技術孕育而生我們從下面的例子可以清楚看出,後摩爾定律時代利用多種手段的電晶體推進速度。2022年輝達採用N4製程的Hopper的電晶體數量為800億。2024年採用N4P製程+D2D Chiplet的Blackwell電晶體數量為2080億。2026年輝達將推出N3P製程的Rubin晶片,單die預計在1680億電晶體左右,雙die為3360億電晶體。2027年整合度更高的CPO,以及CoWoS的極限4 die合封,Rubin ultra晶片電晶體總量將達到6720億。2028年輝達將推出Feynman,採用A16製程,4 die合封的電晶體總數將達到8000億左右。2030年輝達的更新一代晶片將採用A14製程,再加上利用CoPoS技術做到8die合封,電晶體總量達到2兆。所以利用晶片製程不斷的微縮,加上不斷放大面積的interposer,單顆晶片的電晶體數量增長比摩爾定律時代更高。2022年的800億,提升到2030年的2兆,8年25倍的提升,比摩爾定律每2年翻1倍,8年16倍還來得更驚人。全球CoWoS產能對於CoWoS產能,儘管OSAT以及英特爾、三星等都在大力投資,但2026年的有效產能主要由2025年的投資決定,彈性有限。更重要的是,壟斷CoWoS市場的台積電,在2028年將推出方型基版的CoPoS取代CoWoS,屆時佔CoWoS產能一半以上的輝達將率先轉入新技術,這將導致這兩年為了滿足市場剛擴產的CoWoS產能因被替換而大量閒置。所以目前台積電對CoWoS的產能建設趨於保守,這對AI晶片客戶來說不是一個好消息,目前得應對之策就是將短期外溢的訂單轉給OSAT或者精度要求不高的低端ASIC考慮英特爾EMIB。從現況來看,2026-2027年CoWoS產能,將出現2023-2024年高度緊張度狀態,從筆者一手訊息來看,2026年Q3開始台積電CoWoS的稼動率將回到100%以上,直到CoPoS產能開出後又將迅速跌落。目前台積電內部對這兩年的CoWoS產能建設有很大的分歧。因此,分析2026年的戰局,必須首先看清CoWoS這座「軍火庫」的儲備與分配。未來AI晶片的競爭,是架構、製程、封裝“三維戰爭”。到了2026年,當製程進入2nm深水區,成本高企,架構路線(GPU vs. ASIC)出現根本性分叉時,再度緊缺的CoWoS先進封裝的產能分配,就成了決定算力版圖的最關鍵變數,沒有之一。第三章:2026年CoWoS產能沙盤推演基於筆者的訊息,我們對2026年台積電CoWoS產能及預訂Booking情況進行建模分析。根據筆者模型,台積電CoWoS產能近幾年的爬坡如下:2023年底:約 12K/月2024年底:約 36K/月2025年底:約 80K/月2026年底(目標):達到 ~120K/月。對於2026年台積電CoWoS產能逐月提升過程,我們取一個不樂觀也不保守的全年有效平均值:94K/月。即 2026年台積電CoWoS總有效產能約為:94K/月 × 12個月 約 1,120,000片。這是本次測算的總彈藥基數。CoWoS產能分配的邏輯推演:台積電的產能分配是一場基於技術、商業、地緣政治的複雜棋局。核心考量如下:技術繫結與生態深度: 輝達是CoWoS最早期、最大膽的共同定義者和投資者,其架構(如NVLink)與台積電CoWoS工藝深度耦合,享有最高優先順序。訂單規模與戰略押注: 蘋果、輝達、AMD是台積電前三VVIP大客戶,其巨額預付款和長期協議鎖定了基礎產能。不過蘋果要到2028年才有自研AI晶片,這兩年不需要CoWoS產能。博通、Marvell因承接Google、AWS、Meta等雲巨頭天量ASIC訂單,已躋身頂級VIP客戶行列。地緣政治與第二供應鏈: 美國對華技術限制,迫使中國頭部AI公司,透過第三方等各種方式全力爭取任何可能的CoWoS產能。同時,ASIC以及AMD、英特爾乃至中國客戶,都是台積電制衡輝達分散客戶風險的重要力量。產品迭代與良率: 更複雜、整合度更高的封裝(如整合更多HBM、更大中介層)初期良率較低,實際有效產出需打折。下圖清晰展示了各主要玩家的爭奪格局:2026年台積電CoWoS產能分配:輝達:2026年6*萬片。年增*%,依舊保持高增長。儘管面臨競爭,但其產品需求最旺、單價最高、技術最領先,仍將佔據最大份額。輝達接近台積電CoWoS總產能*%的預訂量,遙遙領先其他AI晶片企業,幾乎不受ASIC崛起而稀釋,繼續保持絕對主導的份額。當然輝達的CoWoS預訂的增量,有很大一部分是來自Interposer面積放大的結果,2026年推出的Rubin達到5.5x reticle,比Blackwell的3.3x reticle大了1.6倍。也就是輝達在晶片出貨數量不變的情況下,就必須增加1.6倍的CoWoS產能,或者說從輝達在Rubin時代增加60%的CoWoS產能,晶片出貨量與Blackwell時代相比是沒有增加的。當然整個2026年Blackwell還是出貨主力,輝達65%的CoWoS增量,必然是出貨數量以及單價的雙雙齊漲的局面。AMD:2026年*萬片,年增*%。多款Mi300系列已證明AMD的競爭力,剛剛開幕的CES,蘇大媽正式官宣Mi400系列的來勢洶洶,預計下半年開始出貨。從CoWoS booking數量來看,與25年相比有*%的增量,與輝達的增幅幾乎一致。這也標示著AMD對Mi455的信心十足。Broadcom博通:2026年*萬片,年增*%。主要客戶GoogleTPU開始對外銷售,對博通是利多,不過博通主要負責TPU v6 以及 v7p,偏向推理的v7e會在2026年下半年推出,由聯發科負責流片。下一代的TPU v8 還是會遵循v7的模式,由博通與聯發科兩家分別下單台積電CoWoS。2026年博通向台積電預定的CoWoS產能有60~65%給到TPU第二大客戶Meta的Mtia晶片,今年今年將推出第三代產品,Mtia v2 & v3大約佔博通CoWoS預訂量的20%左右。未來的大客戶Open AI將於2026年底推出內部代號Titan晶片,採用台積電N3製程,預計佔今年博通預訂量的5-10%,2027年將達到20%。2028年蘋果的AI ASIC - Baltra也將面世,目前由博通負責高速互聯,SerDes IP以及後段布線,預計2026年上半年進入TO階段。很顯然,博通是未來ASIC崛起的最大贏家。Marvell美滿:2026年*萬片,年增*%。2026年CoWoS預定數量與2025年持平,幾乎是AI晶片最失意的廠家。主要是出貨主力AWS下一代的Trainium 3轉由Al chip設計。2026年主要客戶還是AWS的Trainium 2 ,新客戶Microsoft採用N3E製程的Maia 200 加入,避免了下滑。Al chip世芯:2026年*萬片,年增*%。2026年CoWoS 200%的增幅,主要是拿下AWS的Trainium 3 訂單2026年出貨包含少量Trainium 1 ,決大部分為N3製程的Trainium 3 Anita,加上Inferentia 2 以及少量的Intel Gaudi 3,以及微軟上一代的-Maia 100。Al chip的客戶數量比博通還多,但出貨量級都不高。AWS已暫停Inferentia 3的開發,轉向以Trainium統一承擔推理跟訓練的工作負載,目前未見Inferentia 3的TO訊息。Annapurna:2026年2.4萬片,年增64%。作為AWS的子公司,Annapurna一直承擔AWS AI ASIC的開發任務,同時也向台積電直接預定CoWoS產能,Trainium 3的 Mariana版本有別於Al chip的Anita版本,同時在台積電投片。MTK 聯發科:2026年2萬片。作為台積電CoWoS的新進客戶,目前聯發科已調撥大量人力支援ASIC業務,AI ASIC未來將成為聯發科的重點業務。2026年下半年主要承擔TPU v7e的出貨,2027年為出貨主力年,同時2027年將疊加TPU v8e的訂單,2027年MTK有機會出現5~600%的CoWoS同比增幅。聯發科目前已將AI ASIC最為為來核心業務,作為行業巨頭,聯發科的加入也將很大影響ASIC設計的市場格局。聯發科這兩年的ASIC業務雖然這兩年高歌猛進,但由於只是做後段布線,缺乏博通強大的IP,雖然增幅大,但單價較低,對於體量本就不小的全球第三fabless巨頭來說,並不能帶來營收的大幅度增長。當然從CoWoS增量來看,聯發科在AI以及端側的佈局非常積極,又有ASIC業務的高增長加持,將是這兩年除了博通之外,ASIC陣營的最大受益者。剩下的台積電CoWoS客戶的量級就都是小於1萬片,其中微軟自研ASIC-Athena 還是由內部團隊在台積電投片小批次的不斷迭代推進。GUC創意還是小型AI晶片初創企業在CoWoS流片的首選,也是國內AI的重要第三方,畢竟GUC是台積電的親兒子。Xilinx這個最早的CoWoS客戶,因為CoWoS不斷漲價,FPGA又不如AI晶片的利潤那麼高,已經逐漸放棄高成本的CoWoS,改由成本更低的IoFO_LSI方案。剩下的兩家交換機廠家思科與中興微,因為其高端交換機有採用HBM,所以一直以來也都是台積電CoWoS客戶,只是預定量只有幾千片的水平。至此,我們得到了2026年各陣營的“彈藥”配額:再加上FPGA、Switch的 2萬多片,即時2026年台積電CoWoS的出貨總量。從彈藥分配來看,拿下整個CoWoS產能65%的GPGPU陣營還是擁有絕對的火力優勢,甚至輝達一家的火力就超過全球其他企業的總和。第四章:超越數量 - 價值、生態與功耗的深層次博弈然而,僅比較CoWoS還是會誤判戰局。雖然CoWoS數量與面積是一切的根本,但不同的封裝方案,比如single-die以及dual-die方案,將導致Interposer面積出現很大的不同,每片CoWoS可切割數量有很大差別。其中最顯而易見的就是Hopper時代的每片切29顆,到了Blackwell時代的每片14顆,這正是Interposer不斷放大的結果。所以台積電CoWoS的產能增幅,對應的不只是AI晶片出貨量數量的增加,還疊加了Interposer面積不斷放大的增量。又比如2026年Google的TPU v7p是dual-die的D2D方案,interopser size 在2400mm2左右,一片CoWoS可切割16顆左右。而同一代針對推理的TPU v7e,採用single die設計,interposer size只有1500mm2左右,每片CoWoS可切數量超過30顆以上。AI晶片的Interposer越來越大的尺寸是明確的技術路線,目前Interposer是3.3x的reticle size,2026年的Rubin是4~5.5x,而2027年4-die合封的Rubin Ultra將達到9~9.5x。所以不斷放大的Interposer面積也是台積電CoWoS不斷大幅度擴產的一大主因。正因如此,以CoWoS的產能(消耗面積)增減幅度來計算企業AI營收增減幅度,會比企業的AI晶片出貨顆數量增減來的更為準確。AI晶片戰爭的勝負,除了CoWoS消耗面積以外,還要在兩個維度上評判:算力維度:一顆輝達B300的FP8算力達10 PFLOPS,而一顆定製推理ASIC的算力可能僅為其幾分之一,即便是最強的TPU v7p也只有輝達B300的一半,這還是不考慮今年與TPU v7同台競技的Rubin的差距,如果用Rubin來對比差距將更大。剛開幕的CES老黃說Rubin的性能將比blackwell在推理提升了5倍,訓練提升了3.5倍,GPU與ASIC的性能差距並沒有縮小,反而是在擴大中。因此,即使顆數接近,輝達陣營輸出的總算力(TFLOPS) 很可能仍大幅領先。這是GPU通用架構的“蠻力”優勢。總算力領先的物理基礎就是來自CoWoS消耗面積(電晶體)的多寡。價值維度:這是最殘酷的差距。輝達單顆GPU售價高達3萬美元以上,未來會提升到4-5萬美元。而云巨頭自研ASIC的“成本”僅體現為台積電的代工費用和博通的設計服務費,即便成本相差無多,但ASIC其“內部結算價”必然遠低於GPU售價。即便ASIC對外銷售,我們可以用Anthropic向博通採購210億美元的TPU為例,百萬顆的TPU v7p 扣除伺服器等諸多配置,單顆對外售價在1.5萬以下。目前最強的ASIC是採用最先進N3P製程的TPU v7p,製程領先輝達Blackwell一個世代,但其對外售價不到Blackwell的一半,這與剛才我們計算的TPU v7p的算力只有B300的一半,算力與售價差距大致上是對等。從這一點來看,完全證明我們文章剛才所說,AI晶片是多維度的比拚,不單單比摩爾定律比晶片製程,還要比誰的面積更大,能放進更多電晶體,最終表現在性能上的差別也決定他的最終價格。因此,輝達用60%的CoWoS產能,創造了整個AI加速晶片市場70%以上的收入和90%以上的利潤。這正是黃仁勳“6個季度,5000億美元狂言”的底氣 — 他賣的是“黃金”,而ASIC陣營在為自己鍛造“精鋼武器”。生態鎖死 vs. 專用解放:輝達的帝國城牆: CUDA軟體棧、龐大的開發者社區、最佳化的AI框架(TensorRT、Triton),以及NVLink、NVSwitch構成的系統級優勢,構成了幾乎無法踰越的生態壁壘。使用者購買的是一整套最強的“交鑰匙”解決方案。ASIC的破局邏輯: ASIC的優勢在於,對於CSP這類超大規模使用者,當其軟體棧完全自控,從TensorFlow/PyTorch框架到推理服務Triton,且工作負載高度特化且穩定(如搜尋推薦、廣告排名、語音識別推理)。所以自研ASIC能帶來極致的TCO(總擁有成本)最佳化和能效比。它們用“專用化”換取“去輝達化”的戰略自由和長期成本節約。最終直指CSP採用自研晶片最佳化財務報表的內在動力。這也說明了一個侷限,ASIC只有超大型CSP或者大模型等超大規模企業會使用,首先ASIC的資金以及人力投入巨大,但這兩點已經確定了客戶範圍,所有用量不大的中小型使用者都不可能使用ASIC。即便是購買現成的ASIC,我們以Anthropic向博通採購210億美元的TPU為例,這背後需要養一隻極為強大底層系統工程師團隊不斷的進行深度遷移以及適配。單這一項開支,就足以說明這並非普通企業所能承受的,當然目前GPU高昂的價格,讓市場更願意採用各種降本方案,可即便是購買現成ASIC的模式,大概也就能拓展到Anthropic這體量的大模型企業,很難再往下拓展。系統級創新與功耗牆:功耗即成本,散熱即極限: AI叢集的功耗已從幾十千瓦邁向兆瓦級,未來晶片功耗將飆升至數千瓦。風冷已到極限,液冷(包括冷板、浸沒式)成為標配。這不僅關乎電費,更決定了資料中心的物理設計和最大叢集規模。ASIC的能效優勢: 專用電路在執行特定任務時,能效通常遠高於通用GPU。這意味著在相同的供電和散熱預算下,可以部署更多ASIC算力單元。互連與封裝創新: 戰爭遠不止於單顆晶片。CPO共封裝光學是突破“功耗牆”和“互連牆”的關鍵,CPO展示了系統級互連的競爭。系統架構創新,如華為的384顆NPU互連的CloudMatrix 384,來挑戰輝達NVLink全互連系統的思路。CoWoS只是起點,其上的互連網路(NVLink, CXL, UCIe)、光引擎(CPO)的競爭同樣激烈,而且每一個技術領先都有決定性的作用,目前輝達在每一個維度上的表現都處於行業領先地位。第五章:GPU的技術反擊與生態擴張:2026年開年CES,黃仁勳與蘇姿丰的演講,清晰地勾勒出GPU陣營未來的技術路線圖和反擊策略,特別是對「物理AI」這一新戰場的定義,將深刻影響GPU與ASIC的競爭格局。輝達在CES宣告的戰略意圖:1.下一代「Rubin」架構正式亮相:基於台積電N3P製程,並將interpose面積放大1.4~1.6倍,首次實現整合超過3000億個電晶體的單一GPU,電晶體總數達3360億,較上一代電晶體數量提升1.6倍。並搭載下一代 HBM4 記憶體,單GPU容量直奔 288GB 甚至更高,儲存頻寬突破 22TB/s,較上一代Blackwell提升2.8倍,可見HBM4相對於HBM3e,在介面頻寬以及logic base die的提升可謂相當驚人。互連技術 NVLink 6.0 將提供超過 3.6TB/s 的GPU間直連頻寬,較上一代Blackwell提升1.8倍。推理性能比Blackwell高出5倍,訓練的性能高出3.5倍。Rubin不僅是性能的躍升,更是輝達鞏固其在訓練和複雜推理市場絕對領導地位的利器。2. 物理AI的ChatGPT時刻 :這是黃仁勳演講中最具震撼力的宣言。他認為,AI的下一個前沿是理解和模擬物理世界,應用於機器人、自動駕駛、數字孿生、科學發現(如氣候模擬、藥物研發)等領域。這些應用需要處理海量、多模態的感測器資料,進行複雜的物理模擬和即時決策,工作負載極度複雜、演算法迭代快速。為何老黃會這樣說,因為「物理AI」恰恰是通用GPU的絕對主場。定製化ASIC在處理固定、已知的模型推理時效率極高,但面對物理AI所需的持續學習、多工處理、快速演算法適配等場景,其架構僵化的劣勢將被放大。GPU憑藉其無與倫比的可程式設計性和龐大的CUDA生態,能夠靈活適應從計算流體力學到機器人控制等各種新興物理AI任務。因此,「物理AI的ChatGPT時刻」極大地擴展了GPU的應用邊界和市場總量,為其增長提供了全新的可開發疆域,這是ASIC現有技術難以切入的賽道。3.收購Groq:對ASIC的「釜底抽薪」之舉。2025年底,輝達宣佈收購專注於低精度推理和極低延遲語音模型的初創公司Groq。這筆收購遠不止是技術補充,而是對ASIC陣營的戰略性反擊。Groq的技術核心在於其LPU(語言處理單元)架構,在特定推理任務(如大語言模型對話)上能實現遠超GPU和傳統ASIC的能效和速度。輝達通過收購Groq,直接獲得了在ASIC最具優勢的「高能效推理」領域的尖端技術和產品。這使得輝達能夠以「內部ASIC」的方式,正面迎戰博通、Google等的定製化推理晶片。這不僅是產品線的補充,更是商業模式的轉變,從單純銷售通用GPU,轉變為提供「通用GPU + 特定領域最佳化加速器(如LPU)」的全端解決方案。這將有效遏制ASIC在推理市場的侵蝕,並可能奪回推理市場市佔率的重要武器。此舉加劇了AI加速器市場的融合與競爭。未來的界限不再是簡單的GPU對ASIC,而是「全端生態公司」與「專項設計公司」的對決。輝達正在利用其資本和生態優勢,將潛在的顛覆性技術收編入自身體系,戰場的主導權還是掌握在輝達手上。AMD則在CES公佈MI400系列的細節,正式發佈基於3nm增強版製程的 「AMD Instinct MI400」 加速器。核心參數瞄準超越輝達當前旗艦,宣稱在關鍵AI訓練和推理工作負載上,實現相比MI300系列100%的性能提升,並強調其能效比優勢。AMD持續推廣其開放式軟體棧ROCm,並通過與微軟Azure、Oracle Cloud等雲服務商的深度合作,以更開放且更具性價比的方案爭奪輝達之外的市場份額。蘇姿丰強調,未來的AI計算將是多元化的,AMD將為客戶提供「第二選擇」。總而言之,2026年的GPU陣營,並非消極防守。輝達通過定義「物理AI」新戰場、收購Grop補強推理短板,正在從技術和生態兩方面建構更深的護城河。AMD則堅定地走開放與性價比路線,蠶食市場。GPU的增長故事,正從單純的「大模型訓練」擴展到更廣闊的「物理世界智能化」,這為其對抗ASIC的專用化攻勢提供了戰略縱深。第六章:超越產能 - 生態、功耗與終局之戰CoWoS產能決定了「彈藥」數量,但戰爭的勝負還取決於「彈藥」的效率、協同和最終產生的價值。1. 生態系統的終極壁壘:輝達的CUDA生態依然是其最堅固的堡壘。數百萬開發者、龐大的軟體庫、從訓練到部署的全端工具鏈,構成了極高的遷移成本。儘管Google的TensorFlow、PyTorch等框架也在努力實現對不同硬體後端的支援,但在易用性、性能和社區支援上,仍與CUDA有差距。ASIC陣營的優勢在於『垂直整合』,Google可以為TPU深度最佳化TensorFlow,Meta可以為MTIA定製模型。但對於廣大的企業和開發者而言,輝達全面且最優的「交鑰匙」方案仍然是最佳選擇。收購Groq後,輝達有望將這一生態優勢進一步延伸到特定推理場景。2. 功耗牆與成本牆:隨著單晶片功耗突破千瓦級,資料中心的供電和散熱成本已成為不可忽視的因素。ASIC憑藉其專用架構,在能效比(Performance per Watt)上通常有顯著優勢。這也是雲巨頭在規模化部署推理服務時傾向採用自研ASIC的核心經濟動因。輝達需要通過製程與封裝技術的進步、架構創新(如稀疏計算、低精度推理)以及系統級最佳化(如液冷、CPO共封裝光學)來對抗ASIC的能效優勢。Rubin架構和收購Groq,正是其在性能和能效兩端同時發力的體現。3. 未來的融合與分野:長遠來看,GPU與ASIC的界限會進一步模糊。輝達可能會推出更多「可配置」或「領域專用」的加速器(類似收購Groq後的產品線)。而ASIC設計公司(如博通)也可能會為不斷強化ASIC的性能,並給客戶提供更具靈活性的平台化方案。未來的競爭,將是「高度最佳化的通用平台」與「深度定製但具有一定可程式設計性的專用平台」之間的競爭。CoWoS產能依然是基礎,但在此之上,軟體生態、能效表現、總擁有成本(TCO)和對新興應用的適應能力,將成為決勝的關鍵。2026,對峙與滲透的拐點綜上所述,基於對CoWoS產能的沙盤推演、對2025年預測的覆盤以及對最新技術動向的分析,我們對2026年GPU與ASIC的對決格局得出以下結論:1. CoWoS分配格局固化,輝達主導地位難撼:2026年,輝達仍將消耗台積電過半的CoWoS先進產能,這確保了其在高端訓練和複雜推理市場的供給優勢,並在ASIC固守的推理市場不斷的嘗試進攻。ASIC陣營份額依舊維持快速增長,主要來自CSP掌握的大量推理算力的增量和生力軍頭部大模型企業的加入,短期內依然無法動搖輝達的根基,但卻能在固守方陣內不斷壯大與繁榮。2. ASIC在推理市場不斷壯大,實現規模化突破,但GPU開闢「物理AI」新戰線:ASIC憑藉成本和能效優勢,將在雲巨頭的大規模、固定模式推理場景中確立主流地位,並開始向Open AI以及Anthropic等頭部大模型公司滲透。然而,輝達通過定義「物理AI」這一全新、複雜且快速演進的賽道,為GPU找到了下一個爆發性增長點,有效避險了ASIC在傳統推理市場的衝擊。3.競爭從「硬體對抗」升級為「生態與系統級對抗」:輝達收購Groq標誌著戰術的轉變,從單純防守轉向「以彼之道,還施彼身」,用定製化能力反擊定製化。未來的競爭將是全端能力的競爭:從晶片、互連、封裝、系統到軟體和開發者生態。擁有更完整生態和更強系統整合能力的玩家將贏得最終優勢。結 論以2026年台積電約115萬片CoWoS產能為沙盤推演,我們測算出:ASIC陣營(37.5萬片)達到GPGPU陣營(75萬片)剛好50%的水平,這個資料2024年為52%,2025年為45%,2026年為50%。也就是說2026年ASIC對比GPGPU的CoWoS佔比提高了5%。這再次印證,筆者2025年原文所稱,2024-2027年為ASIC超級增長周期,其中2026-2027年將是周期高峰,大家可以再次翻閱2025年全球半導體展望中原文的模型。面對ASIC基數較低的超高增長,GPGPU在基數龐大的情況下,CoWoS佔比也沒有大幅度的下滑,比筆者一年前預測的更有韌性,這除了輝達GPGPU持續熱銷以外,還有GPGPU更願意採用最新技術有較大關係,比如2026年的Rubin率先採用4~5.5x reticle的interposer,2027年很快推進到9~9.5x,這個變數將直接翻倍。而ASIC的絕對性能沒有GPGPU那般的極致要求,2026年ASIC的Interposer在2.9~3x ,在2027年也還是停留在3.3x的水平。GPGPU是面積快速放大但出貨數量微幅增長,ASIC是出貨數量快速放大而面積微幅增長,最終勝敗就表現就在CoWoS預定資料,ASIC在出貨數量增幅遠高GPGU 15%以上,但在CoWoS產能的佔比則是從45%,提升5個點到50%。根據筆者模型,2027年ASIC將來到GPGPU的58%,ASIC佔比持續增加,意味著2026-2027筆者早早預測的ASIC迎來超級增長周期,增長率超過GPGPU。至於企業營收,那自然與CoWoS出貨量成正比,晶片性能與面積(電晶體總數)成正比,同製程雙顆的dual-die性能必然是高於single-die的晶片,文前有比較過性能與售價成同比例漲跌(TPUv7與B300),也就是性能高兩倍,單價大概也會高兩倍。這裡面多少nm製程與多大的面積都對性能(電晶體數量)有決定性的影響。ASIC的代表GoogleTPU,除了CSP自研自用以外,開始向外提供,這標誌著ASIC從正式邁入“規模化部署”以不斷蠶食GPGPU領地。然而,在商業價值(營收/利潤)和算力總量上,輝達憑藉其極高的單價和通用算力優勢,在2026年及之後一段時間內,仍將保持王者地位。輝達的帝國,將繼續統治需要靈活性、創新性和全端解決方案的廣闊疆域(訓練、新興應用、中小企業、科研)。ASIC的諸侯國,將在超大規模資料中心內部,在推理、推薦、搜尋等成熟且量大的固定戰場上,建立起基於極致TCO和能效比的自治領地。未來,我們更可能看到的是一個 “GPU+ASIC”的混合算力世界:雲巨頭用輝達GPU進行前沿模型研發和訓練,同時用自研ASIC進行成本敏感的大規模推理部署。戰爭的號角早已吹響,2026年的CoWoS產能分配表,就是這場世紀算力大戰最真實、最殘酷的兵力部署圖。ASIC群雄時代結束,Google/博通已成為共主,圍獵與反圍獵已經開始,而輝達帝國依然強大。這場好戲,還在後頭!而更接近未來事實的是,這場戰爭並非一場你死我活的殲滅戰,而是一場持久且複雜的“劃界戰爭”。隨著戰爭的推進,各方勢力意圖提高競爭力去打敗對手的同時,不斷提高的技術能力,導致技術外溢,其產生的結果不一定是打敗對手,而是如哥倫布一般,隨著航海技術的提升,發現更為廣闊的新天地。AI世界還有太多未知的疆域需要更高的技術才能去探索與挖掘。未來GPGPU以及ASIC可能都是贏家。2026-2027年ASIC的增幅將繼續高於GPGPU,2028年融合了LPU的Feynman有沒有可能帶領輝達在ASIC堅守的領地攻城拔寨,目前言之過早,未來誰主沉浮猶未可知?而GPGPU以及ASIC在整體算力需求不斷上漲的雙贏背後,卻始終站著一位終極大BOSS,更大的幕後贏家不動聲色冷眼旁觀。台積電作為這場戰爭共同且唯一“軍火商”,坐擁CoWoS產能的絕對定價權,將是無論那一方獲勝都不可或缺且毫無疑問的終極大贏家。(梓豪談芯)
阿里雲 2026 年目標:拿下中國 AI 雲市場增量的 80%
“AI Infra 就是雲端運算本身。”100 多年前,電力首次進入工廠,許多工廠主做了一個看似合理的決定:保留複雜的蒸汽機傳動軸和皮帶系統,只用電動機替換蒸汽機。結果令他們大失所望:動力更強了,生產效率幾乎沒有同步提升。接下來的 20 年,他們才逐步意識到,電力帶來的真正變革不只是簡單替代動力源,而是把它嵌入到不同的業務單元中,用不同類型的電機驅動鑽頭、傳送帶等,生產力才迎來爆發。這是阿里雲希望給企業深入應用 AI 提供的能力。他們認為,AI 時代客戶要的不只是單一的模型或雲的能力,而是更低成本使用更強模型時,有更靈活的綜合體驗。AI 雲應該像當年的電力真正提高工業生產力時那樣,提供多層次的服務,全面嵌入到企業的業務流程中。這一判斷有業務資料支撐:在阿里雲上呼叫大模型 API ( MaaS 服務)的客戶中,有七成也同時在使用其 GPU 算力服務。阿里雲智能集團資深副總裁、公共雲事業部總裁劉偉光說,第一批深度使用 AI 的客戶,會把場景分成不同檔次:不只是簡單呼叫大模型 API,還會用內部資料精調或者後訓練基礎模型,或者自己從頭訓練一個模型。在劉偉光看來,AI 給雲端運算行業帶來的變化才剛剛開始,整個雲端運算體系架構都要為 AI 重構,“MaaS 增長潛力很大,但關鍵是打贏 AI 雲新增的全量市場”,要建立軟硬一體的 AI 雲全端能力,推動企業用更低成本呼叫更強的 AI 模型,解決不同層次、不同場景問題,“這才是競爭中的勝負手”。146 個 行業客戶深度調研:Token 質量比數量重要“如果今天所有的 AI 應用每天只能免費用 100 次,你會用它做什麼?”這是劉偉光 2025 年走訪了 146 個客戶後反覆思考的問題。 他的結論非常直接:沒有人會把它浪費在寫段子或閒聊上,一定會做最重要的東西——對工作最有幫助的決策、對家庭生活最關鍵的建議。在他看來,這是企業使用大模型與個人使用者的本質區別。個人使用者可能為了娛樂消耗 Token,但追求效率的企業,每一次 Token 的交換都有成本。他們不僅要為 Token 付費,業務線上的人力、時間也是投入。很難想像一個年輕的工程師面對裝置故障時,還需要多輪對話才能得到解決方案,需要更快的響應、能讓他迅速解決問題的指南。同樣,基金公司的交易員用 AI 輔助捕捉交易訊號時,也很難容忍模型動輒陷入沉思,然後給出長篇大論,再問一句 “是否需要我幫你整理得更完善”。傳統行業的企業正在用不同的方式,儘可能避開 AI 的短板、提升效率。比如汽車診斷公司,用 30 年積累的產業檢測報告做出來遠端幫助汽修的大模型,才用到診斷報告中;基金公司會用沉澱 20 多年的資料和交易的行為跟模型結合,把各種形式的非結構化資料(如文字、語音、圖像等)轉化為可供投資參考的標準化資訊。企業也希望充分挖掘 AI 的潛力。中國兩家農牧業巨頭公司都在用千問做相同的事情,他們不僅嘗試用 VL(視覺大模型)識別豬的數量,還用它來識別豬的異常行為,檢測豬的健康與活性,或者是開發獸醫大模型解決專業人才短缺問題。還有頭部照明公司接入千問後,不再侷限簡單的開關燈或者調控色溫,還用 AI 理解使用者模糊的指令,用更流暢的對話打造更聰明的端側語言模型,讓人與光的互動更自然。而企業一旦找到合適的方式把 AI 嵌入業務流程中,就會是嚴肅和連貫的。線上招聘行業中的每一家公司,幾乎都在引入 AI 簡歷篩選、智能化面試、自動生成面試記錄。當招聘專員習慣用 AI 輔助工作後,就會形成新的工作流,每天都會使用,不會受到個人喜好影響。“個人消費者使用 AI 的情況會有波動,但企業級市場只會不斷增長。” 劉偉光說,而且使用的廣度和深度會不斷加強,很多場景還沒有解鎖,“如果 AI 能把車損定損給改了,那絕對是一種 ‘革命’。”2024 年雲棲大會上,阿里巴巴集團 CEO 吳泳銘在演講中稱,生成式 AI 最大的想像力,絕不是在手機螢幕上做一兩個新的超級 App,而是接管數字世界,改變物理世界。過去一年中國 AI 企業市場的發展證實了他的判斷。AI 已不只在手機裡面作為應用程式,而是出現在更多的載體中,包括眼鏡、耳機、學習機、玩具、健身器材、汽車、機器人等全品類硬體裝置中。這種不同層次、不同場景的需求,當下無法用單一的模型 API 服務滿足。在美國市場,原本已經給企業提供工具的 SaaS 行業,大模型呼叫量規模持續上漲,提供了一種相對標準化的方案。而在 SaaS 行業未能發展起來的中國市場,傳統行業偏向定製服務解決特定場景問題,往往需要後訓練或者微調大模型。雲端運算公司提供這樣的服務,在一定程度上為企業提供了類似 SaaS 的服務。“現在所有 MaaS 服務加一起,在中國雲端運算市場、甚至 AI 雲市場佔比都不高。MaaS 的空間當然非常大,但不是今天。” 劉偉光說,只統計公有雲市場大模型 API 的呼叫量,無法代表 AI 雲全貌。真實的 Token 消耗量,要把 MaaS 平台 API 呼叫、公共雲 GPU 推理叢集產生 Token、私有化模型部署產生 Token,裝置端模型產生的 Token 等全部統計在內。“冰川下的 Token 消耗非常大,卻無法統計。而且企業用 AI 還處於轉型早期, 90% 以上的企業還沒有真正行動起來,未來肯定是百倍的增長。”但可以觀察的是,只要基礎模型的性能持續提升,雲廠商深入到技術堆疊的每一層提供服務,改進推理能力、節省成本,就可以帶動更多行業的更多客戶用 AI 解決問題。做 AI 時代的基礎設施,承接不同層次的需求輝達 CEO 黃仁勳曾拋出一個著名的論斷:GPU 叢集就是 “Token 工廠”,輸入的是能量,輸出的是 Token。這是典型的晶片公司視角,把 AI 生產過程簡化為了物理層面的能量轉換。對於雲廠商來說,如果只是從事算力轉售業務,現在很難提供可用的 AI 服務。他們必須用系統工程能力,儘可能提升現有算力效率,針對不同行業、不同層次的企業提供模型服務。這也是阿里雲的選擇:做 AI 時代的基礎設施。用劉偉光的比喻來說,阿里雲正在搭建的是一套現代化的自來水廠,而不只是水(大模型 API)的搬運工,還要維護水源地(開源模型)、搭建淨化車間(資料清洗與模型訓練平台)、鋪設輸水管網(高性能網路),以及處理污水(安全治理)等。在這套體系中,阿里雲能夠提供當前不同類型的 “用水” 需求:MaaS(直供水服務): 就像家庭擰開水龍頭就能用水,企業或者開發者不用關心底層複雜的管網,直接呼叫 API,開箱即用,按需付費。這是最輕量的接入方式。PaaS(工業用水服務): 類似於工廠需要特定的水源,企業可以獲得基礎模型,直接用 “開源模型” 在阿里雲平台上微調或者自己後訓練,然後部署到合適的環境中。IaaS(水處理基礎設施): 像是將經過初步淨化、萃取後的水源,輸送給飲料廠或啤酒廠,企業可以用阿里雲提供的算力和基礎軟體,用來訓練獨家配方的 “飲料”,比如自動駕駛模型、各種垂類大模型等等。阿里雲已經有了初步成績。根據市場調研機構 Omdia 資料,2025 年上半年,中國 AI 雲整體市場(AI IaaS+PaaS+MaaS)規模達 223 億元,阿里雲佔比 35.8 %,超過第二到第四名總和。搭建這套全面的基礎設施,不僅需要高昂的投入,還要有戰略決心。2025 年 2 月,阿里宣佈未來三年將投入超過 3800 億元,用於建設雲和 AI 硬體基礎設施,總額超過去十年總和。僅僅是 2025 年前三個季度,阿里用於建設 AI 資料中心等的資本開支就兌現了 950 億元。在基礎模型層面,阿里持續投入訓練不同尺寸、不同類型、不同模態的基礎模型,並投入資源把它們做到第一梯隊。比如視覺生成模型萬相 2.6 性能媲美 OpenAI 的 Sora 2;Qwen-Image-Layered 是業界首個能實現圖像分層精準編輯的模型;Qwen3-Max 的性位居全球模型性能榜單前列。阿里選擇把這些模型開源,提供給各行各業的團隊或企業使用,其中 Qwen 的衍生模型數量超過 18 萬,規模位居全球第一。作為基礎設施,阿里雲上長出來的不只有阿里自研的模型,月之暗面也在阿里雲上訓練 Kimi 系列模型,以及許多智駕團隊也用阿里雲訓練模型。與此同時,阿里雲也提供了一整套體系能力,支撐 AI 時代新誕生的產品迅速發展,除了阿里體系的千問 App,還有螞蟻集團的靈光、阿福,以及月之暗面的 Kimi 應用、MiniMax 的海螺等。儘管當前各行各業應用 AI 還處於早期階段,但定位基礎設施的阿里雲,也在探索更新的產品形態,為接下來的 AI 應用爆發做好準備。最典型的例子就是阿里正在開發千問 App 的 Agent 版本。它不只侷限於使用者提問,還能夠呼叫淘寶比價、使用高德導航,甚至阿里所有的服務都有可能成為它的外掛。最終這些在阿里內部業務和行業頭部公司驗證過的能力,都會沉澱在阿里雲中,成為對外提供服務的產品。讓客戶具備長期、可持續地產生和使用智能的能力,而不是把客戶鎖定在某一種計量方式裡。AI 加速推動客戶上雲AI 正在給雲廠商帶來了新的增長動力。無論是 AWS、微軟 Azure、Google Cloud 還是阿里雲,規模都在迅速增長。但提供動力的不只是 GPU 用量或者大模型 API 的呼叫。阿里雲團隊觀察到, 在阿里雲上使用這些服務的客戶群體,他們在計算、儲存、網路以及巨量資料等產品上用量的增長,高於整個大盤的增長。“AI 會加速推動客戶上雲。” 劉偉光說,客戶為了用好 AI,不得不將資料全面上雲。企業想要讓一個 Agent 產生價值,基礎模型只是一個方面,高品質的業務資料同樣重要。微軟 Azure 的增長邏輯類似,出售 OpenAI 的基礎模型的 API 服務只是其中一個方面,更充足的動力來自企業為了在業務中應用更強的模型,把分散在本地與各系統中的內容與資料,遷移到了更方便模型呼叫的雲產品中。為高並行 Web/HTTP 請求設計的傳統雲端運算架構,難以高效支撐這樣的需求。甲骨文重新獲得增長動力,很大一部分因素就來自於部署 RDMA(遠端直接記憶體訪問)高性能網路和自治資料庫,適應了大模型訓練、推理的需求。這直接改變了公共雲端運算服務在中國市場的前景。此前多年,中國雲端運算公司並不像 AWS 等海外雲平台那樣,公共雲客戶遍佈各行各業,囊括美國證券交易所、大型石油公司、銀行業巨頭等,做大規模就能擁有利潤。在中國雲端運算市場,平台依賴的電力、頻寬等基礎設施成本並不受企業自身控制;部分傳統企業出於資料安全、合規或歷史慣性等原因,仍傾向於自建資料中心。“阿里雲的基礎雲架構,為 AI 重做了一遍。” 劉偉光說,AI Infra 並不是一個特定的垂直方向,就是雲端運算本身,不僅需要規模化、安全和穩定,更需要雲上的跨服務流轉能力,比如新型的向量資料庫、高效的巨量資料清洗平台、靈活的開發框架,滿足企業不同層次、不同場景使用  AI  的配套軟體體系。在阿里雲看來, AI 時代雲端運算平台的競爭力在於 “軟硬一體化” 的體系能力:硬體不只是晶片,而是圍繞 GPU 算力建構的整個高性能底層架構;軟體則是對模型的理解、最佳化和調度能力。“阿里雲的目標是拿下 2026 年中國 AI 雲市場增量的 80%。” 劉偉光說,但是下一年增量的 10% 都會大於上一年的全量。所以過去取得了什麼成績並不重要,變化才剛剛開始。 (晚點LatePost)
美眾議院通過法案:未經美國許可,遠端使用GPU即是違法!
美國眾議院通過法案,旨在堵住現行美國出口管制體系中的關鍵漏洞,即外國對手實體通過雲端運算服務,從境外遠端呼叫受控的美國高端技術產品,尤其是AI晶片。2026 年 1 月 12 日,美國眾議院通過了《遠端訪問安全法案(Remote Access Security Act, H.R.2683),這是一項兩黨支援、旨在現代化美國出口管制體系的立法。這部得到兩黨支援的法案以369票對22票的壓倒多數獲得通過。法案對現有的《出口管制改革法案》(The Export Control Reform Act)進行更新,擴大美國出口管控制度的範圍。該法案擬修訂2018 年《出口管制改革法案》,將遠端訪問受控技術納入監管範圍,以應對雲端運算時代出現的技術監管漏洞。傳統美國出口管製法律主要面對的是實體出口和技術轉讓,例如晶片、裝置或技術檔案的跨境物理轉移。但隨著雲端運算、大規模遠端算力服務和全球分佈式資料中心的興起,許多受控技術並不需要實際出口到對手國家,只需通過遠端訪問便可以被外國實體呼叫。這種數位化訪問方式在法律框架中缺乏明確約束,被視為一大監管漏洞。該法案的核心,就是將這一之前未被納入的“遠端訪問”(remote access)行為正式納入美國出口管制體系之內。根據法案內容,“遠端訪問”被定義為:外國主體通過網路連線(如網際網路或雲端運算服務)在物理位置之外訪問受美國出口管制的技術或裝置。法案將這一行為納入《出口管制改革法案》的適用範圍,使得商務部及其下屬的工業與安全域(BIS)有權對遠端訪問行為進行許可、限制甚至處罰。被管控的遠端存取權包括:(1)訓練人工智慧模型,該模型除其他功能外,可以大幅降低專家或非專家設計或使用大規模殺傷性武器的門檻,或通過自動化方式發現和利用漏洞並實施網路攻擊;(2)訪問可能幫助網路攻擊或構成其他國家安全風險的量子電腦;(3)獲取駭客工具。這一修訂不僅明確了概念,還實質上將監管權從傳統出口擴展到數字服務層面,使包括雲端AI 晶片呼叫、遠端算力訓練等活動必須遵循出口管制規則。目前該法案已在眾議院獲得通過,但仍需送交參議院審議,並最終由總統簽署成為法律。立法生效後,商務部將根據新規定對遠端訪問進行監管,並根據風險情況制定具體許可細則。一旦正式成為法律,該法案將對多個行業主體產生深遠影響。包括大型雲服務商、半導體提供商以及AI 研發機構都需重新評估其全球服務策略,尤其是在遠端算力調度、跨境雲資源呼叫等方面的合規義務。同時,這也意味著美國出口管制正從“物理實體約束”向“數字行為監管”轉型,涉及的資料、伺服器、服務介面等都可能成為監管對象。舉例:1)外國公司通過雲算力使用美國受管制技術如果一家外國公司,通過雲服務在海外或國內遠端使用美國的高端AI 晶片、先進算力或其他受出口管制的技術,比如租用雲 GPU 來訓練大模型,而這些晶片或算力本身受美國出口管制,又沒有獲得美國政府的許可,那麼即便晶片沒有被“運出美國”,這種遠端使用行為本身也可能違法。新法案正是為堵住這種“晶片不出境、能力被用走”的情況而設立的。2)美國雲廠商向外國客戶提供受管制算力如果美國的雲服務商明知客戶是外國公司或來自敏感國家,仍然向其提供可遠端使用的高端AI 晶片、算力叢集或受管制技術介面,並且沒有履行出口管制許可義務,那麼不僅使用算力的外國客戶可能違法,提供存取權的雲廠商本身也可能違法。在新規則下,“提供遠端訪問能力”本身就可能被視為受管制行為。3)晶片在美國,但外國人遠端操作即使晶片、伺服器、裝置全部放在美國本土的資料中心,只要是外國個人或外國公司在美國境外,通過網路遠端登錄、調度、運行這些受管制技術,同樣可能構成違法。是否違法不再取決於“裝置在那裡”,而取決於“誰在遠端用、用的是什麼”。4)通過海外子公司或殼公司繞監管如果一家外國公司通過海外子公司、關聯公司或第三國殼公司,名義上由“非敏感地區實體”租用雲算力,但實質上仍然由原來的外國母公司或人員使用美國受管制技術,這種做法在新法案下同樣可能被認定為違法規避行為。換殼、換地區,並不能天然免責。總結只要是外國人或外國公司,通過雲、網路、遠端方式,使用了美國受出口管制的技術或算力,而沒有獲得許可,無論晶片在那、伺服器在那,都可能落入違法範圍。這正是《遠端訪問安全法案》要明確和收緊的核心邊界。 (半導體產業縱橫)
梁文鋒署名!DeepSeek再發炸裂論文:提出“條件記憶”新範式,徹底打破GPU推理視訊記憶體牆
當業界紛紛湧入MoE(Mixture-of-Experts)架構以實現高效擴容時,一個根本性的低效問題卻始終存在:強大的Transformer模型,本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如,為了識別“戴安娜王妃”這樣的實體,模型需要消耗多層注意力與前饋網路資源,逐步建構其內部表徵。這無異於用高射炮打蚊子,浪費了寶貴的計算深度來自DeepSeek 的最新論文,為解決這一難題提出了一個全新的稀疏性維度:條件記憶(Conditional Memory)他們推出名為Engram的新模組,它以O(1)的恆定時間複雜度實現了可擴展的知識尋找,作為對MoE“條件計算”的有力補充。通過系統性研究,團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律,他們建構了一個270億參數的Engram模型,在總參數量與計算量(FLOPs)完全相同的情況下,其性能全面超越了純MoE基線。令人矚目的是,這種提升不僅體現在知識密集型任務上(MMLU +3.4),更在通用推理(BBH +5.0)、程式碼(HumanEval +3.0)和數學(MATH +2.4)等領域取得了更大的收益。機理分析表明,Engram通過接管早期層的靜態模式重構任務,有效“加深”了網路,為複雜推理釋放了更多計算資源。同時,它將局部依賴關係的處理委託給尋找操作,從而解放了注意力機制,使其能更專注於全域上下文,極大地提升了模型的長文字處理能力(如Multi-Query NIAH任務得分從84.2提升至97.0)。更重要的是,Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料,幾乎不產生額外開銷,從而打破了GPU視訊記憶體的瓶頸。論文地址:https://github.com/deepseek-ai/Engram語言模型的雙重任務:計算與檢索語言建模包含兩種性質截然不同的子任務:一是需要深度動態計算的組合推理,二是對本地、靜態、高度模式化的文字片段(如命名實體、慣用語)的知識檢索。經典的N-gram模型證明了,後一種任務通過廉價的尋找操作就能高效完成。然而,當前的LLM架構缺少這種原生尋找功能,導致它們必須通過計算來模擬檢索,造成了資源浪費。為了讓模型架構與語言訊號的這種二元性對齊,DeepSeek提出了“條件記憶”這一新的稀疏軸,與MoE的“條件計算”形成互補。• 條件計算 (MoE):稀疏啟動參數,處理動態邏輯。• 條件記憶 (Engram):稀疏尋找操作,檢索靜態知識。研究團隊提出的Engram模組,正是這一理念的具體實現。它以經典的N-gram結構為基礎,並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。Engram架構:兩階段實現高效尋找與融合Engram作為一個條件記憶模組,旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段:檢索與融合1. 稀疏檢索:通過雜湊N-grams定位記憶首先,模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟:分詞器壓縮 (Tokenizer Compression):標準的分詞器常為語義等價的詞分配不同ID(如Apple vs. apple)。為提升語義密度,Engram首先通過一個預計算的對應函數,將原始Token ID壓縮為規範化的ID。多頭雜湊 (Multi-Head Hashing):直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法,為每個N-gram階數(如2-gram, 3-gram)配備K個獨立的雜湊頭,將上下文雜湊到不同嵌入表中的索引,以降低衝突。最終,所有檢索到的嵌入向量被拼接成一個記憶向量et。2. 上下文感知門控與融合檢索到的記憶向量et是靜態的、上下文無關的先驗知識,可能存在雜湊衝突或歧義。為瞭解決這個問題,Engram引入了受注意力機制啟發的上下文感知門控它將當前層的隱藏狀態ht(已聚合了全域資訊)作為Query,將記憶向量et投影為Key和Value。通過計算Query與Key的相似度,生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度:如果匹配度低,門控值趨近於0,有效抑制噪聲。最後,通過門控的Value向量會經過一個輕量級的深度因果摺積,以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中核心發現:稀疏性分配的U形定律為了量化MoE(計算)與Engram(記憶)之間的協同作用,研究人員提出了稀疏性分配問題:在固定的總參數和計算預算下,應如何在這兩者之間分配“稀疏容量”?他們定義了一個分配比例ρ,其中ρ=1代表純MoE模型,ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。實驗在兩個不同的計算規模(2e20和6e20 FLOPs)下進行,結果揭示了一條清晰的U形縮放定律:MoE主導 (ρ → 100%):模型缺乏專門的記憶模組,被迫低效地通過計算重構靜態模式Engram主導 (ρ → 0%):模型喪失了條件計算能力,無法處理需要動態、上下文相關推理的任務最佳平衡點:將大約20%-25%的稀疏參數預算分配給Engram時,模型性能達到最優。這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外,在“無限記憶體”設定下,單獨增加Engram的記憶槽數量,模型性能也呈現出可預測的對數線性提升,證明了Engram是一個有效的、可獨立擴展的性能提升手段。大規模預訓練:性能全面超越,推理提升更顯著基於上述定律,研究團隊訓練了一系列模型,並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練,並保持啟動參數量(3.8B)一致。Engram-27B:總參數26.7B,與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個,並將節約的參數(5.7B)用於建構Engram記憶模組。Engram-40B:在Engram-27B基礎上,進一步將Engram記憶擴展至18.5B參數,總參數達到39.5B。實驗結果(Table 1)表明:1.稀疏模型優於密集模型:所有稀疏變體(MoE與Engram)均顯著優於同等計算量的Dense-4B模型2.Engram全面超越MoE:在參數和計算量完全匹配的情況下,Engram-27B在所有評估維度上都優於MoE-27B3.推理與程式碼數學領域增益尤為突出:雖然Engram在知識任務(如MMLU +3.4, CMMLU +4.0)上表現出色,但其在通用推理(BBH +5.0, ARC-Challenge +3.7)和程式碼數學(HumanEval +3.0, MATH +2.4)上的優勢更為顯著這證明了引入專用的知識尋找原語,能夠極大地提升模型的表徵效率,其益處遠不止於知識檢索本身。Engram如何工作?機理分析揭示“有效深度”增加為了探究Engram的內部工作機制,研究團隊使用了LogitLens和CKA(中心核對齊)兩種可解釋性工具。加速預測收斂:LogitLens分析顯示,與MoE基線相比,Engram模型的淺層網路就能生成更接近最終預測結果的表徵(KL散度更低)。這表明,通過直接尋找知識,Engram減少了模型逐步建構特徵所需的計算步驟提升有效深度:CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示,Engram模型的淺層(如第5層)在功能上等價於MoE模型的深層(如第12層)結論很明確:Engram通過顯式尋找繞過了早期的特徵組合階段,在功能上等價於增加了模型的有效深度系統效率:解耦計算與儲存,打破GPU視訊記憶體牆Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同,Engram的尋找索引完全由輸入Token序列決定,具有嚴格的確定性這一特性使得在推理時可以實現高效的 預取-重疊(prefetch-and-overlap) 策略:系統可以在GPU計算前序Transformer塊的同時,非同步地從大容量、低成本的主機記憶體(DRAM)甚至NVMe SSD中預取後續Engram層所需的嵌入。實驗在一個1000億參數的Engram層上進行了驗證。結果顯示,將整個嵌入表解除安裝到主機記憶體,所帶來的吞吐量懲罰峰值僅為2.8%,幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制,以極小的開銷實現參數規模的激進擴展。這意味著可以用較少/較低配的GPU(視訊記憶體有限)來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本寫在最後DeepSeek AI的Engram工作,為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離,Engram不僅在知識任務上取得優勢,更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。這項研究的核心貢獻包括:1. 提出Engram模組:一個可擴展、系統高效的條件記憶實現。2. 發現稀疏分配的U形定律:為平衡計算與記憶提供了理論指導。3. 驗證了架構優勢:在同等參數和計算成本下,混合模型全面超越純MoE模型。4. 揭示了工作機理:Engram通過提升模型的“有效深度”來最佳化表徵效率。研究人員認為,條件記憶應成為下一代稀疏大模型不可或缺的建模原語,為建構更強大、更高效的智能系統鋪平了道路。我彷彿已經看到了v4的影子 (AI寒武紀)
【CES 2026】一家初創GPU公司,吊打輝達
在 2026 年 CES 展會上,總部位於加州的 GPU 初創公司 Bolt Graphics 展示了其 Zeus(宙斯)GPU 平台,旨在針對遊戲、CAD 工作負載和 HPC(高性能計算)模擬。Zeus 最初於一年前發佈,圍繞開源 RISC-V 指令集架構(ISA)命令處理器建構,並承諾其路徑追蹤性能最高可達輝達(Nvidia)RTX 5090 的 10 倍。在 CES 上展出的原型顯示卡支援高達 384GB 的 LPDDR5X 和 DDR5 組合記憶體,其中包括高達 128GB 的板載銲接視訊記憶體(VRAM)。它還配有四個 DDR5 SO-DIMM 插槽和一個 800Gbps 的記憶體介面。功耗峰值為 225W,通過單個 8-pin PCIe 介面供電。Bolt Zeus 擁有兩個支援 CXL 3.0 的 PCI-Express 5.0 x16 插槽。其他連接選項包括一個 DisplayPort 2.1a 和一個 HDMI 2.1b 輸出介面。此外,它還內建了 400GbE 和 800GbE QSFP-DD 連接埠,為大規模渲染和模擬工作負載提供先進的網路能力。板載的 BMC/IPMI 控製器使資料中心能夠將多台裝置部署在機架式渲染伺服器或工作站中。Bolt 還確認 Zeus 包含紋理對應單元(TMU)和光柵操作單元(ROP),儘管公司尚未透露具體規格。根據 Bolt Graphics 公佈的 FP64 數學基準測試:入門級 Zeus 1C:配備單個處理單元,其路徑追蹤性能可達 RTX 5090 的 2.5 倍。該卡配備 32GB LPDDR5X 記憶體(頻寬 273GB/s),並可通過兩個 SO-DIMM 模組擴展高達 128GB 的 DDR5 記憶體(頻寬 80GB/s)。雙晶片 Zeus 2C:配備高達 128GB 的 LPDDR5X 記憶體,聲稱其路徑追蹤性能是輝達旗艦 GPU 的 5 倍。四晶片 Zeus 4C:定位於伺服器平台而非獨立顯示卡,其性能可達 10 倍。4C 配置包括四個 I/O 小晶片(chiplets)、高達 256GB 的 LPDDR5X 以及多達 2TB 的 DDR5 記憶體。Bolt Graphics 聲稱以更低功耗實現比輝達 RTX 5090 高出 13 倍的飛躍——但伴隨著巨大的限制條件。Bolt 的 FP64 電磁(EM)模擬基準測試表明,在特定受控條件下,Zeus 4C 的速度比輝達 B200 Blackwell GPU 快 300 倍。目前,Bolt 尚未發佈任何光柵化或傳統渲染的基準測試,也未公佈精準的發售日期,儘管該公司此前曾表示 Zeus 預計將在 2026 年內上市。 (半導體行業觀察)
高盛:摩爾線程和沐曦股份調研紀要,本土 GPU AI 東風已至!
摩爾線程:調研紀要-本土 GPU 供應商借 AI 東風;面向大規模計算叢集的新一代 GPU 平台近期,我們在北京拜訪了摩爾線程管理層。摩爾線程是一家擁有自研架構的本土 GPU 供應商,產品涵蓋人工智慧訓練 / 推理用 GPU 及遊戲用 GPU。總體而言,管理層對公司每年推出的新一代 GPU 平台在性能與算力上的提升持積極態度,這一樂觀預期主要得益於客戶對 AI 模型訓練 / 推理及圖形渲染需求的持續增長。公司表示,其新發佈的 “華罡”(HuaGang)架構可支援超 10 萬片 GPU 組成的大規模計算叢集,預計將推動公司業務加速規模化擴張。對中國半導體行業的啟示:管理層對本土 GPU 性能提升及客戶需求增長的積極表態,與我們對中國半導體行業先進製程擴張的正面觀點相一致。我們看好先進製程與生成式 AI 的發展,認為二者將從智慧財產權、設計、製造、特種封裝(SPE)及先進封裝等多個環節助力中國半導體行業成長,同時本土客戶供應鏈多元化趨勢也將提供支撐。推薦買入:中芯國際(SMIC)、華虹半導體(Hua Hong)、芯原股份(Verisilicon)、寒武紀(Cambricon)、中微公司(AMEC)、北方華創(NAURA)。核心要點新一代 GPU 架構發佈:2025 年 12 月開發者大會期間,公司推出新一代 GPU 架構 “華罡”(HuaGang),其核心優勢包括計算密度提升 50%、AI 性能提升 64 倍、能效提升 10 倍,可支援超 10 萬片 GPU 卡組成的大規模計算叢集。基於該新架構,公司將推出面向 AI 訓練 / 推理的 “華山” 晶片組,以及面向遊戲應用的 “廬山” 晶片組。隨著 AI 模型需求增長及應用場景拓展,管理層對新產品的市場前景持樂觀態度,認為其增強的算力與網路頻寬能夠充分滿足客戶需求。強勁訂單勢頭支撐未來增長:隨著新產品推出及出貨量提升,管理層對來自雲服務提供商(CSP)及企業客戶的強勁訂單推動業務增長充滿信心。管理層指出,超 1 萬片 GPU 卡組成的大規模計算叢集相關訂單價值更高,將支撐公司規模擴張,且公司正與客戶密切合作推進產品適配與迭代。2025 年 4 月,摩爾線程曾表示其 GPU 已能運行完整版 Deepseek-V3 模型,這一成果彰顯了本土晶片滿足客戶需求的能力提升。MUSA 生態助力使用者落地:公司聚焦通用 GPU 解決方案,管理層介紹,其 MUSA 軟體開發工具包(SDK)與 MUSA Deploy 部署工具可幫助使用者以低切換成本在短時間內遷移至新平台。此外,MUSA 架構支援 PyTorch、FlagScale、飛槳(PaddlePaddle)等多種 AI 開發框架,適配金融、生物科技等多個領域的多元化終端應用。針對新使用者,公司還提供詳細指導以助力其快速上手。沐曦股份:創始人調研紀要-大規模叢集搭配升級 AI 晶片;中國 AI 需求持續升溫1 月 8 日,我們在上海舉辦的中國半導體行業調研活動中,接待了沐曦股份創始人及管理團隊。核心討論圍繞三大議題展開:(1)大規模 AI 計算叢集;(2)AI 市場需求;(3)新產品進展。總體而言,管理層對中國多終端市場生成式 AI 需求的增長持積極態度,預計 2026 年本土 AI 晶片將實現強勁增長。公司近期推出新一代 AI 平台 C600,對通過產品迭代(算力、記憶體等維度)支撐大規模計算叢集的發展前景保持樂觀。對中國 AI 晶片行業的啟示:管理層對 AI 訓練與推理算力需求增長的積極判斷,與我們的觀點一致 —— 我們認為,在生成式 AI 浪潮推動下,中國半導體行業先進製程將持續擴張。本土 AI 晶片供應商將受益於需求增長與國產化趨勢。。核心要點叢集規模擴張與產品迭代:管理層持續聚焦產品迭代與叢集規模擴大。叢集方面,公司目前多數叢集搭載超 1000 片 AI 晶片,且正逐步向 1 萬片晶片規模升級。下一代 AI 晶片計畫於 2026 年一季度量產,相較現有產品,其算力與記憶體均將提升;公司將保持產品研發節奏,預計 2027 年推出算力進一步增強的新一代產品並實現量產。市場前景積極樂觀:管理層對中國 AI 市場需求保持積極預期,預計 2026 年行業增速將達三位數,公司將通過擴大市場份額,實現高於行業平均水平的增長。為避免單一客戶依賴,公司計畫覆蓋教育、金融、醫療、能源、電信、網際網路企業等多個終端市場。針對中國雲服務市場,管理層指出,雲服務提供商(CSP)的驗證流程較長(最長可達 12 個月),原因在於需開展多輪測試,且每家廠商的 AI 基礎設施不同,需定製化 AI 伺服器。面向 AI 推理 / 訓練的新一代 C600 平台:公司近期推出 C600 平台,該平台採用自研 IP 架構,支援 SuperPod 叢集部署。根據客戶需求,公司可提供純推理版本,或推理與訓練一體化版本。預計 2026 年 C600 出貨量將逐步提升,管理層強調,相較於上一代產品,C600 配備 144GB 頻寬記憶體,且通過 MetaXLink 技術支援最多 256 片晶片組成 SuperPod 叢集。展望未來,公司將持續推進新一代產品(如 C700)研發,並融入最新設計理念。 (大行投研)
總市值超6000億,四家中國GPU上市企業誰是真龍頭?
今天(1月8日)天數智芯登陸港交所,至此,摩爾線程、沐曦股份、壁仞科技和天數智芯這四家上市版本的“國產GPU四小龍”已齊聚資本市場。在國產巨大算力需求驅動下,四家被給予厚望的國產GPU企業上市後最新市值表現如何,主營業務有那些差異,商業化有何進展呢?本文將一一盤點。天數智芯(上海天數智芯半導體股份有限公司)上市時間:2026 年 1 月 8 日上市地點:香港交易所主機板最新市值:398億港元,約合357億元人民幣(截至 2026年1月8日收盤,下同)企業簡介:中國領先的通用 GPU(GPGPU)晶片及 AI 算力解決方案提供商,也是首家實現推理和訓練通用 GPU 晶片量產。公司以 “成為智能社會的賦能者” 為願景,致力於開發自主可控、國際領先的通用 GPU 產品,打造 “天垓” 訓練系列與 “智鎧” 推理系列兩大核心產品線,建構起覆蓋雲端訓練、邊緣推理到大模型部署的全場景國產算力體系,全面相容國內外主流 AI 生態以及各類深度學習框架。商業化現狀與近三年營收:產品已在超過 290 家客戶中完成超 900 次實際部署,在網際網路、智能製造等垂直領域相容性測試通過率高,截至 2025 年 6 月 30 日,已向超 290 名客戶交付超 5.2 萬片通用 GPU。2022 年營收 1.89 億元,2023 年營收 3.08 億元,2024 年營收 5.40 億元,2025 年上半年營收 3.24 億元,營收復合年增長率達 68.8%。企業官網:https://www.iluvatar.com/壁仞科技(上海壁仞科技股份有限公司)上市時間:2026 年 1 月 2 日上市地點:香港交易所主機板最新市值:805億港元(約合人民幣721億元)企業簡介:成立於 2019 年,是國內通用智能計算解決方案提供商,堅持原創核心架構,是國產 GPU 企業中最早實現 Chiplet(芯粒)封裝技術商用落地的公司之一。公司致力於研發通用圖形處理器(GPGPU)晶片及智能計算解決方案,已推出 BR106、BR166、BR110 等多款晶片,覆蓋雲端訓練、雲端推理、邊緣推理場景,建構軟硬協同創新的技術體系,為數字經濟發展提供核心算力支援。商業化現狀與近三年營收:已開發基於壁礪 106 和壁礪 166 晶片的全面 GPGPU 硬體系統組合,如 PCIe 板卡、OAM、伺服器及多伺服器叢集,BR106 和 BR110 晶片合計銷量已超過 1.2 萬顆,截至 2025 年 6 月,公司已手握 5 份框架銷售協議及 24 份銷售合同,總價值約 12.41 億元。2022年至2024年,壁仞科技年收入分別為49.9萬元、6203萬元、3.37億元,2025年上半年該公司收入5890.3萬元。企業官網:https://www.birentech.com/沐曦股份(沐曦積體電路(上海)股份有限公司)上市時間:2025 年 12 月 17 日上市地點:上海證券交易所最新市值:2570億元企業簡介:2020 年 9 月在上海成立,是國內高性能通用 GPU 領域的領軍企業之一,致力於自主研發全端高性能 GPU 晶片及計算平台,主營業務是研發、設計和銷售應用於人工智慧訓練和推理、通用計算與圖形渲染領域的全端 GPU 產品,並圍繞 GPU 晶片提供配套的軟體棧與計算平台。公司基於自主研發的 GPU IP 和統一的 GPU 計算架構,已推出用於智算推理的曦思 N 系列 GPU 和用於訓推一體及通用計算的曦雲 C 系列 GPU,是國內少數實現千卡叢集大規模商業化應用的 GPU 供應商(公司官網、招股書)上海證券交易所。商業化現狀與近三年營收:產品累計銷量超過 25,000 顆,已部署於 10 余個智算叢集,曦雲 C500 系列佔 2024 年營收 97% 以上,正在研發和推動萬卡叢集的落地,目前已成功支援 128B Mo 大模型等完成全量預訓練。沐曦股份2022年、2023年和2024年的營收分別約為42.64萬元、5302.12萬元和7.43億元。企業官網:https://www.metax-tech.com/index.html摩爾線程(摩爾線程智能科技(北京)股份有限公司)上市時間:2025 年 12 月 5 日上市地點:上海證券交易所科創板最新市值:3168億元企業簡介:成立於 2020 年 6 月,以全功能 GPU 為核心,致力於向全球提供計算加速的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的 AI 計算支援,目標是成為具備國際競爭力的 GPU 領軍企業,為融合 AI 和數字孿生的數智世界打造先進的計算加速平台。公司實現了一系列技術突破和創新佈局,MTT S80 是國內首款支援 Windows 作業系統以及 DirectX 11/12 圖形計算庫的消費級顯示卡,相容近千款遊戲和應用。商業化現狀與近三年營收:是國內少有的在京東等電商平檯面向消費者市場展開銷售的國產 GPU 企業,產品覆蓋 AI 智算、高性能計算、圖形渲染、計算虛擬化等多個領域,實現了雲、邊、端全站 AI 產品線的佈局,2024 年圖形渲染產品線佔營收 25%,通用 GPU 佔 75%。摩爾線程2022 年營收 4608.83 萬元,2023 年營收 1.24 億元,2024 年營收 4.38 億元,2025 年上半年營收 7.02 億元,已超過過去三年的總和。企業官網:https://www.mthreads.com/ (芯師爺)
儲存市場需求,嚇人
總潛在市場規模是對未來銷售量的預測——更準確地說,是預測能夠生產和銷售的產品數量。它並非對總需求的預測,而總需求可能更大,正如HBM記憶體及其主要驅動力——用於人工智慧推理和訓練的GPU和XPU計算——的積壓訂單所表明的那樣。因此,當市場規模(TAM)擴大時,意味著競爭對手之間的收入分配也會隨之擴大。這就是為什麼本周美光科技HBM堆疊式記憶體市場規模的爆炸式增長讓所有人如此興奮的原因。我們這些身處主要元件消費者及其供應商之外的人,可能並不清楚人工智慧計算和記憶體的總體需求情況,但我們對未來的供應格局有了更清晰的瞭解。“隨著全球領先的科技公司向通用人工智慧(AI)邁進並重塑全球經濟,我們的客戶正在投入巨資建設規模龐大的資料中心,這一建設周期將持續多年,”美光科技首席執行長桑傑·梅赫羅特拉在與華爾街分析師的電話會議上表示。此次電話會議旨在回顧公司截至11月結束的2026財年第一季度財務業績。“AI資料中心容量的增長正在顯著推動對高性能、高容量記憶體和儲存的需求增長。伺服器需求顯著增強,我們現在預計2025年伺服器銷量增長率將達到接近10%的水平,高於上次財報電話會議中10%的預期。我們預計伺服器需求的強勁勢頭將在2026年持續。伺服器記憶體和儲存容量以及性能要求也在逐代提升。”當然,這波熱潮不僅僅侷限於HBM,還包括其他DRAM、LPDRAM以及同樣應用於人工智慧系統的快閃記憶體。梅赫羅特拉自豪地表示,美光的資料中心NAND儲存業務在2026財年第一季度首次突破10億美元大關,該公司G9系列快閃記憶體是首款採用PCI-Express 6.0標準的快閃記憶體盤,而容量分別為122TB和245TB的QLC版本正在多家超大規模資料中心和雲服務提供商處進行認證。Mehrotra表示,總體而言,預計2025年DRAM的行業位元出貨量將增長20%左右,NAND的出貨量將增長10%以上——遠高於美光一個季度前的預期。而到2026年,DRAM和NAND的出貨量預計都將比2025年增長約20%。因此,任何超出這一增長範圍的收入增長都源於需求和其他通膨因素導致的價格上漲。例如,據美光首席財務官Mark Murphy稱,在2026財年第一季度,DRAM的每位元成本上漲了20%,而出貨量僅略有增長;NAND的出貨量增長了“個位數百分比中高段”,但每位元成本上漲了“15%左右”。為了更好地滿足1γ DRAM和HBM記憶體的供應需求,美光科技將2026財年的資本支出增加20億美元,達到200億美元,並加快裝置訂購和安裝速度,以更快地蝕刻更多晶片。位於愛達荷州的首座晶圓廠也將於2027年中期投產,而非原計畫的明年下半年;第二座晶圓廠將於明年開工建設,並於2028年底投入營運。位於紐約的首座晶圓廠將於2026年破土動工,並於2030年開始供應晶片。位於新加坡的HBM封裝廠也將於2027年投產,為HBM的供應做出貢獻。如果美光想要在剛剛飆升的HBM市場中分得一杯羹,他們最好加快產能提升速度。以下是去年12月的預測,以及本周剛剛公佈的預測:這些針對HBM的潛在市場規模(TAM)資料是基於自然年計算的——如果所有公司也都以自然年為單位編制財務報表,那就好多了。除了習慣和故弄玄虛之外,使用財務資料沒有任何實際意義。在2024年12月的預測中,美光科技預計HBM市場在2025年的收入將達到350億美元,並在2030年增長到約1000億美元,復合年增長率(CAGR)為23.2%。然而,美光科技現在將市場規模達到1000億美元的預期時間從2030年下調至2028年,這意味著與今年預計的350億美元HBM銷售額相比,復合年增長率將超過40%。圖中以粗體紅色斜體顯示的數字是我們為填補資料空白而做出的估算,這些估算值與實際復合年增長率 (CAGR) 基本一致,因此在所示期限內實現了預期的復合年增長率。我們對 2029 年和 2030 年的 HBM 銷量進行了估算(美光科技的預測中並未包含此項),預計其增速將趨於穩定,與最初的預期持平。當然,銷量也可能繼續以更高的速度增長——誰也無法預料。有趣的是,如果將2025年至2030年這六年間(含2025年和2030年)的記憶體總銷量加起來,那麼根據2024年12月的預測,全球HBM的銷售額將達到3780億美元。假設美光科技能獲得約25%的HBM收入份額(與目前DRAM的市場份額大致相同),那麼這六年間美光科技將從HBM中獲得950億美元的收入。假設HBM記憶體成本約佔GPU或XPU計算引擎成本的40%,那麼這六年間GPU和XPU的收入將達到約9500億美元。如果假設加速器成本約佔節點級或機架級伺服器成本的65%,那麼系統收入將達到約1.5兆美元。根據新的預測,假設HBM收入增長率在2029年和2030年放緩,但仍保持在35%和25%的較高水平,那麼未來六年HBM的收入將達到5550億美元,比之前的預測高出46.8%。預測結果在最後階段的差距非常大。HBM的銷量大幅增長,這意味著需要生產更多的HBM產品。如果美光科技保持25%左右的市場份額,那麼未來六年其HBM記憶體收入約為1390億美元。這5550億美元的HBM收入將帶動GPU和XPU計算引擎的生產,進而帶動AI系統銷售額達到2.1兆美元左右。這些數字遠小於輝達幾周前悄悄發佈的資料中心總支出預測。誠然,這些只是對人工智慧系統銷售額的一些相當粗略的估計,但它與人們談論的其他一些重大數字大致相當。接下來,讓我們深入分析一下美光科技 2026 年第一季度的業績資料。本季度,美光科技的銷售額為136.4億美元,同比增長56.7%。營業收入為61.4億美元,同比增長2.8倍;淨收入為52.4億美元,同樣同比增長2.8倍。這看起來確實是一個記憶體和快閃記憶體產品極具價格優勢的市場環境。美光科技在2026財年第一季度資本支出為54億美元,略高於其預計2026財年200億美元總支出的比例。這比去年同期增長了1.7倍。美光科技在該季度末擁有103.2億美元的現金儲備,這為其擴建晶圓廠和工廠提供了一定的迴旋餘地。在 11 月季度,美光科技售出了價值 108.1 億美元的各種 DRAM 記憶體,同比增長 68.9%。2026 財年第一季度,NAND 快閃記憶體晶片、驅動器和卡的收入為 27.4 億美元,增長了 22.4%;而 NOR 快閃記憶體和其他產品僅帶來了 8800 萬美元的銷售額。以下是美光科技幾個季度前宣佈的新財務報告分組的收入構成:從圖中可以看出,與 2025 年第四季度相比,2026 年第一季度雲記憶體集團和核心資料中心集團的利潤率均環比大幅增長,這表明 DRAM、HBM 和快閃記憶體市場的供應緊張,從而推高了價格。綜合來看,美光的資料中心業務創造了 76.6 億美元的收入,增長了 55.1%,營業收入為 37.9 億美元,幾乎是去年同期的兩倍。資料中心記憶體行業的繁榮與蕭條周期令人擔憂,但就目前來看,未來一兩年內無疑將迎來繁榮時期,美光科技也將因此創下新的輝煌。美光科技重返HBM市場的時機恰到好處,憑藉其獨特的技術優勢以及總部設在美國的戰略地位,成功佔據了市場主導地位。我們的模型顯示,HBM堆疊式記憶體、高容量伺服器DRAM以及LPDDR5低功耗伺服器記憶體的總銷售額達到56.6億美元,略高於DRAM記憶體總銷售額的一半。與去年同期相比,這一數字增長了5倍多,主要歸功於輝達在其AI計算引擎中使用了HBM和LPDDR5記憶體。但許多其他公司也在向美光提供資金,輝達在本季度僅貢獻了 17% 的收入,總額達 23.2 億美元,是輝達去年同期在美光記憶體商店支出的兩倍。我們根據美光過去幾個季度發佈的少量聲明做出的最佳推測——而且這確實是基於資訊來源的推測——是高容量伺服器 DIMM 和 LPDDR5 記憶體貢獻了約 14 億美元的營收,同比增長 3.7 倍;而 HBM 記憶體貢獻了約 42.7 億美元的營收,同比增長 5.7 倍。這增長速度令人驚嘆。但話說回來,我們生活在一個瘋狂的時代——而且看起來未來還會更加瘋狂。 (EDA365電子論壇)