#GPU很
美國AI獨角獸CEO:全面封殺對華AI晶片出口!
美國AI獨角獸Anthropic首席執行長Dario Amodei 1月20日在接受彭博電視專訪時,公開呼籲華盛頓“徹底收緊”對華AI晶片出口,稱向中國出售先進GPU“等於把槍口對準自己”,任何放鬆管制都是“戰略瘋狂”。此番言論正值美國政界就H200對華年度配額展開激辯,為國會新一輪制裁提案再添火藥。Amodei在訪談中明確表示,先進AI晶片應被視為“戰略武器”,“每一顆H200都是潛在的導彈制導大腦”。他認為,中國一旦獲得足夠算力,可在數月內復現並超越美國大模型水平,“我們是在用CUDA生態綁住自己的手腳,然後把鑰匙交給對手”。Anthropic由OpenAI前核心成員創立,其Claude系列模型被視為GPT最強競品。公司2025年B輪融資40億美元,背後金主包括Google和Amazon。Amodei此次放話,被認為是代表美國AI獨角獸陣營對“矽谷-華盛頓”遊說戰的最新表態。他提出三點政策訴求:立即凍結已發放的50萬顆H200年度配額;將“可重構AI加速卡”全部納入《國際武器貿易條例》(ITAR)清單;對任何低於70 TFLOPS但可通過堆疊實現超算的晶片實行“零出口”。眾議院中國特別委員會已計畫2月召開“AI晶片與國家安全”聽證會,Amodei被列為首輪證人。委員會主席在新聞稿中引用其言論,稱“每一顆流入中國的GPU都可能用於高超音速武器模擬”,並透露正在起草《AI硬體零出口法案》,擬對所有非盟友國家實行“先證明非軍用,再談出口”原則。受言論刺激,H200中國現貨價一夜跳漲8%至4.5萬美元;香港倉庫提貨價突破5萬美元。國產GPU廠商連夜推促銷:寒武紀MLU 300宣佈現貨價1.1萬美元、90天帳期;摩爾線程推出“關稅+禁令雙保險”S5000,租金再降15%。管道反饋,14日單日國產卡諮詢量增長4倍。輝達政府事務部迅速回應,稱“過度管制將損害美國技術領導力”,並警告若完全封殺對華銷售,公司年收入可能減少180億美元,相當於年度研發預算的70%。矽谷遊說團體TechNet也發佈報告,指出“零出口”將把中國推向自研快車道,“6個月內國產替代率將從30%跳到60%”。Anthropic的強硬立場反映出美國AI獨角獸對“算力不對稱”的焦慮:當中國能在6個月內復現SOTA模型,任何放鬆晶片出口都可能被快速抹平差距。對於中國而言,外部壓力愈大,國產GPU、HBM與EDA的替代窗口愈寬。2026年,圍繞70 TFLOPS紅線、ITAR清單與“零出口”的立法博弈,將決定全球AI硬體是走向全面脫鉤還是維持有限合作。 (晶片行業)
昨晚請教了北美專家,聊聊周末刷屏的儲存
上周五儲存再次爆發,主要還是大摩早晨發的兩篇報告(我們周五早晨已發星球),剛好晚上我們請教了北美的儲存專家,側面驗證新邏輯。另外我們再交流幾個話題:3D DRAM、輝達在CES上發佈的新一代 GPU 架構對儲存的影響、以及未來儲存價格的判斷。1/CES2026輝達架構影響從我們以前的儲存框架來講,只是朦朧地知道,在接下來面對更多長文字的時候,可能需要更多的儲存支援。當時行業對轉折原因的分析較為分散,對儲存的判斷不夠清晰。但從25年8月份第三周開始,行情就出現了一個明顯的轉折。尤其是CES之後,輝達在 CES 2026 發佈代號為“Vera”的新一代 GPU 架構,核心升級在於引入專為大模型推理最佳化的計算單元,並配套推出“Context Memory Platform”(CMP,即推理上下文記憶體平台);如果把邏輯推導到我們底層的計算和應用產品線上去講,從第一代、第二代開始就出現了這個問題:即我們所有的大模型都是 Transformer 架構。在這種架構下,都是採用 QKV 的計算方式。當文字越來越長時,KV 快取的容量就會越來越大。在模型早期,KV 快取是直接放在 HBM裡的,因為它必須有足夠的頻寬才能和 GPU 通訊。所以回看兩年前,HBM 突然被叫到了異常的高度,不論多少錢都要去做。背後的邏輯是:輸入的文字越來越長,對 HBM 的需求一定是長期穩定的。因此,幾家原廠才會不遺餘力地將 HBM 作為最高優先順序進行研發投入。雖然良率很低,但每年都在迭代,因為 KV 快取最初就是存在 HBM 裡的。但兩年前大家就發現這是一個問題,因為 HBM 良率低且極其昂貴。那麼有沒有其他方式?其實兩三年前整個行業就預見到了這個問題,於是很多儲存引擎或資料庫軟體應運而生,也就是想辦法把資料從HBM中拿出來。但從 HBM 裡面拿出來,拿出來往那去放?輝達其實在 DPU系列上一直有佈局。在搭載 B200、B300的時候就配有DPU。到了現在的 BlueField-4(BF4),已經是第四代了。BlueField 的核心邏輯就是通過一張 DPU(資料處理器) 來管理幾張卡的資料。其實在去年,DPU 本身就已經具備了解除安裝/外遷KV 快取 的能力,只是當時模型的發展還沒到那個臨界點,軟體層面的最佳化也還沒像今年 CES 展示的這麼明確。在今年 CES 2026 上,輝達正式推出了基於 BF4 的軟體定義邏輯,將每個 GPU 理論上能支援的最大儲存容量具象化了——即通過 DPU 擴展,單 GPU 可支援高達 16TB 的儲存容量。這個數字的量化非常關鍵。之前關注不多的人可能覺得這是一個新增的東西,但實際上,它只是把大家對儲存需求的估值給具體量化了。這導致這一輪市場對儲存的觀點發生了變化。但從整體上看,無論是架構邏輯還是底層原因,在更長期的路線圖上,它的發展方向其實是一脈相承的,並沒有發生根本性的巨變。2/一些儲存的關鍵問題(1)真實缺口僅 5%-10%,為何漲價預期高達 50%?核心邏輯:恐慌性搶購放大效應供需真相:實際物理缺口並不極端(Global Supply ~12w vs Demand ~12w),缺口約 5-10% 。恐慌傳導:上游原材料漲價 20% + 龍頭(華邦)轉產高利產品(DDR4/NAND)-> 供應端收縮訊號明確 。下游由於庫存極低(疫情後未補庫),恐慌情緒被點燃 -> “怕斷貨”心理導致需求被數倍放大 -> 即使提價也無法滿足需求 。價格指引:2025 Q4 已漲 30%,2026 Q1-Q2 預計再漲 30%-50% 。漲價節奏方面,2025年CQ4為行業漲價起點,但當時漲價未充分落地,2026年CQ1、CQ2漲價趨勢明確,市場信心充足,訂單量較高;不過隨著真實訂單和付款推進,2026年下半年行業或將逐步梳理非緊急需求,需求格局將更清晰。(2)漲價傳導機制:這次不一樣?靈魂拷問:這輪漲價是需求拉動還是因為上游漲價被迫跟進?邏輯鏈條:上游:晶圓代工漲價 ~20% 。競對:台系大廠(華邦等)計畫漲價 50%-100% 。應對:國內順勢跟漲 -> 2025 全年漲 30%,Q4 單季漲 20%+,小客戶漲 40% 。展望:未來一年預期再漲 30%-50% 。隱憂:漲價主要由供給側(產能調整、原材料)驅動,而非單純的需求側爆發,需警惕下游承受力 。(3)為什麼模組廠這次可能會“餓死”?為什麼:以前周期上行時,模組廠都能跟著喝湯,這次為什麼原廠不給貨了?邏輯鏈條:HBM 擠出效應:HBM 需要消耗大量晶圓 + 良率低吃產能 -> 且 HBM 單晶圓毛利遠高於 DDR4/5 。策略逆轉:原廠(美光等)“All in AI” -> 只有把晶圓做成 HBM 或 SSD 才划算 -> 拒絕向模組廠出售晶圓(視為低效產能和潛在競爭對手)。結果:模組廠賴以生存的“低買高賣”模式失效,未來 3-5 年面臨持續的晶圓短缺。3/3D DRAM及封裝技術相關上周和一家Fabless晶片供應商交流,他說目前唯一能量產的3D dram之後國內的那家頂流,下一步就是期待手機26年能量產。今天的專家說未來幾年預計不會落地什麼新的技術,像3D dram等先進封裝技術被定義十年以上的長期研發計畫...短期沒有什麼儲存新技術,僅能通過軟體層面最佳化現有SSD產品 (北向牧風)
頻寬戰爭前夜,“中國版Groq”浮出水面
在AI算力賽道,輝達憑藉Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻互動推理任務中的延遲短板愈發凸顯。為破解這一痛點,輝達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。這一金額不僅創下輝達歷史最大手筆交易、刷新了推理晶片領域的估值紀錄,更鮮明地昭示著輝達從“算力霸主”向“推理之王”轉型的意志。緊隨這一動作,據技術博主AGF消息進一步披露,輝達計畫在2028年推出新一代Feynman架構GPU——採用台積電A16先進製程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度整合Groq那套專為推理加速而生的LPU(語言處理單元),相當於給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“頻寬牆”與“延遲瓶頸”。這些動作表明:AI行業的競爭正從單純的算力比拚,轉向對單位面積頻寬的極致追求——這與輝達此前“大模型推理90%的延遲源於資料搬運,導致算力利用率常低於30%”的結論不謀而合。無獨有偶,AMD通過3D V-Cache持續驗證儲存靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理晶片公司,更是聚焦流式執行與片上頻寬建構核心競爭力,用實際行動印證這一行業共識。頻寬戰爭打響,誰是“中國版Groq”?回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI晶片企業集體爆發並密集衝擊IPO,資本熱度居高不下。然而,當輝達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“頻寬牆”問題,誰就握住了下一輪周期的入場券。在這一背景下,國內賽道湧現出前瞻性佈局者。近日,半導體行業觀察注意到,一家源於北京大學物理學院的AI晶片公司——寒序科技(ICY Technology),宣佈完成數千萬元人民幣新一輪融資。這家企業以“超高頻寬推理晶片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。“中國版Groq”的名號,初見端倪。實際上,寒序科技的技術披露並非偶然,而是源於在內部保密原則下的長期的低調深耕。早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、電腦學院、積體電路學院,以及澳門大學模擬與混合訊號積體電路全國重點實驗室,先後承擔、主持兩項北京市科技計畫項目。他們前瞻性地鎖定0.1TB/mm²/s超大頻寬流式推理晶片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與頻寬指標。這意味著,當Groq因LPU爆紅被視為“推理新範式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。據瞭解,寒序科技採用“雙線佈局”建構核心競爭力:一方面,已發佈SpinPU-M系列磁機率計算晶片,推出1024位元全連接伊辛退火求解硬體,覆蓋組合最佳化與量子啟髮式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算晶片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機儲存器)為核心介質,建構超高頻寬磁性流式處理架構。能看到,寒序科技並未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想像力的技術路線。眾所周知,當前主流的AI計算範式面臨多重困境:採用HBM的GPU方案,頻寬受限於昂貴的2.5D/3D先進封裝,核心儲存器件HBM產能被海外巨頭壟斷且面臨出口管制;採用SRAM的Groq方案,則因SRAM單元面積大、成本高,單晶片儲存容量有限,難以規模部署千億參數大模型。面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行儲存與計算。而這種底層邏輯的革新,正是源於MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與快閃記憶體的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝相容性,能夠大幅降低對複雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。與SRAM方案相比,MRAM技術的差異化優勢十分突出:儲存密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個儲存單元由6個電晶體(6T)組成,儲存密度低,儲存容量小,儲存典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU晶片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然採用1T1M(1個電晶體+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個電晶體的儲存功能,同等晶片面積和工藝節點下,儲存密度是SRAM的5-6倍。工藝成本更低:MRAM的物理結構優勢,使其在國產工藝製程即便落後一代的情況下,性能指標也能對標甚至超越採用先進製程的SRAM方案。這意味著MRAM無需追逐極先進製程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。非易失性與高能效:MRAM斷電後資料不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和雲端的大規模部署提供極佳能效優勢,大幅降低運行成本。通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為晶片級系統性能。據悉,SpinPU-E晶片架構的目標是將訪存頻寬密度提升至0.1-0.3TB/mm²·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是輝達H100(0.002-0.003 TB/mm²·s)的數十倍。據瞭解,輝達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,並通過多級快取、動態調度和共享儲存來適配高度平行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部儲存(HBM)和複雜記憶體層級的高度依賴。該計算過程呈現出強序列性、小批次和頻寬主導等特徵,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級快取和共享儲存來訪問,資料到達計算單元的時間並不固定,不同計算單元之間也需要反覆等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。而寒序科技採用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,並圍繞推理資料流建構多級流水執行路徑,使權重和中間啟動在局部高頻寬範圍內按固定順序流動。通過在硬體層面同時約束儲存位置、訪存頻寬、通訊路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部儲存訪問依賴,實現更高的頻寬與更快、更穩定的推理性能。值得關注的是,MSA架構並非簡單的存內計算概念,而是圍繞推理場景,對資料流組織、儲存-計算耦合方式以及執行節拍進行重新設計,在保證超高頻寬的同時,顯著降低對先進製程與複雜封裝的依賴。有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的訊號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積頻寬與執行範式。走出北大實驗室的秘密武器——“天時地利人和”SpinPU-E展現出的性能優勢,並非偶然的技術選擇,而是核心團隊跨學科積澱、全鏈條技術把控與前瞻性路線佈局的成果。據報導,寒序科技是國內首個有能力跑通從物理、材料、器件到異質整合、晶片設計、演算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積澱,核心成員橫跨凝聚態物理、電子科學、電腦技術、人工智慧等多領域:首席執行長朱欣岳兼具凝聚態物理、人工智慧演算法與積體電路的交叉背景,曾主導多模態AI演算法開發、多顆高性能專用晶片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾於清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁儲存/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。相比純粹的架構創新,寒序科技這種“材料-器件-晶片-系統-演算法”的全鏈條視野和全端攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同最佳化與突破,而非僅停留在邏輯和架構層面的修補。這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理晶片起步,逐步延伸至加速卡、伺服器系統、資料中心叢集,最終建構了雲服務平台,形成了“晶片-硬體-系統-雲服務”的全端佈局。沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯晶片為起點,向上建構硬體產品矩陣,最終通過雲服務觸達更廣泛市場的全端路徑,以建構更強的技術壁壘和產業競爭力。更關鍵的是,這條路徑並非簡單的模式復刻,而是基於本土產業現狀的創新破局——當行業苦於HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新範式,在中國本土成熟供應鏈基礎上,築起了一座對標全球頂尖推理性能的頻寬高地。這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。MRAM開啟新型儲存“黃金時代”破局“頻寬封鎖”寒序科技對MRAM技術的探索並非孤例,背後是一場從“備選”走向“必選”的新型儲存技術浪潮。尤其是在全球半導體產業的演進與地緣政治激盪背景下,為MRAM在內的新型儲存鋪就了一條通往AI算力核心舞台的“黃金賽道”。2024年12月,美國商務部工業與安全域(BIS)發佈新出口管制規則,明確限制向中國出口記憶體頻寬密度超過2GB/s/mm²的尖端儲存器。這一封鎖點,直指AI推理晶片的命門——頻寬。目前,輝達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外儲存原廠壟斷,且受限於複雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM記憶體的單卡售價2萬美金),在先進製程微縮上也已近極限。在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基於國產28nm/22nm等成熟製程實現超高頻寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一儲存技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落後局面和SRAM對先進製程的依賴,為AI算力產業打造自主可控的“第二曲線”。全球共振,商業化拐點已至?當前,產業界正在用實際行動表明,MRAM不再只是實驗室裡的美好構想,而是憑藉獨特優勢正成為全球半導體產業佈局的重點。其中,晶圓代工龍頭與晶片大廠均在積極佈局:台積電、三星、英特爾、SK海力士、IMEC等憑藉其先進的技術研發和大規模生產製造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和整合度。恩智浦與台積電合作推出16nm FinFET車規級eMRAM,應用於其S32系列高端MCU,實現寫入速度比傳統快閃記憶體快10-15倍、耐久性超百萬次;瑞薩電子也推出了基於22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積澱。據LexisNexis資料統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降並不代表興趣的下降,而是專利申請和公開之間的時間存在滯後。這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型儲存技術的發展機遇,積極佈局相關領域。RRAM領域湧現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真儲存、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對於RRAM基於電子電荷遷移,是一種統計物理範疇下的阻變器件;MRAM的存取機理是基於自旋的確定性兩態翻轉,更加可控、精準,大規模製造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被台積電等半導體巨頭作為下一代面向AI的儲存技術重點押注。具體來看,本土MRAM廠商各有側重,多數主要集中於儲存、加密、嵌入式控制等傳統領域,例如:致真儲存專注於磁性隧道結(MTJ)的核心器件研發與製造工藝,掌握從材料研發到器件製造的全鏈路技術,擁有國內唯一的8英吋磁儲存晶片專用後道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研製出全球首顆8Mb容量自旋軌道力矩磁隨機儲存器晶片(SOT-MRAM),實現SOT-MRAM容量規模化突破。馳拓科技專注於MRAM儲存晶片的技術研發與生產製造,建有12英吋MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,儲存器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。凌存科技專注於儲存模組開發,致力於將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的儲存器MeRAM原型機及基於MeRAM的真隨機數發生器晶片,產品廣泛應用於車載電子、高性能運算、安全等領域。寒序科技則獨闢蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質建構計算晶片,將MRAM的物理優勢轉化為算力與頻寬優勢,開闢了“磁性計算”這一全新賽道,致力於從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從儲存替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶佔全球“磁計算”的戰略高地。綜合來看,從器件、裝置、製造到系統應用,國內產業鏈的前期佈局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從儲存到計算的關鍵空白,為後續誕生更多行業廠商提供了土壤和必然性。生態共建:國產MRAM的“磁計算”革命根據市場研究機構Precedence Research資料顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同建構生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支援,積極推動MRAM這一有希望在頻寬領域實現“變道超車”的關鍵技術。同時,借鑑台積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝最佳化,爭取儘早打通“設計-製造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM晶片的流片成本與量產門檻。還有一點不可忽視。輝達收購 Groq核心技術,計畫在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI晶片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,建構差異化競爭力。產業界正釋放清晰訊號:以MRAM為代表的新型儲存,已成為後摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積澱,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI晶片產業實現換道超車的關鍵抓手。五年後,誰將主導下一代推理晶片?當摩爾線程、沐曦、天數、壁仞等國產AI晶片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標誌著中國在基於傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收穫期。如果說上一代AI晶片的競爭是“算力競賽”,那麼下一代的分水嶺將是“誰能率先跨過頻寬牆”。在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上整合路徑,用極高成本將頻寬推向極限,並因此獲得了行業霸主輝達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型儲存介質路線,為突破頻寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。數年後,當AI推理進入“頻寬決勝”的新時代,晶片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬於那些能夠率先在“頻寬戰爭”中沉澱出護城河的先行者。正如Groq在矽谷用SRAM驚豔了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依託MRAM磁性計算的新範式,給出“中國版”的實現路徑——並且,這條路,他們早在多年前,就已開始默默鋪設。 (半導體行業觀察)
HBM,新戰場
SK海力士發佈了“StreamDQ”,將其作為應對即將到來的定製化HBM(高頻寬記憶體)時代的利器。其理念是利用HBM執行以往由GPU處理、導致推理過程出現瓶頸的任務,從而提升資料處理性能。從GPU廠商的角度來看,將部分功能遷移到HBM視訊記憶體能夠為晶片設計提供更大的靈活性。SK海力士預計將與包括NVIDIA在內的主要客戶探討這項技術。6日(當地時間),SK海力士在美國拉斯維加斯威尼斯人酒店舉辦的“CES 2026”展會上開設了一個私人展廳,並行布了其定製的HBM技術。預計從下一代版本HBM4E(第七代HBM)開始,定製HBM將得到全面應用。雖然現有的HBM是按照標準製造的,但定製HBM的關鍵區別在於在基礎晶片上加入了客戶特定的功能。基礎晶片是一顆負責核心晶片記憶體控製器功能的晶片,它與HBM堆疊在一起,並通過PHY(物理層)將HBM連接到GPU等系統半導體。以前,記憶體廠商會自行生產這顆晶片,但隨著各種邏輯功能的加入(從HBM4開始),大規模生產主要依靠代工廠代工。SK海力士正向客戶推介名為StreamDQ的技術,以實現定製化HBM的商業化。鑑於近期落幕的CES 2026展會以客戶為中心,預計該公司將積極向NVIDIA等全球科技巨頭推廣其產品。SK 海力士的一位官員解釋說:“StreamDQ 是定製 HBM 的一個例子,SK 海力士甚至還發表了一篇關於這項技術的論文。”他補充道:“客戶有時會向我們提出與定製 HBM 相關的技術,但 SK 海力士也會提出這些技術。”StreamDQ技術主要將現有GPU中的部分控製器功能轉移到HBM基片上。這使得GPU製造商能夠利用更多的晶片內部空間,從而有可能提高系統半導體的性能和效率。SK 海力士在基礎晶片上加入 GPU 控製器和其他元件時不會面臨重大挑戰,因為它利用了台灣主要晶圓代工廠台積電的先進工藝。SK海力士還通過在晶片基體上應用UCIe介面提高了晶片整合度。UCIe 是一種尖端技術,它將晶片分割成功能單元,然後再將這些單元連接起來進行製造。人工智慧加速器的資料處理性能也得到了顯著提升。大規模語言模型(LLM)會經歷一個稱為“量化”的過程,該過程將資料壓縮成低位整數,從而有效降低記憶體佔用。然後在實際計算過程中,資料會通過“反量化”再次解壓縮。傳統上,反量化任務由GPU處理。然而,執行反量化的GPU一直受到記憶體瓶頸的困擾,這會消耗高達LLM整體推理時間的80%。相比之下,StreamDQ 會在資料流經 HBM 時即時進行反量化,而不是將量化後的資訊直接傳送到 GPU。 這使得 GPU 可以立即開始計算,無需額外的工作。StreamDQ  的名稱就來源於這種在資料流中即時進行反量化 (DQ) 的方法。SK海力士解釋說,這將使之前一直處於瓶頸的LLM推理處理速度提升約7倍。整個AI加速器的推理速度預計也將顯著提升。SK海力士的一位官員表示:“如果我們把處理大量資料的系統半導體放在記憶體附近,只接收資料結果,那麼從系統角度來看,效率會非常高。”他補充說:“這可以看作是記憶體附近處理(PNM)的概念。” (半導體芯聞)
美國對GPU管控突破地域限制,阿里、字節、騰訊的東南亞機房影響分析
這兩天美國針對中國的AI晶片發生了兩件大事,一件是2026年1月13日,美國正式批准向中國出售H200晶片,市場傳言國內公司已向輝達下了約200萬顆的訂單。還有一件大事是,2026年1月12日,美國眾議院以369票贊成、22票反對,通過了《遠端訪問安全法案》(Remote Access Security Act, H.R.2683),這個法案將遠端訪問受控技術納入監管範圍,防止外國對手通過雲端運算等管道遠端獲取人工智慧晶片等受控關鍵技術。法案的影響之前的美國出口管制主要是對實體出口和技術轉讓的管制,例如晶片、光刻機裝置或相關的技術。但這個管制有一個漏洞在於,雲廠商們可以通過遠端算力服務和建立全球分佈式資料中心的方式繞過這個限制,在海外建立機房,進行遠端算力調度。而最新發佈的《遠端訪問安全法案》核心,就是將這一之前未被納入的“遠端訪問”(remote access)行為正式納入美國出口管制體系之內。一句話總結:無論美國的GPU部署在那個國家,未經美國商務部及其下屬的工業與安全域(BIS)允許,外國對手使用這些GPU都違法的。雲廠商們東南亞機房的影響此前,阿里、騰訊、字節在東南亞建機房採購美國管控晶片,借助晶片物理位置在海外的優勢,以“租用本地算力”的形式繞開美國直接出口管制,為國內大模型訓練、跨境雲服務提供算力支撐。這種模式可以算是平衡技術需求與政策風險的最優解。僅騰訊雲就在新加坡、馬來西亞等地部署了多個搭載高端GPU的算力節點,阿里則通過東南亞子公司為跨境客戶提供AI算力服務。但美國《遠端訪問安全法案》的出台,直接堵死了這條規避路徑。法案明確規定,無論美國受控技術的物理裝置位於何處,外國主體遠端訪問未獲許可即屬違法,同時嚴禁通過子公司、殼公司等方式規避監管。這意味著,即便晶片躺在東南亞的機房裡,只要阿里、字節、騰訊從境內遠端呼叫這些算力,就觸碰了美國的監管紅線。東南亞機房本身有本地業務需求:字節跳動在東南亞機房的部分算力用於短影片推薦、普通雲端儲存等非敏感業務;阿里則主要提供符合本地合規要求的行業雲服務;騰訊雲澤有政務雲、中小企業雲服務等穩定場景。表面上看,字節、阿里、騰訊的東南亞機房“服務海外使用者”部分應該不會有什麼影響,似乎與美國《遠端訪問安全法案》關係不大。但實際情況要複雜得多——該法案的影響並不取決於“服務對像是誰”,而是取決於“誰在遠端訪問受控物項”以及“是否獲得美國許可”。這意味著即使伺服器物理部署在東南亞,即使客戶是東南亞電商或銀行等本地公司,只要中國總部的技術人員能遠端登錄、偵錯、調度這些AI叢集,就可能被認定為“中國實體遠端訪問美國管制物項”。結語美國一邊放開H200對中國的銷售,一邊堵上中國獲取更先進算力的的漏洞,這一收一放之間,儘是手段。《遠端訪問安全法案》讓雲廠商們重新評估東南亞機房“算力避風港”的地位。針對該法案,如果這些機房之前主要部署的是H100或者H200,結合美國最新的H200出口政策,對這些東南亞機房的實質影響應該是比較有限的。但是針對雲廠商們規劃中的輝達更先進晶片的部署,可能得重新審視其可行性了。另外一點就是,按照這個趨勢發展,隨著雲廠商們的業務擴張,國產算力出海的必要性看起來變得越來越迫切。 (AI人工智慧行業動態)
2026年全球半導體展望(ㄧ) 從CoWoS看GPU與ASIC的AI世紀大戰
2025年,黃仁勳在GTC上擲地有聲的「未來六個季度資料中心收入5000億美元」預言,不僅是對市場的強心針,更是對整個算力產業鏈的總動員令。然而,硝煙從未散去。2026年開局的CES,老黃直言90%的ASIC可能都會失敗。如此一來,戰局愈發清晰,以輝達為首的通用GPU陣營,與以博通(承載GoogleTPU、Meta Mtia等)、Marvell(承載AWS Trainium等)為代表的定製化ASIC陣營,在台積電CoWoS先進封裝產能這一終極戰略資源上,展開了寸土必爭的爭奪。本報告將以CoWoS產能為唯一錨點,精確測算2026年AI算力晶片的出貨格局,並首次進行系統性覆盤,驗證此前預測的成敗得失。同時,我們將深入剖析CES上黃仁勳與蘇姿丰描繪的技術藍圖,探討「物理AI的ChatGPT時刻」對戰局的深遠影響,以及輝達收購Grop這一關鍵棋步背後的戰略意圖。結論將揭示:這場對決不僅是算力的比拚,更是生態、架構與供應鏈掌控力的全面戰爭。第一章. 復盤2025在深入2026年戰局前,必須對我們2025年的預測進行一次嚴苛的覆盤。所有的預測不去檢討不去復盤那都是妥妥的胡扯與耍流氓。先來看看預言精準之處:1. CoWoS產能是絕對瓶頸與勝負手:2025原文開篇即點出,2023年輝達因應AI爆發向台積電緊急加單CoWoS,但產能仍嚴重不足,並精確追蹤了2023年台積電與Amkor第二供應源的總出貨量(約63K/片)。以CoWoS為核心稀缺資源進行供需測算的分析框架,在2025年同樣被完全驗證。無論是輝達Blackwell的放量,還是博通承接的GoogleTPU、Meta Mtia等ASIC大單,其出貨上限無一不受制於台積電CoWoS的產能爬坡速度。2025原文中「CoWoS的產能增幅,對應的不只是AI晶片出貨量數量的增加,還疊加了Interposer面積不斷放大的增量」這一判斷,成為理解後續GPU與ASIC出貨量與營收增速差異的關鍵。這一點也是從晶片製造端瞭解未來AI晶片必須建立的基礎認知。2. ASIC陣營增速將超越GPU: 這是筆者2025年原文最核心、也最具前瞻性的判斷。2025原文筆者的模型基於CoWoS booking資料推測:『2024到2027年將進入ASIC的超級增長周期,三年80%的複合增長率』,25年原文明確指出博通的ASIC業務(AI業務中扣除交換器業務)將從2024年的80億美元增長至2027年的400億美元。如今看來,2025單單ASIC業務大約增長50%到120億,當初預測2027年400億將是打底的數字,目前樂觀可以看到500億以上,也就是說2026-2027年都是博通ASIC的超高增長年,這一點我們從文章的2026-27 CoWoS booking資料也能看出端倪。博通ASIC業務增長率(不含交換機)事實證明,2025年1月筆者當初公佈的模型極具前瞻的洞察力。2025年,博通接連拿下Anthropic超210億美元、OpenAI超百億美元的ASIC大單,其AI相關營收暴增,股價與市值一路飆升,完全印證了ASIC賽道在推理市場爆發下的強勁增長。原文中「2024-2027年ASIC的CoWoS消耗量複合增長率將達80%高於GPGPU」的判斷,這一點在2026年博通 CoWoS booking 100%+的年增量遠高於輝達的65%增量上完全驗證,根據筆者的一手訊息,博通2027年的CoWoS增量將繼續超越輝達。3.輝達面對ASIC的挑戰將尋求策略轉變:2025原文大膽預測:『NV的業績在2025年將突破2000億美元,來到2100億美元…但在2026年增幅下降』、『如果維持現有死守訓練端的高毛利策略,2027年將出現業績零增長的可能』。所以,2025年原文,筆者也預見性地指出:「ASIC必然是NV現階段不想做(低毛利)但未來卻不得不做的業務」、「NV不可能坐以待斃…如果市場到了沒辦法再繼續維持超高毛利的階段,輝達手上的武器一個一個放出來都是王炸」。2025年的市場走勢與輝達的動向完美呼應了筆者所有判斷,輝達2025財年營收確如預期突破2100億美元大關,但市場已開始擔憂其2026年增長率。更重要的是,筆者在2025年一月文章中,預測輝達一定會針對ASIC採取針對性行動,他不能也不會只死守訓練高毛利市場。隨後,在2025年1月的CES首先推出GB10的桌面工作站晶片,3月GTC推出DGX Spark,9月推出搭載GDDR的Rubin CPX,全部都是針對推理市場的專用晶片。10月份的GTC,老黃又扔出開放生態的NVLink Fusion,這猶如攻入ASIC腹地的特洛伊木馬。12月份以200億美元的超高溢價收購Groq,意圖直取ASIC高能耗效比的命門。這一系列動作,明確展現出輝達進軍定製化、低毛利市場以對抗ASIC侵蝕的戰略意圖,與筆者2025年1月的原文的預判完全一致。當然筆者在2025年1月無法預測輝達會採取什麼手段,只能做出輝達一定會有針對ASIC的戰略轉向與調整的預言。4.出貨量(顆數)與營收(價值)的背離:2025年原文深刻指出,由於ASIC的Interposer面積通常小於GPU,因此「採用不同方案的不同晶片,一片CoWoS能切割出的晶片數量天差地別」。這導致在消耗相同CoWoS面積(產能)的情況下,ASIC可以產出更多的晶片顆數。因此,比較出貨顆數時ASIC可能快速逼近甚至超越GPU,但在營收和利潤上,單價高昂的GPU仍將佔據主導。這一細微但關鍵的區分,是理解GPU與ASIC市場份額之爭的基石。預測偏差部分:1. GPU增長韌性超呼筆者的預期:2025原文對2026年GPU增長「陡降」的判斷可能過於悲觀。從2025年底至2026年初的產業動態看,由於「物理AI」、機器人等新興應用的強勁需求,以及輝達Rubin等新一代平台帶來的性能飛躍,訓練端需求並未如預期般快速見頂,反而保持了強勁勢頭。這使得GPU在2026年的CoWoS消耗佔比和營收增長,比25年的原文預期的更為堅挺。2. 技術路線融合加速:2025年原文的特點就是從晶片製造等物理層面,將GPU與ASIC視為兩條相對平行的賽道去分析,是整個網路上唯一用晶片製造的視角去看待與分析AI格局演變的文章。但實際上架構,軟體,生態等技術融合趨勢不斷再加劇。輝達通過NVLink Fusion等技術開放生態,試圖將ASIC納入其體系;而一些ASIC也在增強可程式設計性。兩者的界限正在模糊,未來的競爭可能更多是「可程式設計通用加速器」與「高度定製化專用加速器」在不同場景下的混合架構之爭。2026年的展望系列,我們還是會從晶片製造的硬體視角出發,並結合軟體層面,更全面的來看待未來AI晶片的市場格局。復盤結論:總體而言,筆者2025年初的預測文章,在核心邏輯(CoWoS為王、ASIC增速將超越GPU、輝達需戰略轉型)和關鍵資料推演上,展現了極高的精準性和前瞻性。成功地預見了博通等ASIC設計公司的崛起,以及輝達面臨的增長拐點與戰略抉擇。儘管在輝達2026增長曲線的斜率上存在細微偏差,但文章建立的「以CoWoS產能為錨,穿透出貨量與價值背離」的分析框架,依然是研判2026年乃至更長期AI算力格局最有力的工具。第二章:戰爭的底層邏輯 - AI算力需求大爆炸要理解今天在CoWoS產能上的寸土必爭,必須回到一切的起點:AI不只是近年興起的大語言模型(LLM),目前多模態,AI Agent甚至物理世界模擬,讓AI對算力近乎貪婪的渴求。面對每年5倍增長的token衍伸出的算力需求,依靠摩爾定律兩年翻一倍電晶體數量的算力增長已經完全跟不上節奏。因為AI的出現,整個半導體行業迸發了無窮的潛力,在後摩爾定律時代竟然電晶體增加速度遠超以前,記得數年前許多人云亦云的網民,高喊著摩爾定律已死,現在看來甚是可笑,誰知道再過幾年又有啥新科技出現呢?從晶片製造層面,面對AI恐怖的算力增長需求,晶片製造領域唯有不斷縮小單位線寬同時不斷加大晶片面積,一縮一放的加乘效果才能勉強跟上AI的節奏。當然增加出貨量也是一個辦法,但這裡就遇到了前段製程與CoWoS產能的瓶頸。傳統的CPU架構在平行矩陣運算面前效率低下,也催生了專用加速晶片的黃金時代。最終,AI的出現推動半導體技術演進沿著三條相互交織又彼此競爭的路徑展開:1. 架構路徑:從通用到專用,生態與效率的終極對決GPGPU的霸權之路: 輝達的CUDA生態,將圖形處理器鍛造成了通用平行計算GPGPU的絕對王者。其核心武器是極高的記憶體頻寬(通過HBM)和大規模流處理器陣列。從H200、GB200到今年即將推出的“Vera Rubin”,都是這條路徑的產物,性能提升直接與視訊記憶體頻寬、NVLink互連規模掛鉤。輝達構築的,是一個從硬體到軟體(CUDA、AI軟體棧)的封閉而強大的帝國。正如老黃在CES演講所說,物理AI的ChatGPT時刻來了,AI的第二拐點,從理解語言到理解物理世界,將還是由通用型GPGPU主導。ASIC的精準革命: 當AI工作負載,尤其是雲端推理側的負載日益固化,為特定演算法(如Transformer)定製的ASIC便展現出碾壓級的能效比Performance per Watt,和總擁有成本(TCO)優勢。Google的TPU、亞馬遜的Inferentia/Trainium、微軟的Athena,以及中國的華為Ascemd,寒武紀MLU都是這條路徑的先鋒。它們通過犧牲通用性,換取在特定戰場上的極致性價比。而博通、Marvell、Al chip等設計公司,正是通過為這些CSP雲巨頭定製ASIC,撕開了兆市場的一道口子。2.製程路徑:奈米尺度的軍備競賽摩爾定律的延續是性能提升的物理基礎。從7nm、5nm、3nm到2026年量產的2nm,每一次製程躍進都意味著電晶體密度和能效的提升。2024年3月份台積電的劉德音與黃漢森在IEEE發表的文章 , 計算出不用十年 , 人類就可以製造出一兆顆電晶體的GPU單晶片。未來不再只是通過光刻等製程微縮這單一手段來提升電晶體數量 , GAA、CFET等立體結構的最佳化、2D新材料以及先進封裝每一個技術都能有效並持續的提升電晶體數量。然而,單純靠微縮已面臨“功耗牆”和“儲存牆”。2nm晶圓的代工價格傳聞高達3萬美元,這已非所有玩家都能承受的賭桌入場費。3.封裝路徑:超越摩爾,系統級創新的主戰場當製程微縮邊際效益遞減且成本飆升,“超越摩爾”(More than Moore)成為新的增長引擎。其核心就是先進封裝,而CoWoS正是台積電為高性能計算打造的“皇冠上的明珠”。CoWoS的精髓在於異構整合。它不再追求製造一個巨大且良率堪憂的單片晶片,而是將多個小晶片,例如計算芯粒(GPU/ASIC核心)、高頻寬記憶體(HBM)、I/O芯粒等,通過Interposer進行超高密度、超高頻寬互連,整合在一個封裝內。CoWoS帶來了三大降維打擊優勢:*突破光罩板極限: 製造遠超單個光刻機視場尺寸的超大晶片成為可能。*混合搭配,最優解: 可以整合不同工藝節點、不同功能的芯粒,實現性能、成本、功耗的最佳平衡。*極致互連性能: 矽中介層上的微凸塊(μBump)間距極小,使得芯粒間通訊頻寬激增,延遲和功耗大幅降低。正因如此,無論是追求極致性能的輝達GPU,還是追求最佳TCO的雲巨頭ASIC,但凡涉足頂級AI算力,都離不開CoWoS。它從一項“使能技術”,變成了決定最終產品出貨量的戰略瓶頸資源。後摩爾定律時代,More than Moore成為主角,各種型態的先進封裝技術孕育而生我們從下面的例子可以清楚看出,後摩爾定律時代利用多種手段的電晶體推進速度。2022年輝達採用N4製程的Hopper的電晶體數量為800億。2024年採用N4P製程+D2D Chiplet的Blackwell電晶體數量為2080億。2026年輝達將推出N3P製程的Rubin晶片,單die預計在1680億電晶體左右,雙die為3360億電晶體。2027年整合度更高的CPO,以及CoWoS的極限4 die合封,Rubin ultra晶片電晶體總量將達到6720億。2028年輝達將推出Feynman,採用A16製程,4 die合封的電晶體總數將達到8000億左右。2030年輝達的更新一代晶片將採用A14製程,再加上利用CoPoS技術做到8die合封,電晶體總量達到2兆。所以利用晶片製程不斷的微縮,加上不斷放大面積的interposer,單顆晶片的電晶體數量增長比摩爾定律時代更高。2022年的800億,提升到2030年的2兆,8年25倍的提升,比摩爾定律每2年翻1倍,8年16倍還來得更驚人。全球CoWoS產能對於CoWoS產能,儘管OSAT以及英特爾、三星等都在大力投資,但2026年的有效產能主要由2025年的投資決定,彈性有限。更重要的是,壟斷CoWoS市場的台積電,在2028年將推出方型基版的CoPoS取代CoWoS,屆時佔CoWoS產能一半以上的輝達將率先轉入新技術,這將導致這兩年為了滿足市場剛擴產的CoWoS產能因被替換而大量閒置。所以目前台積電對CoWoS的產能建設趨於保守,這對AI晶片客戶來說不是一個好消息,目前得應對之策就是將短期外溢的訂單轉給OSAT或者精度要求不高的低端ASIC考慮英特爾EMIB。從現況來看,2026-2027年CoWoS產能,將出現2023-2024年高度緊張度狀態,從筆者一手訊息來看,2026年Q3開始台積電CoWoS的稼動率將回到100%以上,直到CoPoS產能開出後又將迅速跌落。目前台積電內部對這兩年的CoWoS產能建設有很大的分歧。因此,分析2026年的戰局,必須首先看清CoWoS這座「軍火庫」的儲備與分配。未來AI晶片的競爭,是架構、製程、封裝“三維戰爭”。到了2026年,當製程進入2nm深水區,成本高企,架構路線(GPU vs. ASIC)出現根本性分叉時,再度緊缺的CoWoS先進封裝的產能分配,就成了決定算力版圖的最關鍵變數,沒有之一。第三章:2026年CoWoS產能沙盤推演基於筆者的訊息,我們對2026年台積電CoWoS產能及預訂Booking情況進行建模分析。根據筆者模型,台積電CoWoS產能近幾年的爬坡如下:2023年底:約 12K/月2024年底:約 36K/月2025年底:約 80K/月2026年底(目標):達到 ~120K/月。對於2026年台積電CoWoS產能逐月提升過程,我們取一個不樂觀也不保守的全年有效平均值:94K/月。即 2026年台積電CoWoS總有效產能約為:94K/月 × 12個月 約 1,120,000片。這是本次測算的總彈藥基數。CoWoS產能分配的邏輯推演:台積電的產能分配是一場基於技術、商業、地緣政治的複雜棋局。核心考量如下:技術繫結與生態深度: 輝達是CoWoS最早期、最大膽的共同定義者和投資者,其架構(如NVLink)與台積電CoWoS工藝深度耦合,享有最高優先順序。訂單規模與戰略押注: 蘋果、輝達、AMD是台積電前三VVIP大客戶,其巨額預付款和長期協議鎖定了基礎產能。不過蘋果要到2028年才有自研AI晶片,這兩年不需要CoWoS產能。博通、Marvell因承接Google、AWS、Meta等雲巨頭天量ASIC訂單,已躋身頂級VIP客戶行列。地緣政治與第二供應鏈: 美國對華技術限制,迫使中國頭部AI公司,透過第三方等各種方式全力爭取任何可能的CoWoS產能。同時,ASIC以及AMD、英特爾乃至中國客戶,都是台積電制衡輝達分散客戶風險的重要力量。產品迭代與良率: 更複雜、整合度更高的封裝(如整合更多HBM、更大中介層)初期良率較低,實際有效產出需打折。下圖清晰展示了各主要玩家的爭奪格局:2026年台積電CoWoS產能分配:輝達:2026年6*萬片。年增*%,依舊保持高增長。儘管面臨競爭,但其產品需求最旺、單價最高、技術最領先,仍將佔據最大份額。輝達接近台積電CoWoS總產能*%的預訂量,遙遙領先其他AI晶片企業,幾乎不受ASIC崛起而稀釋,繼續保持絕對主導的份額。當然輝達的CoWoS預訂的增量,有很大一部分是來自Interposer面積放大的結果,2026年推出的Rubin達到5.5x reticle,比Blackwell的3.3x reticle大了1.6倍。也就是輝達在晶片出貨數量不變的情況下,就必須增加1.6倍的CoWoS產能,或者說從輝達在Rubin時代增加60%的CoWoS產能,晶片出貨量與Blackwell時代相比是沒有增加的。當然整個2026年Blackwell還是出貨主力,輝達65%的CoWoS增量,必然是出貨數量以及單價的雙雙齊漲的局面。AMD:2026年*萬片,年增*%。多款Mi300系列已證明AMD的競爭力,剛剛開幕的CES,蘇大媽正式官宣Mi400系列的來勢洶洶,預計下半年開始出貨。從CoWoS booking數量來看,與25年相比有*%的增量,與輝達的增幅幾乎一致。這也標示著AMD對Mi455的信心十足。Broadcom博通:2026年*萬片,年增*%。主要客戶GoogleTPU開始對外銷售,對博通是利多,不過博通主要負責TPU v6 以及 v7p,偏向推理的v7e會在2026年下半年推出,由聯發科負責流片。下一代的TPU v8 還是會遵循v7的模式,由博通與聯發科兩家分別下單台積電CoWoS。2026年博通向台積電預定的CoWoS產能有60~65%給到TPU第二大客戶Meta的Mtia晶片,今年今年將推出第三代產品,Mtia v2 & v3大約佔博通CoWoS預訂量的20%左右。未來的大客戶Open AI將於2026年底推出內部代號Titan晶片,採用台積電N3製程,預計佔今年博通預訂量的5-10%,2027年將達到20%。2028年蘋果的AI ASIC - Baltra也將面世,目前由博通負責高速互聯,SerDes IP以及後段布線,預計2026年上半年進入TO階段。很顯然,博通是未來ASIC崛起的最大贏家。Marvell美滿:2026年*萬片,年增*%。2026年CoWoS預定數量與2025年持平,幾乎是AI晶片最失意的廠家。主要是出貨主力AWS下一代的Trainium 3轉由Al chip設計。2026年主要客戶還是AWS的Trainium 2 ,新客戶Microsoft採用N3E製程的Maia 200 加入,避免了下滑。Al chip世芯:2026年*萬片,年增*%。2026年CoWoS 200%的增幅,主要是拿下AWS的Trainium 3 訂單2026年出貨包含少量Trainium 1 ,決大部分為N3製程的Trainium 3 Anita,加上Inferentia 2 以及少量的Intel Gaudi 3,以及微軟上一代的-Maia 100。Al chip的客戶數量比博通還多,但出貨量級都不高。AWS已暫停Inferentia 3的開發,轉向以Trainium統一承擔推理跟訓練的工作負載,目前未見Inferentia 3的TO訊息。Annapurna:2026年2.4萬片,年增64%。作為AWS的子公司,Annapurna一直承擔AWS AI ASIC的開發任務,同時也向台積電直接預定CoWoS產能,Trainium 3的 Mariana版本有別於Al chip的Anita版本,同時在台積電投片。MTK 聯發科:2026年2萬片。作為台積電CoWoS的新進客戶,目前聯發科已調撥大量人力支援ASIC業務,AI ASIC未來將成為聯發科的重點業務。2026年下半年主要承擔TPU v7e的出貨,2027年為出貨主力年,同時2027年將疊加TPU v8e的訂單,2027年MTK有機會出現5~600%的CoWoS同比增幅。聯發科目前已將AI ASIC最為為來核心業務,作為行業巨頭,聯發科的加入也將很大影響ASIC設計的市場格局。聯發科這兩年的ASIC業務雖然這兩年高歌猛進,但由於只是做後段布線,缺乏博通強大的IP,雖然增幅大,但單價較低,對於體量本就不小的全球第三fabless巨頭來說,並不能帶來營收的大幅度增長。當然從CoWoS增量來看,聯發科在AI以及端側的佈局非常積極,又有ASIC業務的高增長加持,將是這兩年除了博通之外,ASIC陣營的最大受益者。剩下的台積電CoWoS客戶的量級就都是小於1萬片,其中微軟自研ASIC-Athena 還是由內部團隊在台積電投片小批次的不斷迭代推進。GUC創意還是小型AI晶片初創企業在CoWoS流片的首選,也是國內AI的重要第三方,畢竟GUC是台積電的親兒子。Xilinx這個最早的CoWoS客戶,因為CoWoS不斷漲價,FPGA又不如AI晶片的利潤那麼高,已經逐漸放棄高成本的CoWoS,改由成本更低的IoFO_LSI方案。剩下的兩家交換機廠家思科與中興微,因為其高端交換機有採用HBM,所以一直以來也都是台積電CoWoS客戶,只是預定量只有幾千片的水平。至此,我們得到了2026年各陣營的“彈藥”配額:再加上FPGA、Switch的 2萬多片,即時2026年台積電CoWoS的出貨總量。從彈藥分配來看,拿下整個CoWoS產能65%的GPGPU陣營還是擁有絕對的火力優勢,甚至輝達一家的火力就超過全球其他企業的總和。第四章:超越數量 - 價值、生態與功耗的深層次博弈然而,僅比較CoWoS還是會誤判戰局。雖然CoWoS數量與面積是一切的根本,但不同的封裝方案,比如single-die以及dual-die方案,將導致Interposer面積出現很大的不同,每片CoWoS可切割數量有很大差別。其中最顯而易見的就是Hopper時代的每片切29顆,到了Blackwell時代的每片14顆,這正是Interposer不斷放大的結果。所以台積電CoWoS的產能增幅,對應的不只是AI晶片出貨量數量的增加,還疊加了Interposer面積不斷放大的增量。又比如2026年Google的TPU v7p是dual-die的D2D方案,interopser size 在2400mm2左右,一片CoWoS可切割16顆左右。而同一代針對推理的TPU v7e,採用single die設計,interposer size只有1500mm2左右,每片CoWoS可切數量超過30顆以上。AI晶片的Interposer越來越大的尺寸是明確的技術路線,目前Interposer是3.3x的reticle size,2026年的Rubin是4~5.5x,而2027年4-die合封的Rubin Ultra將達到9~9.5x。所以不斷放大的Interposer面積也是台積電CoWoS不斷大幅度擴產的一大主因。正因如此,以CoWoS的產能(消耗面積)增減幅度來計算企業AI營收增減幅度,會比企業的AI晶片出貨顆數量增減來的更為準確。AI晶片戰爭的勝負,除了CoWoS消耗面積以外,還要在兩個維度上評判:算力維度:一顆輝達B300的FP8算力達10 PFLOPS,而一顆定製推理ASIC的算力可能僅為其幾分之一,即便是最強的TPU v7p也只有輝達B300的一半,這還是不考慮今年與TPU v7同台競技的Rubin的差距,如果用Rubin來對比差距將更大。剛開幕的CES老黃說Rubin的性能將比blackwell在推理提升了5倍,訓練提升了3.5倍,GPU與ASIC的性能差距並沒有縮小,反而是在擴大中。因此,即使顆數接近,輝達陣營輸出的總算力(TFLOPS) 很可能仍大幅領先。這是GPU通用架構的“蠻力”優勢。總算力領先的物理基礎就是來自CoWoS消耗面積(電晶體)的多寡。價值維度:這是最殘酷的差距。輝達單顆GPU售價高達3萬美元以上,未來會提升到4-5萬美元。而云巨頭自研ASIC的“成本”僅體現為台積電的代工費用和博通的設計服務費,即便成本相差無多,但ASIC其“內部結算價”必然遠低於GPU售價。即便ASIC對外銷售,我們可以用Anthropic向博通採購210億美元的TPU為例,百萬顆的TPU v7p 扣除伺服器等諸多配置,單顆對外售價在1.5萬以下。目前最強的ASIC是採用最先進N3P製程的TPU v7p,製程領先輝達Blackwell一個世代,但其對外售價不到Blackwell的一半,這與剛才我們計算的TPU v7p的算力只有B300的一半,算力與售價差距大致上是對等。從這一點來看,完全證明我們文章剛才所說,AI晶片是多維度的比拚,不單單比摩爾定律比晶片製程,還要比誰的面積更大,能放進更多電晶體,最終表現在性能上的差別也決定他的最終價格。因此,輝達用60%的CoWoS產能,創造了整個AI加速晶片市場70%以上的收入和90%以上的利潤。這正是黃仁勳“6個季度,5000億美元狂言”的底氣 — 他賣的是“黃金”,而ASIC陣營在為自己鍛造“精鋼武器”。生態鎖死 vs. 專用解放:輝達的帝國城牆: CUDA軟體棧、龐大的開發者社區、最佳化的AI框架(TensorRT、Triton),以及NVLink、NVSwitch構成的系統級優勢,構成了幾乎無法踰越的生態壁壘。使用者購買的是一整套最強的“交鑰匙”解決方案。ASIC的破局邏輯: ASIC的優勢在於,對於CSP這類超大規模使用者,當其軟體棧完全自控,從TensorFlow/PyTorch框架到推理服務Triton,且工作負載高度特化且穩定(如搜尋推薦、廣告排名、語音識別推理)。所以自研ASIC能帶來極致的TCO(總擁有成本)最佳化和能效比。它們用“專用化”換取“去輝達化”的戰略自由和長期成本節約。最終直指CSP採用自研晶片最佳化財務報表的內在動力。這也說明了一個侷限,ASIC只有超大型CSP或者大模型等超大規模企業會使用,首先ASIC的資金以及人力投入巨大,但這兩點已經確定了客戶範圍,所有用量不大的中小型使用者都不可能使用ASIC。即便是購買現成的ASIC,我們以Anthropic向博通採購210億美元的TPU為例,這背後需要養一隻極為強大底層系統工程師團隊不斷的進行深度遷移以及適配。單這一項開支,就足以說明這並非普通企業所能承受的,當然目前GPU高昂的價格,讓市場更願意採用各種降本方案,可即便是購買現成ASIC的模式,大概也就能拓展到Anthropic這體量的大模型企業,很難再往下拓展。系統級創新與功耗牆:功耗即成本,散熱即極限: AI叢集的功耗已從幾十千瓦邁向兆瓦級,未來晶片功耗將飆升至數千瓦。風冷已到極限,液冷(包括冷板、浸沒式)成為標配。這不僅關乎電費,更決定了資料中心的物理設計和最大叢集規模。ASIC的能效優勢: 專用電路在執行特定任務時,能效通常遠高於通用GPU。這意味著在相同的供電和散熱預算下,可以部署更多ASIC算力單元。互連與封裝創新: 戰爭遠不止於單顆晶片。CPO共封裝光學是突破“功耗牆”和“互連牆”的關鍵,CPO展示了系統級互連的競爭。系統架構創新,如華為的384顆NPU互連的CloudMatrix 384,來挑戰輝達NVLink全互連系統的思路。CoWoS只是起點,其上的互連網路(NVLink, CXL, UCIe)、光引擎(CPO)的競爭同樣激烈,而且每一個技術領先都有決定性的作用,目前輝達在每一個維度上的表現都處於行業領先地位。第五章:GPU的技術反擊與生態擴張:2026年開年CES,黃仁勳與蘇姿丰的演講,清晰地勾勒出GPU陣營未來的技術路線圖和反擊策略,特別是對「物理AI」這一新戰場的定義,將深刻影響GPU與ASIC的競爭格局。輝達在CES宣告的戰略意圖:1.下一代「Rubin」架構正式亮相:基於台積電N3P製程,並將interpose面積放大1.4~1.6倍,首次實現整合超過3000億個電晶體的單一GPU,電晶體總數達3360億,較上一代電晶體數量提升1.6倍。並搭載下一代 HBM4 記憶體,單GPU容量直奔 288GB 甚至更高,儲存頻寬突破 22TB/s,較上一代Blackwell提升2.8倍,可見HBM4相對於HBM3e,在介面頻寬以及logic base die的提升可謂相當驚人。互連技術 NVLink 6.0 將提供超過 3.6TB/s 的GPU間直連頻寬,較上一代Blackwell提升1.8倍。推理性能比Blackwell高出5倍,訓練的性能高出3.5倍。Rubin不僅是性能的躍升,更是輝達鞏固其在訓練和複雜推理市場絕對領導地位的利器。2. 物理AI的ChatGPT時刻 :這是黃仁勳演講中最具震撼力的宣言。他認為,AI的下一個前沿是理解和模擬物理世界,應用於機器人、自動駕駛、數字孿生、科學發現(如氣候模擬、藥物研發)等領域。這些應用需要處理海量、多模態的感測器資料,進行複雜的物理模擬和即時決策,工作負載極度複雜、演算法迭代快速。為何老黃會這樣說,因為「物理AI」恰恰是通用GPU的絕對主場。定製化ASIC在處理固定、已知的模型推理時效率極高,但面對物理AI所需的持續學習、多工處理、快速演算法適配等場景,其架構僵化的劣勢將被放大。GPU憑藉其無與倫比的可程式設計性和龐大的CUDA生態,能夠靈活適應從計算流體力學到機器人控制等各種新興物理AI任務。因此,「物理AI的ChatGPT時刻」極大地擴展了GPU的應用邊界和市場總量,為其增長提供了全新的可開發疆域,這是ASIC現有技術難以切入的賽道。3.收購Groq:對ASIC的「釜底抽薪」之舉。2025年底,輝達宣佈收購專注於低精度推理和極低延遲語音模型的初創公司Groq。這筆收購遠不止是技術補充,而是對ASIC陣營的戰略性反擊。Groq的技術核心在於其LPU(語言處理單元)架構,在特定推理任務(如大語言模型對話)上能實現遠超GPU和傳統ASIC的能效和速度。輝達通過收購Groq,直接獲得了在ASIC最具優勢的「高能效推理」領域的尖端技術和產品。這使得輝達能夠以「內部ASIC」的方式,正面迎戰博通、Google等的定製化推理晶片。這不僅是產品線的補充,更是商業模式的轉變,從單純銷售通用GPU,轉變為提供「通用GPU + 特定領域最佳化加速器(如LPU)」的全端解決方案。這將有效遏制ASIC在推理市場的侵蝕,並可能奪回推理市場市佔率的重要武器。此舉加劇了AI加速器市場的融合與競爭。未來的界限不再是簡單的GPU對ASIC,而是「全端生態公司」與「專項設計公司」的對決。輝達正在利用其資本和生態優勢,將潛在的顛覆性技術收編入自身體系,戰場的主導權還是掌握在輝達手上。AMD則在CES公佈MI400系列的細節,正式發佈基於3nm增強版製程的 「AMD Instinct MI400」 加速器。核心參數瞄準超越輝達當前旗艦,宣稱在關鍵AI訓練和推理工作負載上,實現相比MI300系列100%的性能提升,並強調其能效比優勢。AMD持續推廣其開放式軟體棧ROCm,並通過與微軟Azure、Oracle Cloud等雲服務商的深度合作,以更開放且更具性價比的方案爭奪輝達之外的市場份額。蘇姿丰強調,未來的AI計算將是多元化的,AMD將為客戶提供「第二選擇」。總而言之,2026年的GPU陣營,並非消極防守。輝達通過定義「物理AI」新戰場、收購Grop補強推理短板,正在從技術和生態兩方面建構更深的護城河。AMD則堅定地走開放與性價比路線,蠶食市場。GPU的增長故事,正從單純的「大模型訓練」擴展到更廣闊的「物理世界智能化」,這為其對抗ASIC的專用化攻勢提供了戰略縱深。第六章:超越產能 - 生態、功耗與終局之戰CoWoS產能決定了「彈藥」數量,但戰爭的勝負還取決於「彈藥」的效率、協同和最終產生的價值。1. 生態系統的終極壁壘:輝達的CUDA生態依然是其最堅固的堡壘。數百萬開發者、龐大的軟體庫、從訓練到部署的全端工具鏈,構成了極高的遷移成本。儘管Google的TensorFlow、PyTorch等框架也在努力實現對不同硬體後端的支援,但在易用性、性能和社區支援上,仍與CUDA有差距。ASIC陣營的優勢在於『垂直整合』,Google可以為TPU深度最佳化TensorFlow,Meta可以為MTIA定製模型。但對於廣大的企業和開發者而言,輝達全面且最優的「交鑰匙」方案仍然是最佳選擇。收購Groq後,輝達有望將這一生態優勢進一步延伸到特定推理場景。2. 功耗牆與成本牆:隨著單晶片功耗突破千瓦級,資料中心的供電和散熱成本已成為不可忽視的因素。ASIC憑藉其專用架構,在能效比(Performance per Watt)上通常有顯著優勢。這也是雲巨頭在規模化部署推理服務時傾向採用自研ASIC的核心經濟動因。輝達需要通過製程與封裝技術的進步、架構創新(如稀疏計算、低精度推理)以及系統級最佳化(如液冷、CPO共封裝光學)來對抗ASIC的能效優勢。Rubin架構和收購Groq,正是其在性能和能效兩端同時發力的體現。3. 未來的融合與分野:長遠來看,GPU與ASIC的界限會進一步模糊。輝達可能會推出更多「可配置」或「領域專用」的加速器(類似收購Groq後的產品線)。而ASIC設計公司(如博通)也可能會為不斷強化ASIC的性能,並給客戶提供更具靈活性的平台化方案。未來的競爭,將是「高度最佳化的通用平台」與「深度定製但具有一定可程式設計性的專用平台」之間的競爭。CoWoS產能依然是基礎,但在此之上,軟體生態、能效表現、總擁有成本(TCO)和對新興應用的適應能力,將成為決勝的關鍵。2026,對峙與滲透的拐點綜上所述,基於對CoWoS產能的沙盤推演、對2025年預測的覆盤以及對最新技術動向的分析,我們對2026年GPU與ASIC的對決格局得出以下結論:1. CoWoS分配格局固化,輝達主導地位難撼:2026年,輝達仍將消耗台積電過半的CoWoS先進產能,這確保了其在高端訓練和複雜推理市場的供給優勢,並在ASIC固守的推理市場不斷的嘗試進攻。ASIC陣營份額依舊維持快速增長,主要來自CSP掌握的大量推理算力的增量和生力軍頭部大模型企業的加入,短期內依然無法動搖輝達的根基,但卻能在固守方陣內不斷壯大與繁榮。2. ASIC在推理市場不斷壯大,實現規模化突破,但GPU開闢「物理AI」新戰線:ASIC憑藉成本和能效優勢,將在雲巨頭的大規模、固定模式推理場景中確立主流地位,並開始向Open AI以及Anthropic等頭部大模型公司滲透。然而,輝達通過定義「物理AI」這一全新、複雜且快速演進的賽道,為GPU找到了下一個爆發性增長點,有效避險了ASIC在傳統推理市場的衝擊。3.競爭從「硬體對抗」升級為「生態與系統級對抗」:輝達收購Groq標誌著戰術的轉變,從單純防守轉向「以彼之道,還施彼身」,用定製化能力反擊定製化。未來的競爭將是全端能力的競爭:從晶片、互連、封裝、系統到軟體和開發者生態。擁有更完整生態和更強系統整合能力的玩家將贏得最終優勢。結 論以2026年台積電約115萬片CoWoS產能為沙盤推演,我們測算出:ASIC陣營(37.5萬片)達到GPGPU陣營(75萬片)剛好50%的水平,這個資料2024年為52%,2025年為45%,2026年為50%。也就是說2026年ASIC對比GPGPU的CoWoS佔比提高了5%。這再次印證,筆者2025年原文所稱,2024-2027年為ASIC超級增長周期,其中2026-2027年將是周期高峰,大家可以再次翻閱2025年全球半導體展望中原文的模型。面對ASIC基數較低的超高增長,GPGPU在基數龐大的情況下,CoWoS佔比也沒有大幅度的下滑,比筆者一年前預測的更有韌性,這除了輝達GPGPU持續熱銷以外,還有GPGPU更願意採用最新技術有較大關係,比如2026年的Rubin率先採用4~5.5x reticle的interposer,2027年很快推進到9~9.5x,這個變數將直接翻倍。而ASIC的絕對性能沒有GPGPU那般的極致要求,2026年ASIC的Interposer在2.9~3x ,在2027年也還是停留在3.3x的水平。GPGPU是面積快速放大但出貨數量微幅增長,ASIC是出貨數量快速放大而面積微幅增長,最終勝敗就表現就在CoWoS預定資料,ASIC在出貨數量增幅遠高GPGU 15%以上,但在CoWoS產能的佔比則是從45%,提升5個點到50%。根據筆者模型,2027年ASIC將來到GPGPU的58%,ASIC佔比持續增加,意味著2026-2027筆者早早預測的ASIC迎來超級增長周期,增長率超過GPGPU。至於企業營收,那自然與CoWoS出貨量成正比,晶片性能與面積(電晶體總數)成正比,同製程雙顆的dual-die性能必然是高於single-die的晶片,文前有比較過性能與售價成同比例漲跌(TPUv7與B300),也就是性能高兩倍,單價大概也會高兩倍。這裡面多少nm製程與多大的面積都對性能(電晶體數量)有決定性的影響。ASIC的代表GoogleTPU,除了CSP自研自用以外,開始向外提供,這標誌著ASIC從正式邁入“規模化部署”以不斷蠶食GPGPU領地。然而,在商業價值(營收/利潤)和算力總量上,輝達憑藉其極高的單價和通用算力優勢,在2026年及之後一段時間內,仍將保持王者地位。輝達的帝國,將繼續統治需要靈活性、創新性和全端解決方案的廣闊疆域(訓練、新興應用、中小企業、科研)。ASIC的諸侯國,將在超大規模資料中心內部,在推理、推薦、搜尋等成熟且量大的固定戰場上,建立起基於極致TCO和能效比的自治領地。未來,我們更可能看到的是一個 “GPU+ASIC”的混合算力世界:雲巨頭用輝達GPU進行前沿模型研發和訓練,同時用自研ASIC進行成本敏感的大規模推理部署。戰爭的號角早已吹響,2026年的CoWoS產能分配表,就是這場世紀算力大戰最真實、最殘酷的兵力部署圖。ASIC群雄時代結束,Google/博通已成為共主,圍獵與反圍獵已經開始,而輝達帝國依然強大。這場好戲,還在後頭!而更接近未來事實的是,這場戰爭並非一場你死我活的殲滅戰,而是一場持久且複雜的“劃界戰爭”。隨著戰爭的推進,各方勢力意圖提高競爭力去打敗對手的同時,不斷提高的技術能力,導致技術外溢,其產生的結果不一定是打敗對手,而是如哥倫布一般,隨著航海技術的提升,發現更為廣闊的新天地。AI世界還有太多未知的疆域需要更高的技術才能去探索與挖掘。未來GPGPU以及ASIC可能都是贏家。2026-2027年ASIC的增幅將繼續高於GPGPU,2028年融合了LPU的Feynman有沒有可能帶領輝達在ASIC堅守的領地攻城拔寨,目前言之過早,未來誰主沉浮猶未可知?而GPGPU以及ASIC在整體算力需求不斷上漲的雙贏背後,卻始終站著一位終極大BOSS,更大的幕後贏家不動聲色冷眼旁觀。台積電作為這場戰爭共同且唯一“軍火商”,坐擁CoWoS產能的絕對定價權,將是無論那一方獲勝都不可或缺且毫無疑問的終極大贏家。(梓豪談芯)
阿里雲 2026 年目標:拿下中國 AI 雲市場增量的 80%
“AI Infra 就是雲端運算本身。”100 多年前,電力首次進入工廠,許多工廠主做了一個看似合理的決定:保留複雜的蒸汽機傳動軸和皮帶系統,只用電動機替換蒸汽機。結果令他們大失所望:動力更強了,生產效率幾乎沒有同步提升。接下來的 20 年,他們才逐步意識到,電力帶來的真正變革不只是簡單替代動力源,而是把它嵌入到不同的業務單元中,用不同類型的電機驅動鑽頭、傳送帶等,生產力才迎來爆發。這是阿里雲希望給企業深入應用 AI 提供的能力。他們認為,AI 時代客戶要的不只是單一的模型或雲的能力,而是更低成本使用更強模型時,有更靈活的綜合體驗。AI 雲應該像當年的電力真正提高工業生產力時那樣,提供多層次的服務,全面嵌入到企業的業務流程中。這一判斷有業務資料支撐:在阿里雲上呼叫大模型 API ( MaaS 服務)的客戶中,有七成也同時在使用其 GPU 算力服務。阿里雲智能集團資深副總裁、公共雲事業部總裁劉偉光說,第一批深度使用 AI 的客戶,會把場景分成不同檔次:不只是簡單呼叫大模型 API,還會用內部資料精調或者後訓練基礎模型,或者自己從頭訓練一個模型。在劉偉光看來,AI 給雲端運算行業帶來的變化才剛剛開始,整個雲端運算體系架構都要為 AI 重構,“MaaS 增長潛力很大,但關鍵是打贏 AI 雲新增的全量市場”,要建立軟硬一體的 AI 雲全端能力,推動企業用更低成本呼叫更強的 AI 模型,解決不同層次、不同場景問題,“這才是競爭中的勝負手”。146 個 行業客戶深度調研:Token 質量比數量重要“如果今天所有的 AI 應用每天只能免費用 100 次,你會用它做什麼?”這是劉偉光 2025 年走訪了 146 個客戶後反覆思考的問題。 他的結論非常直接:沒有人會把它浪費在寫段子或閒聊上,一定會做最重要的東西——對工作最有幫助的決策、對家庭生活最關鍵的建議。在他看來,這是企業使用大模型與個人使用者的本質區別。個人使用者可能為了娛樂消耗 Token,但追求效率的企業,每一次 Token 的交換都有成本。他們不僅要為 Token 付費,業務線上的人力、時間也是投入。很難想像一個年輕的工程師面對裝置故障時,還需要多輪對話才能得到解決方案,需要更快的響應、能讓他迅速解決問題的指南。同樣,基金公司的交易員用 AI 輔助捕捉交易訊號時,也很難容忍模型動輒陷入沉思,然後給出長篇大論,再問一句 “是否需要我幫你整理得更完善”。傳統行業的企業正在用不同的方式,儘可能避開 AI 的短板、提升效率。比如汽車診斷公司,用 30 年積累的產業檢測報告做出來遠端幫助汽修的大模型,才用到診斷報告中;基金公司會用沉澱 20 多年的資料和交易的行為跟模型結合,把各種形式的非結構化資料(如文字、語音、圖像等)轉化為可供投資參考的標準化資訊。企業也希望充分挖掘 AI 的潛力。中國兩家農牧業巨頭公司都在用千問做相同的事情,他們不僅嘗試用 VL(視覺大模型)識別豬的數量,還用它來識別豬的異常行為,檢測豬的健康與活性,或者是開發獸醫大模型解決專業人才短缺問題。還有頭部照明公司接入千問後,不再侷限簡單的開關燈或者調控色溫,還用 AI 理解使用者模糊的指令,用更流暢的對話打造更聰明的端側語言模型,讓人與光的互動更自然。而企業一旦找到合適的方式把 AI 嵌入業務流程中,就會是嚴肅和連貫的。線上招聘行業中的每一家公司,幾乎都在引入 AI 簡歷篩選、智能化面試、自動生成面試記錄。當招聘專員習慣用 AI 輔助工作後,就會形成新的工作流,每天都會使用,不會受到個人喜好影響。“個人消費者使用 AI 的情況會有波動,但企業級市場只會不斷增長。” 劉偉光說,而且使用的廣度和深度會不斷加強,很多場景還沒有解鎖,“如果 AI 能把車損定損給改了,那絕對是一種 ‘革命’。”2024 年雲棲大會上,阿里巴巴集團 CEO 吳泳銘在演講中稱,生成式 AI 最大的想像力,絕不是在手機螢幕上做一兩個新的超級 App,而是接管數字世界,改變物理世界。過去一年中國 AI 企業市場的發展證實了他的判斷。AI 已不只在手機裡面作為應用程式,而是出現在更多的載體中,包括眼鏡、耳機、學習機、玩具、健身器材、汽車、機器人等全品類硬體裝置中。這種不同層次、不同場景的需求,當下無法用單一的模型 API 服務滿足。在美國市場,原本已經給企業提供工具的 SaaS 行業,大模型呼叫量規模持續上漲,提供了一種相對標準化的方案。而在 SaaS 行業未能發展起來的中國市場,傳統行業偏向定製服務解決特定場景問題,往往需要後訓練或者微調大模型。雲端運算公司提供這樣的服務,在一定程度上為企業提供了類似 SaaS 的服務。“現在所有 MaaS 服務加一起,在中國雲端運算市場、甚至 AI 雲市場佔比都不高。MaaS 的空間當然非常大,但不是今天。” 劉偉光說,只統計公有雲市場大模型 API 的呼叫量,無法代表 AI 雲全貌。真實的 Token 消耗量,要把 MaaS 平台 API 呼叫、公共雲 GPU 推理叢集產生 Token、私有化模型部署產生 Token,裝置端模型產生的 Token 等全部統計在內。“冰川下的 Token 消耗非常大,卻無法統計。而且企業用 AI 還處於轉型早期, 90% 以上的企業還沒有真正行動起來,未來肯定是百倍的增長。”但可以觀察的是,只要基礎模型的性能持續提升,雲廠商深入到技術堆疊的每一層提供服務,改進推理能力、節省成本,就可以帶動更多行業的更多客戶用 AI 解決問題。做 AI 時代的基礎設施,承接不同層次的需求輝達 CEO 黃仁勳曾拋出一個著名的論斷:GPU 叢集就是 “Token 工廠”,輸入的是能量,輸出的是 Token。這是典型的晶片公司視角,把 AI 生產過程簡化為了物理層面的能量轉換。對於雲廠商來說,如果只是從事算力轉售業務,現在很難提供可用的 AI 服務。他們必須用系統工程能力,儘可能提升現有算力效率,針對不同行業、不同層次的企業提供模型服務。這也是阿里雲的選擇:做 AI 時代的基礎設施。用劉偉光的比喻來說,阿里雲正在搭建的是一套現代化的自來水廠,而不只是水(大模型 API)的搬運工,還要維護水源地(開源模型)、搭建淨化車間(資料清洗與模型訓練平台)、鋪設輸水管網(高性能網路),以及處理污水(安全治理)等。在這套體系中,阿里雲能夠提供當前不同類型的 “用水” 需求:MaaS(直供水服務): 就像家庭擰開水龍頭就能用水,企業或者開發者不用關心底層複雜的管網,直接呼叫 API,開箱即用,按需付費。這是最輕量的接入方式。PaaS(工業用水服務): 類似於工廠需要特定的水源,企業可以獲得基礎模型,直接用 “開源模型” 在阿里雲平台上微調或者自己後訓練,然後部署到合適的環境中。IaaS(水處理基礎設施): 像是將經過初步淨化、萃取後的水源,輸送給飲料廠或啤酒廠,企業可以用阿里雲提供的算力和基礎軟體,用來訓練獨家配方的 “飲料”,比如自動駕駛模型、各種垂類大模型等等。阿里雲已經有了初步成績。根據市場調研機構 Omdia 資料,2025 年上半年,中國 AI 雲整體市場(AI IaaS+PaaS+MaaS)規模達 223 億元,阿里雲佔比 35.8 %,超過第二到第四名總和。搭建這套全面的基礎設施,不僅需要高昂的投入,還要有戰略決心。2025 年 2 月,阿里宣佈未來三年將投入超過 3800 億元,用於建設雲和 AI 硬體基礎設施,總額超過去十年總和。僅僅是 2025 年前三個季度,阿里用於建設 AI 資料中心等的資本開支就兌現了 950 億元。在基礎模型層面,阿里持續投入訓練不同尺寸、不同類型、不同模態的基礎模型,並投入資源把它們做到第一梯隊。比如視覺生成模型萬相 2.6 性能媲美 OpenAI 的 Sora 2;Qwen-Image-Layered 是業界首個能實現圖像分層精準編輯的模型;Qwen3-Max 的性位居全球模型性能榜單前列。阿里選擇把這些模型開源,提供給各行各業的團隊或企業使用,其中 Qwen 的衍生模型數量超過 18 萬,規模位居全球第一。作為基礎設施,阿里雲上長出來的不只有阿里自研的模型,月之暗面也在阿里雲上訓練 Kimi 系列模型,以及許多智駕團隊也用阿里雲訓練模型。與此同時,阿里雲也提供了一整套體系能力,支撐 AI 時代新誕生的產品迅速發展,除了阿里體系的千問 App,還有螞蟻集團的靈光、阿福,以及月之暗面的 Kimi 應用、MiniMax 的海螺等。儘管當前各行各業應用 AI 還處於早期階段,但定位基礎設施的阿里雲,也在探索更新的產品形態,為接下來的 AI 應用爆發做好準備。最典型的例子就是阿里正在開發千問 App 的 Agent 版本。它不只侷限於使用者提問,還能夠呼叫淘寶比價、使用高德導航,甚至阿里所有的服務都有可能成為它的外掛。最終這些在阿里內部業務和行業頭部公司驗證過的能力,都會沉澱在阿里雲中,成為對外提供服務的產品。讓客戶具備長期、可持續地產生和使用智能的能力,而不是把客戶鎖定在某一種計量方式裡。AI 加速推動客戶上雲AI 正在給雲廠商帶來了新的增長動力。無論是 AWS、微軟 Azure、Google Cloud 還是阿里雲,規模都在迅速增長。但提供動力的不只是 GPU 用量或者大模型 API 的呼叫。阿里雲團隊觀察到, 在阿里雲上使用這些服務的客戶群體,他們在計算、儲存、網路以及巨量資料等產品上用量的增長,高於整個大盤的增長。“AI 會加速推動客戶上雲。” 劉偉光說,客戶為了用好 AI,不得不將資料全面上雲。企業想要讓一個 Agent 產生價值,基礎模型只是一個方面,高品質的業務資料同樣重要。微軟 Azure 的增長邏輯類似,出售 OpenAI 的基礎模型的 API 服務只是其中一個方面,更充足的動力來自企業為了在業務中應用更強的模型,把分散在本地與各系統中的內容與資料,遷移到了更方便模型呼叫的雲產品中。為高並行 Web/HTTP 請求設計的傳統雲端運算架構,難以高效支撐這樣的需求。甲骨文重新獲得增長動力,很大一部分因素就來自於部署 RDMA(遠端直接記憶體訪問)高性能網路和自治資料庫,適應了大模型訓練、推理的需求。這直接改變了公共雲端運算服務在中國市場的前景。此前多年,中國雲端運算公司並不像 AWS 等海外雲平台那樣,公共雲客戶遍佈各行各業,囊括美國證券交易所、大型石油公司、銀行業巨頭等,做大規模就能擁有利潤。在中國雲端運算市場,平台依賴的電力、頻寬等基礎設施成本並不受企業自身控制;部分傳統企業出於資料安全、合規或歷史慣性等原因,仍傾向於自建資料中心。“阿里雲的基礎雲架構,為 AI 重做了一遍。” 劉偉光說,AI Infra 並不是一個特定的垂直方向,就是雲端運算本身,不僅需要規模化、安全和穩定,更需要雲上的跨服務流轉能力,比如新型的向量資料庫、高效的巨量資料清洗平台、靈活的開發框架,滿足企業不同層次、不同場景使用  AI  的配套軟體體系。在阿里雲看來, AI 時代雲端運算平台的競爭力在於 “軟硬一體化” 的體系能力:硬體不只是晶片,而是圍繞 GPU 算力建構的整個高性能底層架構;軟體則是對模型的理解、最佳化和調度能力。“阿里雲的目標是拿下 2026 年中國 AI 雲市場增量的 80%。” 劉偉光說,但是下一年增量的 10% 都會大於上一年的全量。所以過去取得了什麼成績並不重要,變化才剛剛開始。 (晚點LatePost)
美眾議院通過法案:未經美國許可,遠端使用GPU即是違法!
美國眾議院通過法案,旨在堵住現行美國出口管制體系中的關鍵漏洞,即外國對手實體通過雲端運算服務,從境外遠端呼叫受控的美國高端技術產品,尤其是AI晶片。2026 年 1 月 12 日,美國眾議院通過了《遠端訪問安全法案(Remote Access Security Act, H.R.2683),這是一項兩黨支援、旨在現代化美國出口管制體系的立法。這部得到兩黨支援的法案以369票對22票的壓倒多數獲得通過。法案對現有的《出口管制改革法案》(The Export Control Reform Act)進行更新,擴大美國出口管控制度的範圍。該法案擬修訂2018 年《出口管制改革法案》,將遠端訪問受控技術納入監管範圍,以應對雲端運算時代出現的技術監管漏洞。傳統美國出口管製法律主要面對的是實體出口和技術轉讓,例如晶片、裝置或技術檔案的跨境物理轉移。但隨著雲端運算、大規模遠端算力服務和全球分佈式資料中心的興起,許多受控技術並不需要實際出口到對手國家,只需通過遠端訪問便可以被外國實體呼叫。這種數位化訪問方式在法律框架中缺乏明確約束,被視為一大監管漏洞。該法案的核心,就是將這一之前未被納入的“遠端訪問”(remote access)行為正式納入美國出口管制體系之內。根據法案內容,“遠端訪問”被定義為:外國主體通過網路連線(如網際網路或雲端運算服務)在物理位置之外訪問受美國出口管制的技術或裝置。法案將這一行為納入《出口管制改革法案》的適用範圍,使得商務部及其下屬的工業與安全域(BIS)有權對遠端訪問行為進行許可、限制甚至處罰。被管控的遠端存取權包括:(1)訓練人工智慧模型,該模型除其他功能外,可以大幅降低專家或非專家設計或使用大規模殺傷性武器的門檻,或通過自動化方式發現和利用漏洞並實施網路攻擊;(2)訪問可能幫助網路攻擊或構成其他國家安全風險的量子電腦;(3)獲取駭客工具。這一修訂不僅明確了概念,還實質上將監管權從傳統出口擴展到數字服務層面,使包括雲端AI 晶片呼叫、遠端算力訓練等活動必須遵循出口管制規則。目前該法案已在眾議院獲得通過,但仍需送交參議院審議,並最終由總統簽署成為法律。立法生效後,商務部將根據新規定對遠端訪問進行監管,並根據風險情況制定具體許可細則。一旦正式成為法律,該法案將對多個行業主體產生深遠影響。包括大型雲服務商、半導體提供商以及AI 研發機構都需重新評估其全球服務策略,尤其是在遠端算力調度、跨境雲資源呼叫等方面的合規義務。同時,這也意味著美國出口管制正從“物理實體約束”向“數字行為監管”轉型,涉及的資料、伺服器、服務介面等都可能成為監管對象。舉例:1)外國公司通過雲算力使用美國受管制技術如果一家外國公司,通過雲服務在海外或國內遠端使用美國的高端AI 晶片、先進算力或其他受出口管制的技術,比如租用雲 GPU 來訓練大模型,而這些晶片或算力本身受美國出口管制,又沒有獲得美國政府的許可,那麼即便晶片沒有被“運出美國”,這種遠端使用行為本身也可能違法。新法案正是為堵住這種“晶片不出境、能力被用走”的情況而設立的。2)美國雲廠商向外國客戶提供受管制算力如果美國的雲服務商明知客戶是外國公司或來自敏感國家,仍然向其提供可遠端使用的高端AI 晶片、算力叢集或受管制技術介面,並且沒有履行出口管制許可義務,那麼不僅使用算力的外國客戶可能違法,提供存取權的雲廠商本身也可能違法。在新規則下,“提供遠端訪問能力”本身就可能被視為受管制行為。3)晶片在美國,但外國人遠端操作即使晶片、伺服器、裝置全部放在美國本土的資料中心,只要是外國個人或外國公司在美國境外,通過網路遠端登錄、調度、運行這些受管制技術,同樣可能構成違法。是否違法不再取決於“裝置在那裡”,而取決於“誰在遠端用、用的是什麼”。4)通過海外子公司或殼公司繞監管如果一家外國公司通過海外子公司、關聯公司或第三國殼公司,名義上由“非敏感地區實體”租用雲算力,但實質上仍然由原來的外國母公司或人員使用美國受管制技術,這種做法在新法案下同樣可能被認定為違法規避行為。換殼、換地區,並不能天然免責。總結只要是外國人或外國公司,通過雲、網路、遠端方式,使用了美國受出口管制的技術或算力,而沒有獲得許可,無論晶片在那、伺服器在那,都可能落入違法範圍。這正是《遠端訪問安全法案》要明確和收緊的核心邊界。 (半導體產業縱橫)