#寒武紀
科創板AI晶片“六姐妹”業績集體起跳
寒武紀、海光資訊、摩爾線程、沐曦股份已悉數披露2026年一季度財報,三家企業實現盈利,寒武紀、摩爾線程營收同比增速均超150%。AI大模型迭代、智算中心規模化建設與邊緣智能場景全面滲透,持續推高國內AI算力市場需求,國產算力晶片企業迎來業績兌現關鍵期。截至今年4月30日,寒武紀、海光資訊、摩爾線程、沐曦股份已悉數披露2026年一季度財報,壁仞科技、天數智芯兩家港股上市企業暫未披露一季報資料。整體來看,行業呈現頭部企業盈利穩固、二線廠商減虧甚至扭虧提速、梯隊化成長格局清晰的特徵。其中,三家企業實現盈利,寒武紀、摩爾線程營收同比增速均超150%,海光資訊一季度營收突破40億元,行業高景氣度持續驗證。國產AI算力晶片正從技術突破向規模化商業落地跨越,國產化處理程序持續深化。截至2026年4月30日收盤,國產六大AI算力晶片企業中,A股頭部企業體量領先:寒武紀市值7168.48億元、海光資訊市值6885.85億元,位居行業前兩位;摩爾線程、沐曦股份緊隨其後,最新市值分別為3363.99億元、3032.88億元;港股上市的天數智芯、壁仞科技市值相對偏小,折算人民幣市值約為1037.50億元、999.13億元。海光資訊、寒武紀業績均現新突破作為國產算力晶片雙龍頭,海光資訊與寒武紀兩家公司一季度業績穩居第一梯隊,盈利質量與經營效率同步提升。寒武紀一季度業績實現跨越式增長。公告顯示,該公司報告期內營收達28.85億元,同比大幅增長159.56%;歸母淨利潤10.13億元,同比增長185.04%;扣非淨利潤9.34億元,同比增幅達238.56%。尤為關鍵的是,寒武紀一季度經營現金流轉正至8.34億元,同比改善超22億元,為其上市以來首次季度現金流為正,標誌著商業化落地與回款能力實現突破。寒武紀表示,公司產品持續在營運商、金融、網際網路等重點行業場景落地應用,其軟體平台的易用性、大規模商業場景部署的穩定性及人工智慧應用場景的普適性,均通過客戶嚴苛環境驗證。目前,其產品已規模應用於大模型演算法企業、伺服器廠商、人工智慧應用公司,輻射雲端運算、能源、教育、金融、電信、醫療、網際網路等領域的智能化升級處理程序。財報資料顯示,寒武紀今年一季度訂單亦獲得市場需求有效支撐。寒武紀一季度末的合同負債金額為3.96億元,較一季度初增長超3億元。此外,寒武紀一季度末的應收帳款、預付款項均較2025年末大幅增長,均顯示出公司有序發展的積極訊號。海光資訊方面依然延續穩健高增態勢,一季度營收達40.34億元,同比增長68.06%;歸母淨利潤6.87億元,同比增長35.82%;扣非淨利潤5.97億元,同比增長34.99%。同期,其研發投入12.11 億元,同比增長26.8%,高強度投入支撐技術持續迭代。海光資訊堅持“CPU+DCU”雙輪驅動戰略,DCU產品深算三號已與DeepSeek、Qwen3等365款主流大模型完成適配,覆蓋全球99%非閉源大模型,賦能從十億級端側推理到千億級模型訓練的全場景需求。公司下一代深算四號亦積極推進研發,目前進展順利。在生態適配方面,海光資訊集聚了CPU和DCU兩大生態優勢,依託光合組織凝聚了超過6000家生態合作夥伴,持續加碼面向夥伴的“星海計畫”、啟動基礎軟體生態“強芯固基”計畫等專項,從核心部件、整機系統到應用軟體,全面打通生態鏈路,加速軟硬體深度協同。海光資訊總經理沙超群在日前舉行的業績會上表示,未來三到五年,智算中心競爭將從比拚建設規模,逐步轉向能效比、叢集利用率與全生命周期綜合成本等方面的比較。沙超群表示,海光DCU作為國產高端AI加速算力產品,是國內少數可同時支撐全精度、半精度AI訓練的GPGPU晶片。隨著AI Agent及AI推理需求增長,任務調度、邏輯推理、多業務協同等場景對通用計算需求顯著提升,計算任務趨向高並行、鏈式放大的任務型負載,天然拉高對CPU並行度與記憶體承載的需求。“TrendForce預期CPU與GPU配比將從傳統比例向更高水平提升,公司CPU有望順勢提升在商業市場的滲透率”。摩爾線程、沐曦股份持續完善產品矩陣摩爾線程、沐曦股份作為GPU賽道核心力量,一季度商業化處理程序加速,分別實現扭虧為盈與大幅減虧,成長動能充沛。摩爾線程成為首家實現季度盈利的國產GPU上市公司。今年一季度,該公司實現營收7.38億元,同比增長155.35%;歸母淨利潤2936萬元,同比扭虧,去年同期虧損1.12億元;扣非淨利潤-0.54億元,虧損縮小60.1%。關於業績增長,摩爾線程表示,AI爆發使得市場對於GPU的需求迅速增長。2025年,各家主流廠商大模型快速迭代,AI應用百花齊放,具身智能、自動駕駛等新興前沿行業飛速發展,使得以GPU為代表的AI晶片市場需求迅速提升。一方面,受制於美國對於高端GPU晶片出口政策,國產AI晶片逐步實現對於國際GPU產品的替代,迎來歷史性發展機遇;另一方面,公司全功能GPU具有通用性強、支援全計算精度等特點,對於當前多模態、融合計算場景具有較好的支撐性。研發方面,摩爾線程一季度投入3.69億元,同比增長50%,持續加碼產品迭代。今年一季度,摩爾線程斬獲6.6億元智算叢集大單,千卡/萬卡叢集實現規模化落地,“誇娥”系列晶片在智算中心、雲廠商批次部署並上線服務,新一代“花港”架構推進十萬卡叢集建設,消費級與資料中心GPU雙線發力。關於未來的產品開發計畫,摩爾線程董事長、總經理張建中在日前舉行的業績會上表示,未來將基於“花港”架構推出高性能AI訓推一體“華山”晶片與專攻高性能圖形渲染的“廬山”晶片。“華山”專注AI訓推一體與超大規模智能計算。整合新一代非同步程式設計與全精度張量計算單元,支援從FP4至FP64的全精度計算,為萬卡級及以上大規模智算叢集提供穩定高效的算力支撐,是建構下一代“AI工廠”的堅實底座。“廬山”專攻高性能圖形渲染,性能實現全面跨越,包括幾何處理性能提升16倍,AI計算性能提升64倍,光線追蹤性能提升50倍,並顯著增強紋理填充、原子訪存能力及視訊記憶體容量。沐曦股份今年一季度營收高增、虧損大幅縮小。報告期內,其實現營收5.62億元,同比增長75.37%;歸母淨利潤-0.99億元,同比減虧57.49%;研發投入2.53億元,主要聚焦產品矩陣完善。截至目前,沐曦股份建構了曦雲C、曦思N、曦彩G三條核心產品線,分別專注訓練、推理和圖形應用,今年一季度推出曦索X系列科學智能晶片,切入氣候模擬、流體力學、分子模擬等高端場景,客戶拓展與產品出貨量有望同步放量。關於公司2026年發展規劃,沐曦股份在業績會上表示,展望未來,AI晶片行業高速增長和國產替代加速將拓寬市場空間,公司產品具備良好的市場前景和廣闊的市場空間,營收增速預計保持高位,隨著公司持續進行成本最佳化及費用控制,毛利率和期間費用率將趨於穩定,新產品的放量銷售將持續為公司帶來業績貢獻。壁仞科技與天數智芯卡位高端算力 交付多個計算叢集項目壁仞科技與天數智芯尚未披露2026年一季度財報,但經營進展持續推進,聚焦高端算力賽道卡位。壁仞科技作為國產高端AI訓練晶片代表,2025年全年營收10.3億元,比上年增長207%;經調整年內虧損8.7億元,上年同期為虧損7.7億元。2025年,其毛利為5.57億元,同比增長210.8%,毛利率達53.8%,同比增長63基點(bps)。壁仞科技稱,公司成功交付多個大規模智算叢集項目,包括2048卡光互連光交換GPU超節點叢集和多個市場化的數千卡級智算叢集,客戶涵蓋國家級算力平台、電信營運商、商業AIDC、AI/大模型公司及企業客戶。天數智芯聚焦通用算力晶片賽道。2025年,該公司實現營收10.34億元,同比增長91.6%;毛利5.58億元,同比大增110.5%,毛利增速跑贏營收。同期,其研發與經營效率顯著改善,經調整淨虧損同比縮小32.1%。在具體業務方面,通用GPU訓推雙賽道均實現高速突破,成為其業績增長的核心支撐。2025年,天數智芯通用GPU業務收入9.23億元,同比增長149.6%,佔總營收比重達89.3%,業務聚焦度與成長性突出。截至2025年末,天數智芯累計服務超340家行業客戶,產品及解決方案落地超1000個項目,率先實現網際網路、AI大模型、科研、金融、醫療、教育、交通等核心領域廣泛覆蓋,客戶基礎持續擴大,規模化效應逐步顯現。值得注意的是,高強度研發投入仍是企業構築技術壁壘、穿越行業周期的核心抓手。今年一季度,已披露財報的四家A股算力晶片企業研發投入佔營收比重均維持高位。其中,海光資訊一季度研發投入8.6億元;摩爾線程、沐曦股份研發投入佔營收比重均超45%,持續加碼核心技術攻堅。行業普遍認為,AI算力晶片行業技術迭代快、研發壁壘高,唯有持續的研發投入,才能在高端賽道實現技術突破,建構生態壁壘。中原證券分析師唐月在今年4月發佈的研報中稱,2026年AI應用發展速度整體超預期,帶來了整體算力產業供應鏈的緊張。2026年來看,在海外晶片供給受限的大背景下,國內AI晶片也迎來了性能、產能的雙方面改善,有望持續受益於市場結構的變化,並最終改善國內算力的供給能力。 (科創板日報)
算力晶片,誰是盈利最強企業?
算力晶片是專門負責高強度、大規模、平行計算的積體電路,是AI大模型、雲端運算、超算、巨量資料、自動駕駛、科學計算等場景的“算力發動機”。有分析指出,各CSP廠商、算力晶片廠商和ICT廠商等不同主體陸續推出超節點樣品,隨著國產晶片開始量產,2026年或成為國產超節點放量元年。算力晶片產業鏈核心環節拆解主流晶片類型與定位CPU:伺服器/PC主控,邏輯控制、序列計算強GPU/GPGPU:大模型訓練、推理、超算最強FPGA:可重構、低延遲、適合邊緣/專用加速ASIC/NPU/TPU:演算法固化、高能效,推理/場景定製強製造+封測晶圓代工:把設計圖紙變成晶片封裝測試:切割、封裝、測試、整合;先進封裝對算力晶片性能關鍵關鍵配套:儲存+周邊高頻寬儲存:算力晶片“貼身高速記憶體”,瓶頸環節其他:電源管理、高速介面、PCB、連接器等算力晶片產業鏈企業盈利能力企業盈利能力通常表現為一定時期內企業收益數額的多少及其水平的高低。盈利能力的分析,就是對公司利潤率的深層次分析。本文為企業價值系列之【盈利能力】篇,共選取16家算力晶片產業鏈企業作為研究樣本,並以淨資產收益率、毛利率、淨利率等為評價指標。資料基於歷史,不代表未來趨勢;僅供靜態分析,不構成投資建議。第10 東芯股份產業細分:數字晶片設計盈利能力:淨資產收益率-6.22%,毛利率24.51%,淨利率-23.42%業績預測:本年度暫無機構做出業績預測主營產品:NAND為最主要收入來源,收入佔比65.20%,毛利率27.26%公司亮點:東芯股份投資的上海礪算堅持自研架構,產品可實現端、雲、邊的主流圖形渲染和AI加速,對標主流GPU架構與外部生態無縫相容。第9 復旦微電產業細分:數字晶片設計盈利能力:淨資產收益率3.88%,毛利率56.19%,淨利率5.06%業績預測:ROE最近三年連續下降至3.88%,最新預測均值12.62%主營產品:設計及銷售積體電路為最主要收入來源,收入佔比96.14%,毛利率57.63%公司亮點:復旦微電是國內FPGA領域技術較為領先的公司之一,已可提供千萬門級FPGA晶片、億門級FPGA晶片以及嵌入式可程式設計器件晶片(PSoC)共三個系列的產品。第8 沐曦股份產業細分:數字晶片設計盈利能力:淨資產收益率-9.61%,毛利率56.51%,淨利率-48.02%業績預測:ROE最近三年均為負,最新預測均值2.19%主營產品:GPU產品及配件為最主要收入來源,收入佔比99.19%,毛利率56.17%公司亮點:沐曦股份是國內少數真正實現千卡叢集大規模商業化應用的GPU供應商,並正在研發和推動萬卡叢集的落地。第7 芯原股份產業細分:數字晶片設計盈利能力:淨資產收益率-18.64%,毛利率34.19%,淨利率-16.74%業績預測:ROE最近三年均為負,最新預測均值4.45%主營產品:量產業務收入為最主要收入來源,收入佔比47.25%,毛利率18.14%公司亮點:芯原股份基於自身神經網路處理器IP可伸縮可擴展的特性,已發展了覆蓋從高性能雲端運算到低功耗邊緣計算的垂直解決方案。第6 紫光國微產業細分:數字晶片設計盈利能力:淨資產收益率11.10%,毛利率55.56%,淨利率23.37%業績預測:ROE最近三年波動在9%-24%,最新預測均值13.07%主營產品:特種積體電路為最主要收入來源,收入佔比52.26%,毛利率70.26%公司亮點:紫光國微主營業務是特種積體電路、智能安全晶片為兩大主業,可以為使用者提供ASIC/SOC設計開發服務及國產化系統晶片級解決方案。第5 兆易創新產業細分:數字晶片設計盈利能力:淨資產收益率9.30%,毛利率40.22%,淨利率18.23%業績預測:ROE最近三年連續上升至9.30%,最新預測均值16.51%主營產品:儲存晶片為最主要收入來源,收入佔比71.34%,毛利率42.84%公司亮點:對比其他核心產品,兆易創新GD32H7系列MCU性能大幅提升,能夠支援高級DSP、邊緣AI等高算力應用。第4 海光資訊產業細分:數字晶片設計盈利能力:淨資產收益率11.87%,毛利率57.83%,淨利率25.17%業績預測:ROE最近三年連續上升至11.87%,最新預測均值16.78%主營產品:高端處理器為最主要收入來源,收入佔比99.90%,毛利率57.78%公司亮點:海光資訊是國產算力底座核心玩家,靠“CPU+DCU雙芯”直接支撐通用算力、AI算力、資料中心算力需求。第3 瀾起科技產業細分:數字晶片設計盈利能力:淨資產收益率18.25%,毛利率62.23%,淨利率39.03%業績預測:ROE最近三年連續上升至18.25%,最新預測均值19.64%主營產品:互連類晶片為最主要收入來源,收入佔比94.18%,毛利率65.57%公司亮點:瀾起科技是AI算力基礎設施裡的高速互連/記憶體介面晶片龍頭,同時也有自研伺服器CPU產品線提供基礎算力。第2 佰維存儲產業細分:數字晶片設計盈利能力:淨資產收益率19.78%,毛利率21.44%,淨利率7.42%業績預測:ROE最近三年最高為19.78%,最新預測均值49.90%主營產品:儲存產品為最主要收入來源,收入佔比96.00%,毛利率21.20%公司亮點:佰維存儲給端側+雲端各類算力晶片,提供高適配儲存、協同主控、先進封裝、存算融合支撐。第1 寒武紀產業細分:數字晶片設計盈利能力:淨資產收益率26.96%,毛利率55.15%,淨利率31.68%業績預測:ROE最近三年最高為26.96%,最新預測均值32.18%主營產品:雲端產品線為最主要收入來源,收入佔比99.69%,毛利率55.22%公司亮點:寒武紀致力於打造人工智慧領域的核心處理器晶片,是同時具備人工智慧推理和訓練智能晶片產品的企業。 (數說商業)
新“股王”登場!
【導讀】半導體類股快速走高,寒武紀大漲超9%,成為A股新晉“股王”一起來看下最新的市場情況及資訊。4月30日早盤,A股三大指數開盤漲跌不一,截至發稿,滬指漲0.09%,深成指跌0.04%,創業板指跌0.10%。從類股來看,半導體、房地產、券商類股表現活躍;而燃氣、建材、汽車等類股跌幅居前。港股方面,恆生科技指數跌超1%,華虹半導體、蔚來、騰訊音樂等跌超3%。半導體類股快速走高半導體類股快速走高,寒武紀大漲超9%,股價最新報1550.02元/股,成為A股新晉“股王”。此外,明微電子實現20cm漲停,芯原股份漲超15%,沐曦股份-U、力芯微、摩爾線程-U等跟漲。消息面上,4月29日晚間,明微電子發佈2026年一季報,公司一季度實現營業收入2.15億元,同比增長94.91%;歸母淨利潤為2368.12萬元,同比增長171.15%;扣非歸母淨利潤為1822.82萬元,同比增長148.18%。此外,芯原股份2026年一季報顯示,公司實現營業收入8.36億元,同比增長114.47%。寒武紀2026年一季度實現歸母淨利潤10.13億元,同比增長185.04%。房地產類股異動拉升房地產類股異動拉升,津投城開、金融街、京投發展等多股漲停。消息面上,為更好滿足居民剛性和改善性住房需求,促進房地產市場平穩健康發展,2026年4月29日,深圳市住房和建設局印發《關於進一步最佳化調整本市房地產相關政策的通知》(以下簡稱《通知》),自2026年4月30日起施行。其中明確,進一步最佳化調整住房限購政策和住房公積金貸款政策。證券類股異動拉升早盤證券類股異動拉升,長江證券、財達證券直線拉漲停,中信建投、光大證券、第一創業等跟漲。消息面上,在震盪波動、交易活躍的市場環境下,券商2026年一季度業績整體向好,頭部券商實現利潤高增長。其中,長江證券2026年一季報顯示,一季度公司主營收入為33.67億元,同比上升34.65%;歸母淨利潤為14.86億元,同比上升51.73%。 (中國基金報)
刷屏!DeepSeek V4成本暴降73%,梁文鋒聯手華為寒武紀,源神歸位全體起立
這是一個1.6T參數的開源巨無霸。智東西4月24日報導,今日,DeepSeek正式發佈並開源DeepSeek-V4系列預覽版本,這是其繼V3.2之後的新一代旗艦模型體系,智東西第一時間上手實測。DeepSeek V4“源神”回歸影響力果然不同凡響,幾乎瞬間刷屏,在微博熱搜榜前五佔三,僅次於小米YU7GT。本次發佈包含兩款模型:DeepSeek-V4-Pro與DeepSeek-V4-Flash,分別採用MoE架構,總參數規模達到1.6T(啟動49B)與284B(啟動13B),並統一支援最長100萬token上下文。DeepSeek官方同時說明,受限於高端算力,目前DeepSeek-V4-Pro的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,其價格會大幅下調。此外,DeepSeek-V4已獲得寒武紀Day 0適配支援,相關適配程式碼已開源至GitHub社區。DeepSeek-V4-Pro主打性能上限,對標閉源旗艦模型;而DeepSeek-V4-Flash則在參數規模與啟動規模上大幅縮小,換取更低延遲與更低成本。相比上一代模型,其在Agent能力、世界知識與複雜推理任務上進一步抬升,並首次將“百萬上下文”作為默認能力開放。在Agent能力方面,DeepSeek-V4-Pro的Agent能力顯著增強。其在Agentic Coding等評測中進入開源第一梯隊,內部評測顯示交付質量已接近Claude Opus 4.6非思考模式,但與其思考模式仍存在差距。DeepSeek-V4-Pro在數學、STEM及競賽型程式碼等高難度任務中已超過當前已公開評測的開源模型,整體表現接近甚至比肩GPT-5.4、Claude Opus 4.6-Max等頂級閉源模型。與此同時,DeepSeek-V4在長上下文效率上給出了一組更激進的最佳化:在100萬token場景下,其單token推理計算量僅為V3.2的27%,KV Cache佔用降至約10%,顯著降低長鏈路任務的算力與視訊記憶體成本。同時,官方公佈了DeepSeek-V4系列的API定價:DeepSeek-V4-Pro在輸入命中快取的情況下為1元/百萬tokens,輸入未命中快取則為12元/百萬tokens,輸出為24元/百萬tokens;DeepSeek-V4-Flash在輸入命中快取僅0.2元/百萬tokens,未命中輸入1元/百萬tokens,輸出2元/百萬tokens。目前,DeepSeek-V4系列已上線官網與App,並同步開放API與模型權重。體驗地址:chat.deepseek.com或DeepSeek官方APPAPI文件:https://api-docs.deepseek.com/zh-cn/guides/thinking_mode開源連結:https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf01. Agentic程式設計能力提升明顯讀《三體》三部曲燒了54萬token我們初步感受了下DeepSeek-V4的變化,主要測試的模型是DeepSeek-V4-Pro。在前端網頁one-shot案例中,DeepSeek-V4-Pro展現出很高的執行效率。由於我們的需求不複雜,模型僅用了5秒鐘進行思考,之後迅速進行開發,這與之前DeepSeek模型在思考上浪費很多token的模式明顯不同。進入到實際生成過程後,DeepSeek-V4-Pro的輸出長度要明顯長於其他DeepSeek模型。其生成速度較快,基本能做到以5行程式碼為單位輸出。最終,DeepSeek-V4-Pro的生成結果如下,可以看到其網頁的完成度要比DeepSeek-V3.2高一些,設計更為豐富。▲DeepSeek-V4-Pro打造的網站https://mcp.edgeone.site/share/9pD1cRzY1QA8bmmBLDZ8S不過,這樣簡單的程式設計題目已經難不住DeepSeek-V4-Pro,我們試著讓它完成一個結合Agent能力與程式設計的任務:規劃一次去上海的旅行,然後把所有相關資訊整合為一個旅行網站,附上對應的景點定位。執行過程中,可以看到DeepSeek-V4-Pro可以進行複雜多輪工具呼叫,聯網搜尋的條目數量也和之前模型的數量相比有增加,資訊收集得更為全面了。最終,DeepSeek-V4-Pro收集到了完整的行程資訊,規劃合理,並且配上了每個景點的定位,點開後就可以直接在導航App裡使用,十分便捷。在Agent任務中,可以觀察到它的行動十分果斷,工具呼叫、思考都在幾秒鐘內解決,token效率不錯。▲DeepSeek使用Agent能力和程式設計能力規劃的旅行方案旅行方案https://mcp.edgeone.site/share/4TxFYOy24bgaEwxFoxisj我們的下一個案例與長文字有關,DeepSeek-V4系列模型常常掛在嘴邊的就是它能一口氣吃下《三體》三部曲,而我們如它所願上傳了完整的《三體》。上傳這樣的超長檔案後,DeepSeek能夠迅速定位我們指定的內容,成功實現大海撈針。不過,這種超長上下文能力是有代價的,僅僅輸出這一點內容就燒掉了54萬個token。我們還用“OpenAI更新到了那一個模型”這一問題,試了試模型的知識截至日期,可以看到,DeepSeek-V4-Pro的知識截止日期目前仍然停在2025年。此外,這一模型應該暫時還不支援視覺能力,上傳圖像後還是會進行文字提取,沒有文字的圖像會顯示無法處理。02. 百萬上下文成標配新架構把“長任務成本”壓下來這一代V4最直接的變化,是把“長上下文”變成默認能力。不同於傳統通過簡單擴展窗口的方式,DeepSeek-V4-Pro引入了全新的混合注意力架構,將Compressed Sparse Attention與高壓縮注意力(HCA)結合,同時配合DSA稀疏注意力,在token維度進行壓縮。此外,模型引入了流形約束超連接(mHC)增強傳統殘差連接,並使用Muon最佳化器提升收斂速度和訓練穩定性。這一系列設計,使得模型在“記得更長”的同時,有效控制計算成本。從官方給出的資料來看,在100萬token上下文下,DeepSeek-V4-Pro單token推理TFLOPs相比DeepSeek-V3.2下降約3.7倍至9.8倍區間,KV Cache佔用下降9.5倍至13.7倍。這意味著,過去難以實際運行的超長鏈路任務(如多輪Agent規劃、長文件處理),開始進入可執行範圍。03. 推理、知識、程式碼三線抬升開源模型逼近閉源上限從能力結構來看,DeepSeek-V4-Pro的提升是推理、知識與Agent能力的同步抬升。在知識與推理類任務中,其在SimpleQA、Apex、Codeforces等評測中均超過當前主流開源模型,並在多項任務上接近GPT-5.4與Gemini 3.1 Pro。例如在Apex Shortlist中達到90.2分,已經超越頂級閉源模型;在Codeforces等競賽類任務中,也維持在第一梯隊水平。在Agent能力相關任務中,DeepSeek-V4-Pro在SWE Verified、Terminal Bench等指標上表現穩定,SWE Verified達到80.6,接近Claude Opus 4.6,明顯高於多數開源模型。在Terminal Bench 2.0中,其表現同樣超過GLM-5.1 Thinking、Kimi K2.6 Thinking等模型。整體來看,DeepSeek-V4-Pro已是目前開源模型的“天花板”。04. Agent能力專項最佳化開始圍繞真實工作流打磨這一代DeepSeek-V4明顯強化了對Agent場景的適配。其針對Claude Code、OpenClaw、CodeBuddy等主流Agent框架進行了專項最佳化,在程式碼生成、文件生成等多步驟任務中表現更穩定。下圖為DeepSeek-V4-Pro在某Agent框架下生成的PPT內頁示例:從實際定位來看,DeepSeek-V4-Pro已經被DeepSeek內部作為Agentic Coding模型使用,側重點在於“完成任務”。在簡單任務上,V4-Flash已可與Pro版本接近,而在複雜任務中仍存在明顯差距。本質上是在為Agent應用提供兩種“算力檔位”。DeepSeek-V4-Flash在簡單Agent任務中已經能夠與DeepSeek-V4-Pro“旗鼓相當”,但在複雜任務中仍有差距。這種差異,本質上是推理深度與上下文利用能力的差別。05. 結語:DeepSeek-V4亮相國產算力與開源路線的落地之光DeepSeek-V4的發佈不僅展現了團隊在技術和架構上的積澱,也標誌著開源大模型在國產算力生態下的實際落地能力。經過對華為昇騰、寒武紀等國產晶片的適配最佳化,DeepSeek-V4系列實現了百萬token上下文的穩定支援和高效推理,使長鏈路任務與多步Agent執行成為可能。這一版本將Pro與Flash的不同定位落到實處,在性能上逼近閉源旗艦模型,在成本上保持高性價比,為國內開發者提供了前所未有的開放選項。更重要的是,這次發佈顯示出開源模型不僅能在全球競爭中站穩腳跟,也能夠借助國產算力和最佳化架構,將技術潛力轉化為實際可用的生產力。DeepSeek-V4或許是中國開源力量在高性能AI賽道上邁出的關鍵一步,也為國內AI生態的創新和落地提供了明確指引。 (智東西)
大摩:中國AI GPU縮小與美國的差距(上篇)
大中華區半導體中國AI GPU:不斷縮小與美國的差距高昂的人工智慧資本支出(Capex)和持續的政策支援,催化了中國AI GPU生態系統的發展。在本篇深度研報中,我們引入了一個分析框架,以評估該行業的商業價值、競爭力及整合路徑。AI技術的迅速擴張正推動中國向更高品質的增長模式轉型。去年,我們在藍皮書報告《中國人工智慧:沉睡的巨龍甦醒》(China – AI: The Sleeping Giant Awakens)中,探討了中國AI的發展現狀及其邁向2030年及以後的發展軌跡。在本報告中,我們將聚焦中國AI基礎設施的核心——作為該技術基石的AI晶片——並評估不斷演變的需求前景、晶圓代工供應瓶頸以及塑造該行業的競爭格局。國產AI GPU供應取得重大進展: 在很長一段時間內,中國AI技術的普及並非受制於電力、資料或工程人才,而是受制於美國出口管制下無法獲取先進的AI晶片。中國自2020年起開始研發本土AI GPU,當時獲取海外先進製程技術的管道已十分有限。隨著管控趨嚴,這一窗口在2022年基本關閉,這重塑了(但並未阻斷)中國AI晶片產業的發展處理程序。過去12個月裡,中國在緩解裝置和晶圓代工瓶頸方面取得了有意義的進展。在政策支援下,我們預計到2028年左右,國內的晶圓代工產能和晶片供應將足以滿足國家的核心主權需求。從政策支援邁向商業化可行: 政策支援可以加速產業的早期發展,但長期價值取決於商業競爭力。中國AI GPU供應商必須展現出極具吸引力的經濟效益,才能在2028年之後維持增長。我們的分析表明,在較低的晶片價格、更廉價的電力成本以及不斷完善的基礎設施支撐下,中國AI資料中心的總擁有成本(TCO)有望具備競爭力。對於推理工作負載(inference workloads)而言,單位Token的成本比峰值性能更為重要,這進一步強化了國產替代方案的競爭力。行業與個股影響: 中國的國產化戰略——即通過擴大晶片、晶圓廠和裝置的規模來彌補製程上的劣勢——正持續見效。在樂觀情形(bull case)下,我們假設國產GPU將擴展至訓練工作負載領域,並可能獲得海外採用;在悲觀情形(bear case)下,我們假設產品差異化減弱,從而導致商品化(同質化)和行業整合。雖然我們不對AI GPU個股做出直接評級,但我們對中國AI半導體供應鏈保持建設性(樂觀)態度,包括中芯國際(晶圓代工)、北方華創(裝置)和 ASMPT(先進封裝),並看好AI晶片投資有助於鞏固其戰略地位的中國網際網路平台。關於後者的更多細節,請參閱 Gary Yu 撰寫的中國網際網路報告。關於中國AI GPU的六大核心圖表中國AI GPU:建構本土化的AI計算生態系統致首席資訊官(CIO)的資訊: 中國正通過系統級創新和以成本驅動的推理經濟性(inference economics),迅速縮小與美國在AI算力領域的差距。這一發展軌跡有望使國產AI GPU的自給率達到約76%,並在未來十年內對全球AI半導體的競爭格局產生深遠的重塑作用。致首席執行長(CEO)的資訊: 儘管美國晶片製造商在矽晶圓前沿技術上仍保持領先地位,但中國正加速轉向成本更低、針對推理最佳化的國產AI晶片。這將對全球AI的經濟性帶來中期的競爭壓力,而非在短期內實現技術層面的並駕齊驅。AI技術的快速擴張正推動中國向高品質經濟模式轉型。在去年的藍皮書報告《中國人工智慧:沉睡的巨龍甦醒》(China – AI: The Sleeping Giant Awakens)中,我們探討了中國AI的發展現狀及其邁向2030年及以後的發展軌跡。在本報告中,我們再次回歸AI主題,重點剖析中國AI基礎設施的基石——即支撐該技術的AI晶片——並對需求前景、晶圓代工供應以及競爭格局進行評估。我們分析了中國AI GPU的關鍵需求驅動因素及國內供應鏈的商業可行性,同時評估了本土生產晶片的性能與潛在商業價值。此外,我們還考察了中國全境與AI相關的資本支出(Capex)規模、本土晶圓代工供應的動態,以及塑造該行業的政策支援力度。最後,我們引入了一個框架,用於評估國產AI GPU晶片(即輝達的本土替代方案)的商業價值,並為投資者梳理了如何在長期內評估該行業及相關個股標的的路徑。行業展望:需求強勁、供給改善及同質化風險上升受制於晶圓代工產能的瓶頸,中國AI GPU在2026年和2027年的營收仍將維持“供給主導”的格局。在雲服務提供商(CSP)強勁的商業需求以及不斷增長的主權和政府主導的AI投資支撐下,該市場已進入高速增長階段。基於雲端資本支出(Capex)趨勢及隱含的AI半導體消耗量,我們預計2026年中國AI GPU的總潛在市場規模(TAM)約為500億美元,到2030年將增長至約670億美元。隨著國內晶圓廠產能的擴張和本土裝置能力的提升,國產AI GPU的供應正在快速追趕。我們預計到2027年,本土供應規模有望達到約300億美元,足以覆蓋中國算力總需求的一半以上。鑑於產能限制依然存在,我們預計到2027年之前,該市場將在很大程度上維持供給驅動的特徵。中國的基礎設施優勢縮小了表面上的技術差距在我們的基準情形(base case)下,輝達(NVIDIA)在大規模AI預訓練領域繼續佔據主導地位。中國主要的雲服務提供商處理預訓練工作負載時,依然依賴部署在海外資料中心的輝達伺服器機架。相比之下,國產AI GPU在中國國內的推理工作負載(inference workloads)中正獲得越來越高的市場認可度,因為在這些應用場景中,更低的延遲、資料本地化要求以及成本效益顯得更為重要。中國AI GPU能否充分縮小性能差距以勝任預訓練任務——並最終在出口市場贏得客戶——仍是一個關鍵的長期議題。我們的分析表明,儘管中國在晶片層面仍略落後於美國,但在系統硬體層面已具備廣泛競爭力,並在基礎設施和政策層面擁有優勢。因此,國產AI GPU在推理工作負載方面已經具備競爭力。需要強調的是,僅基於製程節點(process node)的比較會誇大實際的性能差距。當以“每瓦特每美元性能(performance per watt per dollar)”為基準進行評估時,這種差距會大幅縮小,特別是考慮到中國相對較低的利潤率要求和較低的能源成本。這種成本優勢顯著提升了國產替代方案的商業可行性。我們在下文中提供了一個基於此背景的輝達與沐曦(MetaX)GPU的對比案例研究。為了評估這一不斷演變的行業格局,我們引入了一個聚焦於中國AI GPU生態系統商業價值的分析框架。該市場目前有超過10家上市及非上市供應商,涵蓋獨立第三方供應商、內部專屬設計公司(captive design houses)以及國資背景企業。我們對中美AI計算生態系統進行了對比,並從設計能力、系統級性能、晶圓代工產能獲取、戰略合作夥伴關係、政府支援及商業戰略等維度對各供應商進行了評估。我們還應用了我們的全球AI半導體估值框架,為市值、晶圓代工產能隱含營收以及估值倍數提供了參考基準(圖表59)。關於百度崑崙和阿里平頭哥等內部專屬設計公司如何為母公司估值貢獻增量,請參閱我們的中國網際網路分析師 Gary Yu 的相關報告(連結)。聚焦商業價值分析近期的行業動態凸顯了中國AI GPU格局演變的迅速程度,並印證了為何商業價值與技術能力同等重要。幾家領先的中國網際網路平台正在轉向定製化或“合規(within spec)”的推理晶片,這些晶片通常通過設計服務模式並在海外先進的晶圓代工節點上生產。例如,據路透社報導,字節跳動正通過中國設計服務公司芯原股份(VeriSilicon),利用三星的4奈米製程生產其AI推理ASIC晶片。儘管這些解決方案通常針對偏低端的推理工作負載,但仍加劇了獨立GPU供應商面臨的競爭壓力。與此同時,政策訊號表明,可能會允許少量進口輝達的H200晶片,同時可能要求配套支援國產替代方案。這種做法強化了“雙軌制”戰略,而非實施全面替代。同步地,中國主要的大語言模型(LLM)供應商已開始提高Token價格,這改善了AI工作負載的商業化變現能力,並對整個生態系統中AI GPU的長期商業經濟效益形成了支撐。展望未來,行業結構引發了對產品同質化(commoditization)風險的擔憂。包括雲服務提供商和電信營運商在內的大客戶有強烈的動機去扶持至少一家具有國資背景的GPU供應商(如華為),而領先的CSP同時也支援自身內部的或關聯的設計公司(如百度崑崙、阿里平頭哥)。這種動態擠壓了獨立第三方供應商的潛在市場空間,並增加了其規模化發展的難度。隨著晶圓代工產能可能從2027年起擴張,加上AI GPU設計日益成熟,產品的差異化將變得更加困難。因此,我們認為隨著時間的推移,行業利潤率存在下降的風險,且未來兩到三年內行業整合的可能性日益增加。關於中國AI GPU類股的核心爭議上述結論建立在三個相互關聯的核心爭議之上,這些爭議塑造了中國AI GPU生態系統的未來前景。在接下來的部分中,我們將詳細探討這些爭議,以揭示中國AI GPU市場的發展脈絡、國產替代方案在那些領域已具備競爭力,以及那些結構性制約因素依然存在。核心爭議 #1:中國能否大規模供應具備競爭力的AI GPU?第一個爭議聚焦於供給端——即中國能否生產出具備足夠競爭力且能實現規模化量產的AI GPU。中國受益於系統級的工程優勢、基礎設施的快速鋪建以及強有力的政策支援,但在先進晶片設計和前沿製造工藝方面仍面臨挑戰。我們將評估這些優勢與限制因素如何相互交織,本土供需如何演變,以及這將如何影響國產AI GPU的長期競爭力。核心爭議 #2:需求端:中國AI GPU市場的潛在規模有多大?該爭議聚焦於需求端。中國AI GPU市場反映了雙重需求:一是由雲服務提供商和AI應用主導的商業化普及需求,二是與主權戰略優先順序掛鉤的政策驅動需求。我們分析了這些驅動因素的相對權重、政策持續支援國產AI晶片的底層邏輯,以及它們如何轉化為實際的市場規模。通過對本土AI晶片需求的情景分析(基於Gary Yu的預測),我們估算了中國AI GPU市場的潛在規模和增長軌跡。核心爭議 #3:如何評估中國AI GPU的商業價值?該爭議從估值和投資的視角審視該行業。中國AI GPU生態系統包括獨立供應商、國資背景企業,以及隸屬於大型網際網路平台的內部設計公司。我們將這些企業置於全球AI GPU和ASIC的背景下進行定位,勾勒出評估相對市場地位的定性標準,並應用統一的估值框架以幫助投資者權衡整個類股的投資機遇與風險。類股估值——高經營槓桿下的高市銷率(P/S)倍數儘管收入基數小得多且處於盈利的更早期階段,中國AI半導體設計公司的市銷率(P/S)倍數仍顯著高於全球可比同業。寒武紀(688256.SS,未覆蓋): 目前其2026年預期市銷率(P/S)約為32倍,市盈率(P/E)約為96倍;相比之下,其2026年晶圓代工產能隱含營收約為22億美元,市場一致預期營收約為21億美元。儘管其銷售倍數低於部分國內同行,但在經過增長調整後,相對於輝達仍享有明顯的估值溢價,這反映了市場對國內AI市場快速實現國產替代的預期。海光資訊(688041.SS,未覆蓋): 其2026年預期P/S約為94倍,P/E約為1118倍,隱含晶圓代工產能營收約為9億美元。這表明在本土化供應鏈結構下,市場對其捕獲CPU/GPU相關周邊需求抱有極高的期望。沐曦(MetaX,688802.SS,未覆蓋)與摩爾線程(Moore Threads,688795.SS,未覆蓋): 兩者的2026年預期P/S分別約為60倍和139倍,而隱含營收分別僅為約5億美元和3億美元,且尚未實現實質性盈利。在香港上市的壁仞科技(Biren,6082.HK,未覆蓋)和天數智芯(Iluvatar CoreX,9903.HK,未覆蓋): 其2026年預期P/S分別約為37倍和62倍,同樣基於較為有限的隱含營收(約2億至3億美元)。(估算來源請參見圖表11。)類股估值——非上市企業我們綜合使用定性評分卡和定量指標(包括營收規模、市場份額和晶片性能),來評估中國非上市AI GPU供應商的潛在市值。1. 崑崙芯 (Kunlunxin)崑崙芯已將銷售擴展至外部客戶,如中國移動、騰訊及其他的國有企業(SOEs)。我們預估其2025年營收為60億元人民幣(約50%來自外部),並預計在近期新GPU發佈的支撐下,2026年營收將在70億至130億元人民幣之間,代表其在國內GPU行業中佔據高單位數百分比的市場份額(相比之下,華為佔63%,寒武紀佔11%,平頭哥佔高單位數百分比)。我們對崑崙芯的估值為200億至610億美元:提議的分拆與上市是管理層釋放股東價值計畫的一部分,但隨著近期AI晶片的首次公開募股(IPOs),近期的市場情緒有所走強。基於2026年預期市銷率(P/S)20至33倍(較A股上市的寒武紀有0%至40%的折價),我們對崑崙芯的估值為200億至610億美元,假設控股公司(holdco)折價30%,這轉化為百度(BIDU)約60%股權的價值為80億至260億美元。將百度的中端分類加總(SOTP)估值修訂為215美元(原為220美元);高端估值為330美元:我們的215美元中端SOTP估值,將崑崙芯估值為45美元/股(26倍 企業價值/銷售額(EV/S)),AI雲基礎設施(不含崑崙芯)估值為45美元/股(5倍 EV/S),行銷業務估值為44美元/股(6倍 企業價值/息稅前利潤(EV/EBIT));我們330美元的高端SOTP估值,將崑崙芯估值為73美元/股(33倍 EV/S),AI雲基礎設施(不含崑崙芯)估值為62美元/股(7倍 EV/S),文心大模型(Ernie LLM)估值為38美元/股(30倍 EV/S),行銷業務估值為54美元/股(7倍 EV/EBIT)。2. 平頭哥 (T-Head)我們預估其2026年營收為140億至260億元人民幣,其中約一半來自AI GPU晶片,其餘來自CPU。我們預計平頭哥將在2026年至2030年間躋身國內第一梯隊GPU供應商,佔據高單位數百分比的市場份額(與崑崙芯類似),相比之下,華為為63%,寒武紀為11%。我們對平頭哥的估值為280億至860億美元:鑑於平頭哥一直以來保持低調、公開披露有限,且長期專注於內部供應,此次潛在的分拆令人感到意外。我們預計分拆後外部銷售將會加速增長。在需求端和供給端,支援依然強勁:阿里雲繼續驅動龐大的訓練與推理需求,並不斷增加產能供應。基於20至33倍的市銷率(P/S)(較寒武紀有0%至40%的折價),並應用於140億至260億元人民幣的營收區間(CPU + GPU),我們得出了280億至860億美元的估值區間。假設控股公司(holdco)折價30%,這轉化為阿里巴巴(BABA)分類加總(SOTP)估值中的12至36美元/股。我們對關鍵行業風險的情景分析我們概述了中國國內AI晶片市場的三個情景,這些情景由出口管制、國內製造的進展以及替代激勵機制之間的相互作用所驅動。基準情形——在持續受限下取得漸進式進展 先進AI晶片的海外流片(tape out)依然受限,限制了獲取前沿晶圓代工服務的管道。中芯國際繼續擴張國內產能,但在美國出口管制下,獲取關鍵晶圓製造裝置的管道受限,制約了先進製程節點的進展。輝達H200對中國的出口依然有限,無論是因為美國法規,還是中國方面的採購和政策考量。在此背景下,政府對國內計算基礎設施的持續支援推動了對本土生產的AI加速器的需求,並在性能差距持續存在的情況下,支撐了國內供應商的銷量增長。樂觀情形——國內能力加速提升與替代加速 國內AI晶片供應狀況實質性改善。通過替代性安排,或中芯國際在良率和製程穩定性上取得有意義的突破,獲取前沿晶圓代工服務(如台積電或三星)的管道得到改善;同時,本土裝置供應商的進展緩解了關鍵的製造瓶頸。對美國先進AI加速器出口的持續限制強化了對國產解決方案的需求,並促使生態系統在設計、製造和系統整合方面更快地走向成熟。悲觀情形——國內供應疲軟與替代壓力減輕 對晶圓製造裝置的限制進一步收緊,實質性地制約了先進製程節點的產能擴張,並推遲了製程改進。與此同時,對輝達H200的出口管制放鬆,或中國重新獲得更先進AI加速器的管道,從而降低了國產替代的緊迫性。對EDA(電子設計自動化)工具的額外限制制約了本土設計公司的架構升級,並進一步削弱了國產AI加速器產品的競爭力。關鍵爭議#1:中國能否大規模供應具備競爭力的AI GPU?市場觀點: 在比較中美AI晶片時,全球投資者往往只關注晶圓工藝——例如,台積電4奈米的輝達GPU與中芯國際12奈米的沐曦(MetaX)GPU的對比。基於此,他們通常得出結論,認為中國的AI晶片無法與之競爭。我們的觀點: “每瓦每美元性能”的評估框架顯著縮小了這一差距,特別是因為能耗(瓦特)因素在中國的權重較低。在我們對沐曦與輝達的案例研究中,按每瓦每美元性能衡量,沐曦C600的表現與輝達A100相當。隨著沐曦推出C700,我們認為它能夠在AI推理領域與輝達的H200相抗衡。然而,從長遠來看,我們認為市場對中國在某些裝置瓶頸上取得突破的預期過於樂觀。例如,我們認為在未來五年內,中國晶圓廠將繼續依賴阿斯麥(ASML)的DUV光刻機進行多重曝光(multiple patterning),這與部分市場預期(即中國能夠研發自有光刻裝置)截然相反。需監測的指標: 1)先進製程節點的晶圓月產能(wpm)及良率提升情況;2)叢集規模的穩定性改善;3)本土軟體及類CUDA生態系統的進展。我們可能出錯的地方(潛在風險): 1)良率提升進展慢於預期;2)裝置瓶頸持續的時間更長;3)軟體生態系統的規模化擴展比最初預期的更為複雜。大規模晶片製造面臨的障礙為了評估中國能否大規模供應具備競爭力的AI GPU並切實滿足市場需求,我們從AI半導體價值鏈的供給側——特別是晶圓代工產能——開始分析。在這一層面上,規模擴張不僅取決於名義產能的增加,還取決於關鍵上游要素的可用性與成熟度。因此,一系列供應瓶頸繼續影響著整個AI GPU價值鏈的最終產出。這些限制在晶圓前道裝置(WFE)和電子設計自動化(EDA)領域表現得最為明顯。在中芯國際產能擴張的背景下,幾個關鍵的半導體裝置瓶頸——例如外延裝置——目前已基本能由北方華創(Naura)、中微公司(AMEC)和新凱來(SiCarrier)等本土WFE供應商解決。然而,我們看到在光刻和檢測工具方面仍存在持續的限制。在光刻機方面,中國在2025年進口了大量阿斯麥(ASML)DUV系統,以防範未來潛在的限制。同時,我們的行業調研表明,中芯國際先進製程晶圓廠(特別是中芯南方)在科磊(KLA)檢測和量測工具方面的受限,推高了裝置利用率並導致檢測步驟減少,晶圓廠僅能專注於最關鍵的層級。雖然這種方法保障了產能產出(吞吐量),但可能以犧牲良率為代價,這進一步凸顯了國內先進製程製造所面臨的結構性挑戰。EDA是中國擴大先進製程產能的另一個關鍵制約因素。2025年,中國最大的EDA供應商華大九天(Empyrean Technology)按營收計算僅佔全球約1-2%的市場份額。迄今為止,華大九天尚未提供全流程數字IC EDA套件,更不用說支援先進製程節點GPU設計的工具了。相比之下,楷登電子(Cadence)、新思科技(Synopsys)和西門子EDA(Siemens EDA)在2025年合計佔據了全球80%以上的市場份額。美國政府對華實施了嚴格的EDA軟體出口管制,特別針對全環繞柵極(GAA)電晶體架構所需的工具。這些限制旨在阻礙中國開發先進的3奈米和2奈米晶片,而這些晶片對於高性能計算和AI至關重要。如果本土EDA能力無法迎頭趕上,且現行出口管制維持不變,本土AI晶片設計公司將很難向3奈米和2奈米節點遷移。中芯國際的擴張轉移了——但並未消除——晶片供應瓶頸儘管晶圓前道裝置(WFE)的限制構成了中國先進製程雄心的上游制約因素,但其下游影響日益顯現在晶圓代工層面。工具可用性、工藝成熟度以及產能吞吐量的侷限,實際上已將中國的先進製程產能集中於一家佔據主導地位的供應商。這種動態將供應瓶頸從裝置獲取轉移到了晶圓代工的執行與產能分配上。因此,中芯國際(SMIC)已成為擴大本土AI GPU生產規模的實質性“咽喉”所在。根據我們的行業調研,幾家本土AI晶片供應商已將製造環節遷回中國大陸,試圖在本土先進製程節點(如N+2的7奈米和N+1的12奈米)上流片AI加速器,以利用本土產能並緩解外部限制。目前,中國的先進製程產能仍高度集中在中芯南方,該公司已通過使用DUV光刻機進行多重曝光,將工藝技術延伸至N+2,並有可能延伸至N+3(約5奈米)。我們預計,中芯國際的N+2晶圓月產能(wpm)在2025年約為2.2萬片,2026年(預期)約為4萬片,2027年(預期)約為5.1萬片。然而,考慮到同樣嚴重依賴N+2級節點的智慧型手機和汽車SoC(系統級晶片)的持續需求,我們預計這些產能不會完全分配給本土AI處理器的生產。面對這些制約因素,一些AI GPU供應商選擇在N+1節點上製造加速器。我們認為,這一選擇反映了在產能可用性、流片成功率、製造穩定性以及成本控制方面所做出的務實妥協。相較於更先進的節點,N+1提供了更好的良率特徵和更成熟的供應鏈,從而在工藝受限的情況下仍能實現量產。然而,基於N+1節點的產品在計算密度和能效方面仍處於結構性劣勢,使其更適合AI推理及其他對功耗和成本敏感的工作負載,而非大規模訓練。應對晶圓工藝制約的戰略性舉措如上所述,中芯國際的產能擴張只能部分緩解中國的晶圓工藝瓶頸。在獲取先進製程節點受到結構性制約的情況下,本土AI晶片供應商和雲服務提供商(CSP)日益將焦點從直接縮小工藝差距,轉向通過系統級和架構層面的戰略來彌補單裸片(per die)性能較弱的劣勢。儘管中芯國際在N+2節點上取得了實質性進展,但與在4奈米或3奈米節點上製造的海外加速器相比,國產AI加速器在計算性能和能效方面仍處於結構性劣勢。我們認為,即使7奈米工藝得到廣泛應用,也無法在晶圓層面完全消除這一差距。鑑於能源供應在中國並不構成硬性約束,戰略重心已轉向提高絕對計算密度和系統級性能,而非每瓦能效。我們將中國AI晶片供應商和CSP當前的主流應對策略歸納為三大類:1)“如果單個計算裸片不夠強大,就把更多裸片封裝進同一塊晶片中。”由於製造技術和晶片設計的侷限性,國產AI加速器的計算能力仍大幅低於輝達及部分海外ASIC解決方案。在某些情況下,隨著獲取海外先進製程節點的管道受限,計算性能甚至出現了下降。例如,據報導,昇騰(Ascend)950PR的計算性能比其上一代產品910C低約38%。在此背景下,供應商採用了先進封裝和多裸片配置,以在單個封裝內擴展算力。這種方法在不需要獲取更先進製程節點的情況下,部分抵消了單裸片性能較弱的問題。雖然它未能完全消除與海外領先產品的差距,但已切實提升了絕對計算性能。2)“如果單塊晶片不夠強大,就建構更大的機架和叢集。”在系統層面,我們觀察到本土AI晶片供應商和CSP正越來越多地採用縱向擴展(scale-up)架構,這從輝達的NVL72設計中汲取了靈感。傳統的AI伺服器配置通常在每台伺服器中部署4或8個加速器,多節點擴展嚴重依賴伺服器間的網路連線,這可能會引入通訊瓶頸。NVL72標誌著一種轉變,即在單一系統內實現72個加速器的全互聯(all-to-all interconnect),從而顯著提升了GPU到GPU的頻寬和機架級性能。中國企業正在推行類似的縱向擴展戰略,包括華為的CloudMatrix 384、阿里巴巴基於PPU的機架解決方案,以及字節跳動的單機架256加速器設計,旨在克服單晶片的侷限性,提升機架級性能。3)“如果一家晶圓廠產能不足,就擴大製造產能。”第三項應對策略的核心是在現有工藝制約下擴大產能。中國的先進邏輯晶圓代工廠繼續進行激進的投資。中芯國際在2023年、2024年和2025年的資本支出分別達到了約75億美元、73億美元和81億美元,佔其營收的比例大幅提升。在2025年下半年,中國還加速了DUV光刻裝置的採購,從荷蘭的進口量同比急劇上升。我們認為,這些裝置的交付支撐了中期內先進製程產能的擴張,但不太可能消除與海外晶圓廠之間根本的工藝差距。網路與機架級設計彌補了晶圓工藝制約 即便在7奈米工藝上取得了進展,中國在晶圓層面縮小AI算力差距的能力依然受到結構性制約。因此,性能差異化的焦點已日益從單晶片算力轉向系統級架構,特別是網路互聯和機架級設計。面對晶圓工藝的制約,中國在系統級設計方面取得了切實的進展,特別是在光網路和伺服器機架架構方面。在去年的上海世界人工智慧大會(WAIC)(參見我們的報告《上海WAIC主要啟示》)上,我們觀察到了華為昇騰(Ascend)CloudMatrix 384的原型機,它展示了國內企業如何通過激進的縱向擴展(scale-up)和光互聯設計,來彌補單晶片算力較弱的問題。展望未來,在下一代昇騰平台(Atlas 950)中,華為聲稱其SuperPod架構最高可擴展至8,192顆晶片。在處理器層面,昇騰950PR和升級後的950DT預計將實現高達2TB/s的AI處理器間互聯頻寬,紙面資料超過了輝達NVLink第五代(Gen5)1.8TB/s的規格。單從原始規格來看,華為的互聯頻寬目前已超越NVLink Gen5。更均衡的算網配比(compute to networking ratios)。 我們觀察到海外AI晶片(例如輝達的Blackwell系列)的原始算力出現了急劇增長,但網路性能並未實現相應的階躍式提升。我們認為,這種分化很大程度上受制於電互連的物理極限,而光互連雖然前景廣闊,但尚未在大規模應用中證明具備足夠的穩定性。因此,在實際部署中,基於輝達的最先進系統可能會面臨算力未被充分利用的時期,空閒周期正日益成為軟體和調度層面的挑戰,而非純粹的硬體制約。相比之下,國內AI平台在網路能力方面實現了快速提升。雖然絕對計算性能仍落後於全球前沿水平,但從算網配比的角度來看,系統配置顯得更為均衡。在橫向擴展(scale-out)和以推理為主的重度部署場景中,儘管單晶片性能較弱,這種均衡性可能會減少系統層面的結構性低效。核心爭議 #2:需求端:中國AI GPU市場的潛在規模有多大?市場觀點:市場共識預期,領先的雲服務提供商(CSP,如阿里巴巴、騰訊、字節跳動)將繼續增加與AI相關的資本支出(Capex),以支援模型訓練和推理部署。在這一觀點下,政府的政策支援是本土AI GPU普及的主要驅動力。我們的觀點:我們採用情景分析法,將圍繞供需和地緣的風險納入對中國AI GPU市場的預測中。我們預計,到2030年總潛在市場規模將達到670億美元,其增長更多由推理而非訓練驅動,並將佔到屆時雲端總資本支出的約51%。我們預計國產AI晶片營收將從2024年的60億美元增長至2030年的510億美元(復合年增長率達42%),自給率將從33%提升至76%。除了政策支援外,我們認為本土AI晶片的商業價值是更為持久和可持續的需求驅動力。需要監測的指標:1) CSP雲端資本支出增長;2) 月度Token吞吐量增長;3) 國產AI晶片的平均售價(ASP)趨勢及分配訊號。我們可能判斷有誤之處:1) 地緣政治降溫使得獲取美國先進GPU的管道得以改善;2) AI商業化變現表現不及預期,導致資本支出增長慢於預期。中國AI晶片需求要評估中國AI GPU需求的持久性與規模,區分其潛在驅動因素至關重要。在我們看來,對國產AI晶片的需求取決於兩股力量:一是對技術自立自強的結構性推動;二是在消費者和企業端應用場景中,AI部署所帶來的日益重要的商業回報。應對美國晶片限制的自立自強。 中國將AI視為事關國家與經濟安全的戰略性領域。。。這段不展開了。如下圖所示,中國本土的AI晶片設計公司與先進製程晶圓代工供應商形成了一種共生關係。一方面,國產AI加速器供應商需要獲取產能並實現製程節點迭代,因為AI晶片通常需要經歷兩到三代製程的演進才能達到具備競爭力的性能。另一方面,本土先進製程晶圓代廠需要錨定客戶(anchor customers)及規模效應,以支撐其持續的投資。商業回報作為中國AI晶片市場的第二大主要驅動力。 儘管自立自強催化了早期的投資,但持續的AI相關資本支出最終需要可證明的商業回報,尤其是隨著支出規模的擴大以及利用率成為核心制約因素。因此,中國的AI發展路徑日益強調具有成本效益的創新以及能夠帶來可衡量商業回報的應用。中國主要的科技公司正步入正軌,有望在2026年將與AI相關的資本支出同比增長38%,達到5970億元人民幣,這反映了在廣告、消費者端(2C)及企業端(2B)應用場景中已被證明的商業化變現潛力。在我們看來,消費者端和企業端應用中由AI驅動的提升所帶來的總回報可能是巨大的。在扣除折舊、電力和伺服器租賃成本後,預計到2028年有望實現盈虧平衡,到2030年利潤率可能達到約50%(更多細節請見此處)。在政策支援與商業回報改善的雙重驅動下,中國AI GPU的需求集中在少數大型買家群體手中,其資本支出(Capex)決策最終決定了可觸達市場的規模。第一類群體由中國的雲服務提供商(CSP)構成——包括字節跳動、阿里巴巴和騰訊——這些企業採購AI晶片,既用於訓練自身專有模型並運行推理,也用於為外部雲客戶部署AI基礎設施。第二類群體包括中國的電信營運商、國有企業及地方政府——即所謂的“主權AI買家”——其需求主要由國家AI基礎設施建設、資料主權以及公共部門的應用驅動。AI初創企業(如DeepSeek、MiniMax)及汽車整車廠(如小鵬、小米)同樣採購AI晶片,儘管目前的採購量仍低於前兩類群體。我們預測,到2030年,中國AI晶片的總潛在市場規模(TAM)將達到670億美元,這意味著2024至2030年間的復合年增長率(CAGR)將達到23%。我們的估算基於主要CSP、電信營運商、政府與國企買家以及其他AI相關企業的雲端運算資本支出總額。我們預計,到2030年,中國雲端運算資本支出總額將達到1300億美元,其中AI GPU將佔據670億美元,約佔雲端運算總資本支出的51%。我們的預測基於以下幾項假設:1. CSP海外資料中心佔比下降。我們估計,2025年中國CSP雲端運算資本支出中約有40%投向了海外資料中心,用於大語言模型的預訓練,這反映了國內獲取先進GPU受限的現狀。我們預計,從2026年(預期)起,在本土AI晶片性能提升與供應增加,以及算力需求向推理端轉移的共同推動下,這一比例將降至30%左右。2. 伺服器支出佔比保持在雲端運算總資本支出的90%左右。3. AI加速伺服器佔伺服器總量的比例,將從2025年(預期)的75%上升至2030年(預期)的85%。4. AI加速器元件價值佔AI加速伺服器總價值的80%。基於上述假設,我們預測中國AI晶片的總潛在市場規模(TAM)將從2024年的190億美元增長至2030年的670億美元,2024至2030年間的復合年增長率(CAGR)將達到23%。本土化勢將支撐需求隨著中國AI GPU市場規模不斷擴大,關鍵問題不僅在於需求能變得多大,還在於這些需求最終流向何方。我們認為,持續的地緣政治風險將AI晶片需求鎖定在本土,使本土化成為中國AI GPU市場的結構性特徵,而非對出口管制的暫時性應對。減少對美國技術的依賴: 儘管在單晶片層面,中國的AI晶片仍落後美國約1.5至2代,但系統級性能差距正在持續縮小,這進一步強化了AI基礎設施部署本土化的動力。我們預計,在未來四年內,受晶片封裝(中國本土的2.5D和3D封裝)、架構縱向擴展(光網路)以及軟硬體協同最佳化的驅動,而非單純依靠工藝節點微縮,這一差距將縮小至約1代。中國還在減少供華晶片對台積電(TSMC)的依賴,轉而採用中芯國際(SMIC)的N+2和N+3節點,以及三星部分符合規格的設計。儘管在韓國儲存晶片(HBM)、歐洲光刻裝置(DUV)以及美國檢測裝置(KLA明場檢測)等方面仍存在一定的依賴,但我們最新的行業調研表明,本土在其中一些領域正在取得進展。在大多數地區,商業和主權買家對AI晶片的需求,既可以通過美國供應商滿足,也可以通過台積電代工的定製設計來滿足。然而,自2023年10月以來,美國工業和安全域(BIS)的規定限制了美國供應商向中國出售晶片技術的發展水平。這些限制包括對14奈米FinFET裝置、3奈米GAA EDA工具的限制,以及對性能密度和總性能等性能指標的限制。美國當局在2025年初進一步收緊了這些管制。來自外國晶片供應商的激烈競爭意味著,中國需要政策支援以推動本土AI GPU的發展。本土晶圓廠也需要具備競爭力的AI晶片供應商來實現規模化、提高良率並降低成本。因此,在規模擴張階段,政府的支援錨定了供應的形成與國內需求,包括鼓勵本土化應用,以及協調如中芯國際7奈米生產等稀缺的先進製程產能。基準情形綜合我們的供需分析,我們勾勒出中國AI晶片自給率的基準情形發展軌跡。我們預計中國的AI晶片自給率將從2024年的33%上升至2030年(預期)的76%。我們預計先進製程產能的擴張和晶片性能的持續提升將推動本土AI晶片營收的增長。我們的核心假設如下:先進製程產能顯著擴張。 在強勁的資本支出投資以及矽鍺(SiGe)外延等本土裝置技術突破的支撐下,我們預計中國的先進製程晶圓月產能(wpm)將從2025年的8千片增至2028年的4.2萬片,並於2030年達到5萬片。生產良率顯著提升。 在更優質的檢測工具和不斷積累的操作經驗驅動下,我們預計中國AI晶片的生產良率將從2025年的約20%提升至2030年的約50%。產能分配依然由政策驅動。由於先進製程產能具備稀缺性,其分配很大程度上由政府機構決定。我們認為華為獲得的分配額度最高,其次是寒武紀(Cambricon)和海光(Hygon),而二線和三線AI晶片設計公司各自獲得的產能可能不到總產能的10%。海外晶圓廠供應“合規(within spec)”晶片。 我們預計三星等海外晶圓廠將為崑崙芯和字節跳動等本土設計公司流片符合規格要求的AI晶片。基於這些假設,我們預計中國本土AI晶片營收將從2024年的60億美元增至2030年(預期)的510億美元,2024至2030年的復合年增長率(CAGR)達到42%,同時我們預計AI晶片自給率將從2024年的33%提升至2030年(預期)的76%。我們在出口管制、本土製造進展以及替代激勵機制的相互作用驅動下,概述了中國本土AI晶片前景面臨的三種情景。關鍵爭議#3:我們該如何評估中國AI GPU的商業價值?市場觀點: 市場共識將政策驅動的替代視為本土AI GPU應用的主要驅動力。在這種觀點下,供應商的估值通常錨定於從輝達手中奪取市場份額的假設,以及對市場結構分散化的預期。我們的觀點: 我們認為,AI晶片的商業價值最終將決定各家供應商的長期營收和市值。儘管政府支援和雲服務提供商(CSP)的內部自研戰略依然重要,但我們預計市場領導地位將由產品競爭力和執行力來塑造。因此,我們結合定性因素(包括晶圓代工獲取能力、客戶關係、政策支援和技術方向)以及定量指標(如TPS(每秒生成Token數)、每瓦性能和每瓦每美元性能)來評估供應商。我們還密切監控不斷湧現的新發佈的晶片規格。隨著時間的推移,我們預計中國AI GPU市場將趨於整合,隨著產品差異化縮小和規模經濟佔據主導,利潤率壓力將會增加。需監測的指標: 1)新晶片規格;2)向主要客戶(如CSP)的出貨量爬坡情況;3)平均售價(ASP)趨勢及毛利率軌跡。我們可能出錯的地方(潛在風險): 1)本土AI GPU供應商未能獲得先進製程晶圓代工廠的產能;2)CSP採用國產AI晶片的意願低於預期;3)AI計算範式的顛覆性轉變(例如,模型架構或工作負載特徵的根本性改變)降低了基於TPS的性能比較的相關性。識別長期贏家的分析框架潛在的贏家能夠將系統級競爭力轉化為大規模的商業應用。在實踐中,供應商需要具備四大特質:(1)具備競爭力的推理經濟效益;(2)可靠的先進製程節點產能獲取管道;(3)深厚的CSP合作關係;(4)與政策導向保持一致。如果供應商缺失其中一項或多項特質,即使他們發佈了強悍的規格資料,也很難維持其市場份額和利潤率。我們採用雙層分析框架:第一層 —— 定量的推理經濟效益我們側重於驅動大規模應用的、以推理為核心的指標,包括單Token成本和總擁有成本(TCO)、TPS(每秒Token數),以及每瓦和每美元性能。我們認為,要維持領導地位,必須在這兩個層面上都具備實力。第二層 —— 定性的市場定位我們評估獲取先進製程產能的管道、CSP合作關係的深度、政策契合度,以及技術路線圖的可信度。聚焦推理端:本土供應商持續追趕持續存在的生態系統與工藝制約因素,限制了國產加速器在先進基礎模型大規模訓練領域的定位。因此,我們預計近期的部署將集中在大語言模型(LLM)推理而非訓練上。這一重心與需求趨勢相符。DeepSeek、Doubao和Qwen(通義千問)等國產基礎模型,已將每日Token消耗量推高至10兆以上,驅動了推理需求的結構性上升。與此同時,輝達的A100以及部分已安裝的H100和H800越來越多地用於服務訓練工作負載。因此,我們預計中國的推理算力——儘管目前仍以輝達H20為基本盤——隨著時間的推移將更加依賴國產加速器。為了比較各家供應商的推理競爭力,我們採用每秒生成Token數(TPS)這一指標。TPS反映了硬體能力(計算吞吐量、記憶體頻寬、互連)以及軟體和模型的假設。我們以DeepSeek R1作為國產大語言模型的代表,以反映真實的推理部署場景。輝達在2025年第一季度公佈了其H200在DeepSeek R1推理下的官方TPS資料。在採用相同的Token長度和資料格式假設下,我們獨立推算的估計值與輝達公佈的結果基本一致,這印證了我們建模方法的可靠性。(Port Selected)