GPU“四小龍”，再蹈AI“四小龍”覆轍？

2026/05/14

•

AI爆發、中國國產替代，中國GPU“四小龍”無疑趕上了最好的發展機會，同時也要直面最殘酷的競爭。它們不僅要在技術上追趕輝達、AMD等有著先發優勢的國際巨頭，身旁還有華為海思、寒武紀、平頭哥、崑崙芯等ASIC賽道的中國競爭對手。市場註定容不下“四小龍”，因為在這個專業分工極為細緻的產業鏈中，每一個環節註定都是強者恆強。

成立不到六年，上市不到半年，市值過3000億，成為A股市場五千多隻股票中的前1/100，究竟是怎樣的“逆天”存在？

答案是中國國產AI晶片。

2026年5月初，2025年年底、2026年年初上市的中國國產GPU“四小龍”再攀市值高峰，摩爾線程（688795.SH）、沐曦股份（688802.SH）站穩3000億元人民幣；壁仞科技（06082.HK）、天數智芯（09903.HK）一度突破1500億港元。

同期，放眼整個A股市場5512家上市公司，市值3000億元以上的僅有47家，主要來自銀行、石油等傳統類股以及少數硬科技龍頭；市值1000億元以上的也只有205家（截至2026年5月8日）。

在高估值的背後，“四小龍”的營收體量卻非常有限。2025年，它們的收入幾乎都實現了同比倍增，但總和僅為52億元——不及另一家中國AI晶片公司寒武紀（688256.SH）一家的收入（64.97億元），約為輝達（NVDA.O）中國區總收入（196.77億美元，約合人民幣1406億元）的4%。

它們仍處在商業化的早期，尚未形成造血能力。2025年，摩爾線程、沐曦股份、天數智芯的淨虧損依次為10.01億元、7.89億元、10.04億元；在壁仞科技164.93億元的淨虧損中，有154.51億元為一次性會計處理，經調整虧損同比擴大13.9%至8.74億元。

中國國產GPU“四小龍“，很容易讓人想起2015年前後在電腦視覺領域（CV）名聲大噪的中國“AI四小龍”——商湯科技（00020.HK）、雲從科技（688327.SH）、曠視科技和依圖科技。它們曾在2020年左右一起迎來高光時刻，此後的上市路途各有坎坷波折，發展境遇也各不相同，而今只有少數人能想起它們的名字。

對比來看，中國國產GPU“四小龍”要幸運得多。在市場需求、政策紅利和資本熱情的多重加持下，它們大舉投入研發、擴張規模，通過A股“1+6”改革、港股“第18C章”等通道機制，約半年時間成功登陸資本市場。

不過，上市只是開始，站穩並非易事。在GPU這個“贏家通吃”的賽道，全球範圍只有輝達一家獨大，即使是AMD、Google等科技巨頭也難以望其項背。即便有“中國國產替代”的契機，中國市場同時跑出了四家GPU公司，洗牌仍在所難免。

GPU成就AI，也成就史上最值錢公司

2025年10月29日，輝達市值突破5兆美元大關，成為全球首家達到這一里程碑的上市公司。

資本市場的信心，源自一顆不過硬幣大小的晶片——通用GPU（圖形處理器）。

輝達最早於1999年提出這一概念。在個人電腦時代，GPU是為3D圖形渲染而生的專用晶片，通過高度平行架構同時驅動成千上萬個計算核心，從CPU（中央處理器）那裡接手了3D渲染中的幾何計算、光影效果等繁重、重複、可拆分的工作。

2006年，輝達推出CUDA（統一計算裝置架構）平台，讓開發者能夠直接呼叫GPU進行通用計算，為其作為通用加速器打開了大門。

2012年的ImageNet大規模視覺識別挑戰賽（ILSVRC），則將GPU推上了AI的舞台中央。今天有著“AI教父”之稱的Geoffrey Hinton和他的兩名學生Alex Krizhevsky、Ilya Sutskever，在輝達GPU上訓練的AlexNet神經網路以絕對優勢奪冠，並就此開啟了電腦深度學習時代。

2016年，輝達打造出全球首台深度學習超級電腦DGX-1，並在同年8月，將搭載了8塊Tesla P100 GPU的DGX-1贈予OpenAI。

OpenAI當時成立不到一年，其聯合創始人艾隆·馬斯克正為訓練神經網路尋找算力方案，在機緣巧合下成為DGX-1的第一位客戶。

這台超級電腦幫助OpenAI完成AI領域的早期探索，為日後的技術突破奠定了基礎。此後輝達不斷迭代GPU性能，OpenAI也持續採購，用於GPT系列等大模型訓練。

2022年12月，OpenAI推出ChatGPT，引爆全球AI熱潮，以及一場圍繞AI算力的軍備競賽。微軟、Google、阿里、騰訊、百度等科技巨頭爭先恐後地搶購輝達高端晶片。

今天，幾乎所有的AI大模型都依賴數萬塊GPU叢集持續數月進行的平行計算訓練。GPU在AI時代大放異彩，因為AI大模型訓練的本質就是海量矩陣乘法運算。

2022-2026財年（截至2026年1月25日），輝達的營收增長了7倍、達2159億美元，淨利潤增長11倍、達1201億美元。2026年5月8日收市時，它也是全球市值最高的公司，達到5.2兆美元。

造GPU易，商業化難

在中國，也有不少創業者預見了GPU的計算前景，朝著這個方向進發。

再加上從2018年開始，美國以“國家安全”為由限制對華技術出口，並從2019年5月起以“實體清單”的方式精準靶向中國科技企業，限制其獲取美國技術，圍繞半導體、人工智慧等實施了一系列日益嚴格的遏制措施。GPU的中國國產替代成為明確的市場方向，資本瘋狂湧入，試圖捕捉中國國產替代的巨大市場。

2019年9月，商湯科技前總裁張文在上海創辦了壁仞科技；2020年6月，輝達前全球副總裁、大中華區總經理張建中在北京創辦了摩爾線程；2020年9月，AMD的前GPU構架及晶片全球負責人陳維良和前首席SoC（系統級晶片）架構師彭莉與華為海思自研GPU的首席架構師楊建則在上海創辦了沐曦股份。

比較特殊的是天數智芯，甲骨文資料庫技術高管李文鵬在2015年年底回國創辦這家公司時，最初定位為AI基礎軟硬系統公司，先是切入軟體層打造AI系統，2017年年底開始組建晶片團隊，2019年推出首款端側GPU。

GPU“四小龍”早期依靠融資完成從0到1的研發與流片，直到2023年開始陸續有了收入。

短短幾年，這四家公司的產品和技術突破，也是可圈可點。比如天數智芯早在2021年就首家實現通用GPU量產，壁仞科技在成立後的六年內實現3款晶片成功流片和量產，沐曦股份則在5年內完成3顆主力晶片的一次性流片量產，摩爾線程在5年內實現5顆晶片量產。

但想要真正跑通商業化、成長為輝達的有力競爭者，難度遠超想像。

四家公司都選擇了Fabless（無晶圓廠）模式，即主要負責晶片的研發、設計與銷售，生產環節由晶圓代工廠和封裝測試廠等專業的外協廠商完成。

從技術突破到產業應用，是人才、技術、資本和市場的多重考驗。從研發開始，基礎架構、智慧財產權、性能和功率，到製造環節的供應鏈安全、產品良率和產能爬坡，再到商業化、應用場景和客戶拓展，巨額的研發投入和持續的虧損，每一道都是斬殺線。

對比來看，摩爾線程是四家中研發投入最大的公司，2022-2025年累計投入達到51.15億元。它也是四家中最接近輝達的路線的一個，聚焦全功能GPU，同時覆蓋AI計算、圖形渲染、科學計算以及超高畫質視訊編解碼等多個方向。其他三家則更專注於AI訓推場景，產品矩陣相對集中。

沐曦股份自稱是中國真正實現千卡叢集大規模商業化應用的GPU供應商，同時也大膽披露，截至2025年年底公司GPU產品累計銷量達5.5萬顆。摩爾線程的誇娥萬卡級叢集2025年已完成部署並實現上線服務，但它與壁仞科技、天數智芯一樣，都未披露GPU的具體銷量。他們甚至沒有披露燈塔級客戶的採購規模，多以籠統的行業分類或模糊畫像表述。

2025年的年報顯示，四家公司超10億元的營收背後，是巨額的銷售費用。以摩爾線程為例，除了高達2.33億元的行銷費用和119名銷售/市場人員的人均薪酬95.85萬元之外，還有人均股份支付44.47萬元，年內廣告宣傳費更是高達3427萬元。

可供對比的是，2016年3月成立、2020年7月上市、直到2025年才首次扭虧為盈的寒武紀，2025年其銷售人員僅54人，銷售費用合計6800萬元。

GPU挑戰者，來自ASIC賽道

在中國國產GPU“四小龍”之前，以雲服務為代表的科技巨頭們，苦輝達在AI計算領域一家獨大久矣，不過他們並未直接挑戰自研GPU，而是把始於1980年代的ASIC（專用積體電路）搬了出來。

ASIC放棄了通用靈活性，來換取極致的效率，能提供更低的單位計算成本和更優秀的能耗比，並衍生出NPU（神經網路處理單元）、TPU（張量處理單元）、DPU（深度學習處理單元）和IPU（基礎設施處理單元）等多種架構。

Google、亞馬遜、微軟、Meta等美國科技巨頭紛紛下場自研ASIC，中國的華為海思、寒武紀、崑崙芯等也選擇了這一路線。

今天，GPU和ASIC已經是AI晶片的兩個主要技術分支。從2025年的出貨量和市場規模來看，多家第三方機構的資料顯示，GPU約佔八成，ASIC佔二成。

亞馬遜從2015年開始佈局，當年以3.5億美元收購以色列晶片公司Annapurna Labs，2018年推出CPU產品Graviton、推理晶片Inferentia，2022年推出模型訓練晶片Trainium等。截至2025年年底，亞馬遜披露Trainium2的部署數量已達140萬片。

Google最早在2016年5月發佈ASIC專用晶片TPU，AlphaGo在與圍棋世界冠軍李世石的對弈中就使用了TPU。此後十年，TPU迭代至第八代，並通過Google雲向客戶開放算力服務。

即便如此，Google仍未停止從輝達大量採購GPU，將其作為雲服務基礎設施的核心部分。就在2026年3月，輝達與亞馬遜雲服務（AWS）新達成一項100萬顆GPU的購買協議。

AI晶片的主要功能，是矩陣計算、模型訓練和推理。ASIC在各自對應的業務單元優於GPU，但對不斷發展變化的AI演算法的適應性有限，GPU能夠執行廣泛的計算任務，奠定了作為AI算力基礎設施的基石地位，輝達的地位仍難撼動。

另一個重要原因，是生態的護城河。早在2006年，黃仁勳就力排眾議，推出CUDA平行計算平台。20年過去，CUDA和輝達的其他軟體工具一起建構起了覆蓋全球超750萬開發者（2026財年資料）的龐大生態，幾乎所有AI模型、框架、工具鏈都圍繞它建立。開發者如果更換GPU生態，意味著要重寫數百萬行程式碼、重構工具鏈、重新驗證穩定性，切換成本非常高。

為了降低使用者的遷移成本，中國國產GPU“四小龍”都選擇自研架構相容CUDA，但這並非毫無代價。通常情況下，編譯層轉換（自動轉譯）的性能損耗約為15%-30%；原生API對應（手動替換）的損耗更低，卻依賴更多前期移植工作。

中國國產替代，“四小龍”尚在第二梯隊

在地緣政治下，美國出口管制進一步加劇了中國AI晶片生態壁壘的複雜性。

2026財年，輝達在華營收下滑21.44%，佔比從19.19%減少到9.11%。這個難得的窗口期，並非中國國產GPU“四小龍”的市場空間。

據第三方研究機構沙利文中國執行總監王耕野向南方周末透露，輝達在中國AI晶片的市場份額從2024年的64.4%降至2025年的48.5%，而華為海思迅速補位，吃下了絕大部分輝達原有份額，市場份額增至32.6%。

排在這兩家公司之後的，分別是AMD、寒武紀、阿里平頭哥、百度崑崙芯。“四小龍”的體量實在太小，未被納入統計。

華為海思，是一個讓輝達在2026財年的年報中反覆提及的競爭對手。2026年4月24日，DeepSeek V4預覽版正式發佈，首次同步適配輝達CUDA和華為CANN架構。預計在2027年發佈的華為海思下一代產品昇騰960系列，目標直指訓練場景。

進入2026年，隨著AI算力的重心正在從預訓練向後訓練和推理轉移，基於強化學習、思維鏈等演算法創新，也給中國AI晶片的中國國產替代帶來難得的機會。企業使用者更傾向於將現有模型部署到具體業務中（如知識問答、智能客服等），而非追求超大規模訓練。這類推理場景更易容為中國國產晶片帶來真實需求。

“四小龍”與輝達同處通用GPU賽道，在承受CUDA生態遷移壓力的同時，還要面對訓練和推理的全場景競爭。

華為昇騰已經成為市場主力，寒武紀穩住了關鍵位置，阿里平頭哥和百度崑崙芯有各自的雲服務應用場景，“四小龍”的商業前景充滿了不確定性。

這種不確定性，此前已有先例——2015年前後，商湯科技、雲從科技、曠視科技和依圖科技憑藉電腦視覺技術聲名鵲起，被稱為“AI四小龍”。它們收穫多輪融資，估值也一路水漲船高，其中兩家還成功上市。

例如，成立於2014年的商湯科技，上市之前累計完成12輪融資，2021年12月登陸港交所，市值一度突破3200億港元。然而，資本熱情未能換來盈利拐點，最近五年（2021年-2025年）合計虧損356.69億元，員工數量從2021年年末的6113人減少至2025年年末的2472人，截至2026年5月8日，其市值已不到900億港元。

令人感慨的是，商湯已是“AI四小龍”中商業化成功的案例。其餘三家命運各異：雲從雖已登陸科創板，但收入仍未放量，深陷虧損泥潭；曠視和依圖則倒在了上市前的“臨門一腳”，也未能充分抓住2023年後的大模型熱潮。

如今，中國國產GPU“四小龍”面臨相似的挑戰：同樣頭頂千億市值，不吝投入研發，積極尋求突破。可技術與商業化之間的鴻溝，讓未來充滿變數。

2026年，“四小龍”來到與商湯2022年相似的十字路口。它們不會簡單復刻“AI四小龍”的命運——大模型推理和智能體引發的算力軍備競賽已經爆發，出口管制下的剛性替代需求明確，市場與政策的推力遠非當年可比。

不過，淘汰賽同樣不可避免。晶片產業屬於“贏家通吃”的生意：極高的研發和製造成本，要求企業大規模出貨才能攤薄投入；而軟體生態一旦建立，遷移成本極高——兩者疊加，使得領先者的優勢不斷自我強化。

終端場景不需要四家通用GPU供應商，資本市場也容不下長期虧損的玩家。四年之後，“四小龍”同時留在牌桌上的機率，恐怕不大。 (i科創力)

A股