中國的輝達! AI晶片:寒武紀--全解析

寒武紀最近一路高歌猛進。

作為中國AI晶片的龍頭。8月22日,寒武紀觸及漲停,市值近5,200億元,股價報1,243.20元,股價排在A股第二,僅次於貴州茅台,也被譽為「寒王」。

8月21日,DeepSeek-V3.1模型正式發布,採用UE8M0FP8資料格式。針對即將發布的下一代國產晶片設計,預計或為華為昇騰920和寒武紀690兩款晶片。頭部國產開源模型對國產晶片的支援可望推動國產算力整體生態加速落地。

8月21日,科技媒體《The Information》引述知情人士消息爆料稱,輝達公司已指示包括韓國三星電子、美國安靠科技等關鍵零件供應商暫停與H20晶片相關的生產。寒王大漲背後或受到H20停產消息的催化。

寒王是2020年科創板上市,從64元的發行價,一舉漲到1243.20元,成為AI晶片第一股。 2024年還被納入上證50指數,但先前卻一直虧損,不禁讓人深思,值得單獨解析。

下文從:① 寒武紀-溯源;② 核心產品與技術;③ 市場空間與競對;④ 產業鏈;⑤「寒王」總結&展望,等5個維度,全面梳理這一中國的輝達。

一、寒武紀-溯源

1、公司座標: 北京

成立時間:2016年3月15日

2、創辦人

陳雲霽和陳天石兩兄弟,目前總經理由弟弟:陳天石擔任。

兩兄弟來自江西南昌人,哥哥1983年出生,弟弟晚兩年出生。兩兄弟成長路徑相似:哥哥是14歲進入中科大少年班,拿到電腦博士學位,並參與「龍芯」團隊。

弟弟是16歲進入中科大少年班,也是電腦博士,後來轉入中科院計算所擔任研究員。

讀博期間,陳雲霽的研究方向是晶片,陳天石主要是做人工智慧。2010年,身為龍芯3號主架構師的陳雲霽,在北京與弟弟陳天石一拍即合,各取所長,提出研發AI晶片的構想。而2010年,AlphaGo還沒擊敗李世石,輝達還只是一家顯示卡廠商。 2016年,藉由中科院計算所平台與資源,共同設立了北京中科寒武紀科技。

寒武紀成立後,研發出了全球首個能夠深度學習的神經網路處理器晶片,改變了中國晶片領域長期空白落後的歷史。當年就拿到了上億元的訂單。

陳天石兩兄弟對團隊定的鐵律是:“晶片是長跑,沒有捷徑可走。所有捷徑都是彎路,真正的好東西,都得拿命熬出來。”

當輝達CUDA生態已形成壟斷,面對差距,陳天石決心讓寒武紀補足生態短板,專注於底層硬體和工具鏈,避免做應用,找到差異化。

當19年,華為自研晶片終止合作,寒武紀失去90%營收來源,陳天石鼓勵團隊:“依賴輸血的企業永遠長不大,孩子總要離開父母學會走路”,於是反直覺的砍掉短期盈利的IP授權業務,將資源投向尚未成熟的雲端晶片。

當20年寒武紀登陸科創板,雖市值破千億,卻被質疑,財報三年虧損超40億,24年研發投入佔比高達91.3%!何時可以獲利?陳天石的回應清醒:Intel今年52歲,NVIDIA27歲,寒武紀才5歲。羅馬不是一天造成的。

當22年,美國將寒武紀列入實體制裁清單,陳天石再一次豪賭:將全部籌碼押注國產7nm工藝,帶領團隊攻堅克難300天,研發出比肩輝達A100的國產製程的「思元590」晶片。

在2025年,這位85後天才以870億身家登頂江西首富,面對鏡頭,他卻異常平靜說:“寒武紀願做'墩子',讓更多人踩在我們身上做應用”。

也許,很多人不懂寒武紀。但是,從掌舵人十年磨一劍的毅力,主動斷奶學會奔跑的勇氣,堅持偉大都是熬過來的定力,寧可燒錢50億換一顆「中國芯」的魄力,讓寒武紀真正可以和輝達掰手腕。

現在寒武紀全年營收預計10億至12億元,雖不及輝達的千分之一,但國產替代的浪潮、扭虧為盈的業績拐點、國內強勁的自主可控需求,會推著企業邁向中國AI晶片的新高度。

3、名字寓意

“寒武紀”,Cambrian,是因為寒武紀是距今約6億年,地球物種多樣性大爆發的年代,此後地球進入了生命的新紀元。陳天石希望這家公司能開啟AI爆發發展的新時代,透過自研的AI晶片,成為推動這項科技變革的核心基礎支撐與力量。

4.重大事件發展軸

(1)2017年9月,華為在德國IFA展上重磅發布AI手機晶片“麒麟970”,搭載了寒武紀的嵌入式IP,整合了寒武紀的NPU(1A處理器),作為神經網絡專用處理單元,並在華為Mate 10手機中由此投入大規模商用,寒紀聲名。

晶片IP授權業務,雖起步快,但天花板較低,合作關係脆弱。

(2)2018,由於華為開始發布AI晶片昇騰910和昇騰310,自研AI模組,與寒武紀的合作終止,這直接導致寒武紀2019年營收銳減。

(3)從2018年開始,寒武紀轉向「雲端—邊—端」全場景佈局,推出思元系列雲端晶片和MLU邊緣加速卡,並為所有產品構建了統一的基礎系統軟體和工具鏈Cambricon Neuware平台,寒武紀成為一家具備軟硬體全棧系統能力的晶片設計公司。

(4)2020年7月20日,寒武紀在科創板掛牌上市。發行價64.39元,上市首日,開盤價即達250元/股,市值突破千億元,成為國內AI晶片第一股。但2019-2023年累計虧損超27億元。

(5)2022年底被美國列入實體清單,台積電斷供7nm代工,被迫轉投中芯國際14nm工藝,性能損失30%,2023年雲端晶片收入暴跌58.7%,市值一度跌破500億。

(6)2024年至今:AI大模型爆發,成為國產算力的里程牌

2024年思元590晶片量產,算力達512TOPS,性能逼近輝達A100的80%,可適配阿里、字節等千卡級大模型叢集。

2025年第一季,寒武紀實現營業收入11.11億元,較2024年第一季的2,567萬元,年增42倍;實現歸母淨利3.55億元。

5、 商業模式

(1)業務模式

採用 Fabless 模式,聚焦晶片設計、研發與IP 授權,將晶圓製造委託台積電、中芯國際代工,封裝測試或委託長電科技、通富微等大廠完成。2024 年晶圓採購成本佔營業成本78%。

(2)客戶結構

主要服務於網路大廠(阿里、騰訊字節等、營運商(行動、聯通)、伺服器廠商(浪潮、聯想)、金融機構、交通、能源等產業客戶,以及政府主導的智慧運算叢集項目,客戶集中度較高,需逐步拓展多元化客戶資源。

寒武紀較為依賴單一客戶,年報顯示,近三年,公司前五大客戶的銷售金額合計佔營業收入比例分別為84.94%、92.36%及94.63%。其中2024年第一大客戶的銷售佔比就高達79.15%,寒武紀表示該客戶為公司長期合作夥伴,並在本期增加採購。但是,客戶集中度過高將會是未來寒武紀的主要風險之一。

(3)獲利模式

直銷為主透過自有銷售團隊直接對接客戶,參與公開招標或商務談判,提供客製化解決方案,減少中間環節,增強客戶黏著度。

透過高研發投入推動技術迭代,依託國產替代需求擴大市場份額,同時藉助智慧駕駛、大模型推理等新興場景提升獲利能力。

(4)合作夥伴

寒武紀與華為,阿里巴巴,騰訊,字節跳動等科技巨頭均保持合作,另外,還與商湯科技、曠視科技共建聯合實驗室,推出行業解決方案(如金融風控、智能製造)。

二、核心產品與技術

1.產品三大類股:雲端-邊緣端-IP授權

寒武紀業務,依產品線劃分,主要涵蓋雲端、邊緣端產品線及 IP 授權及軟體三大塊。其中,雲端產品線‌佔營收的99.40%‌;邊緣產品線‌佔營收的0.56%‌;‌ IP授權及軟體‌佔營收的0.04%‌。

(1)雲端產品:主雲端智慧晶片及加速卡及訓練整機--佔99%

① 主要產品:思元MLU系列晶片(如MLU370、MLU590)

② 產品發佈時間:

21 年,發布思元290 智慧晶片及加速卡MLU290-M5,為公司首顆訓練用晶片,採用台積電7nm 工藝,整合寒武紀自研的MLU-Link 多芯互聯技術,可高效執行多芯多卡訓練和分散式推理任務。

22 年,發布基於思元370 晶片的新款訓練加速卡——MLU370-X8,為雙思元370 晶片配置,首款採用chiplet技術的AI晶片,整合了390億個晶體管,最大算力高達256TOPS(INT8)整合MLU-Link多芯互聯技術,主要面向訓練任務。

23 年,發布最新一代晶片思元590,性能相比思元370 有翻倍以上的提升,綜合性能對標輝達A100,處於國內領先水平。③ 訓練整機加速系統:通常整合多顆 AI 晶片,以玄思1000 智慧加速器為例,它在 2U 機殼內整合了4 顆思元290 智慧晶片,2 台玄思1000 加速器與 CPU 伺服器可組成一組包括 8 張加速卡的整機系統,可實現 AI 算力多向彈性,滿足效能感的功能性、靈活性、功能性擴展。

(2)邊緣產品線:邊緣智慧晶片&加速卡,‌佔營收0.56%‌

① 主要產品:思遠220系列,包括:MLU220 晶片MLU220-SOM 模組MLU220-M2 加速卡。 自發布以來,累計銷量突破百萬片。

思元220是寒武紀專門用於深度學習的SoC邊緣加速晶片,採用TSMC 16nm製程。具有高算力、低功耗和豐富的I/O介面,在物聯網領域發揮重要作用,如智能交通中的車輛識別和監測、工業製造中的產品質量檢測等場景,能夠在邊緣端實現高效的AI推理,減少數據傳輸壓力和延遲。

(3)IP 授權及軟體:終端智慧處理器 IP 及基礎系統軟體平台,佔0.04%

① 終端智慧處理器:

是終端設備中支援 AI 處理運算的核心裝置,例如近年來各品牌旗艦級手機上與影像視訊、語音、自然語言相關的智慧應用均依靠終端智慧處理器提供運算能力支撐。為了提升效能降低功耗,同時節省成本,終端智慧處理器通常不是以獨立晶片的形式存在,而是作為一個模組整合於終端設備的 SoC 晶片當中。該公司的終端 智慧處理器IP 產品主要有 1A、1H 和 1M系列

寒武紀智慧處理器IP 產品已整合於超過1 億台智慧型手機及其他智慧終端設備中。

② 基礎系統軟體平台:

面向公司主要提供統一的平台級基礎系統軟體Cambricon Neuware(含軟體開發工具鍊等),傚法07年輝達推出的CUDA 平行運算架構與程式設計模型,建構起的堅實軟硬體協同障礙。

打破不同場景之間的軟體開發壁壘,整合了訓練和推理的全部底層軟體棧,包括硬體驅動、AI 加速算子庫(CNNL),通訊庫(CNCL),開發語言BANG 等,同時將該軟體平台與Tensorflow、Pytorch 等AI 框架深度融合,實現訓推算演算法,讓開發者可以非常方便地完成從雲端來部署,實現訓推的演算法,讓開發者可以非常方便地完成從雲端來部署演算法。

下圖:寒武紀的「CUDA」-Cambricon NeuWare生態

2、技術優勢

(1)自主可控的MLU arch架構

MLU架構是寒武紀為AI晶片設計的專用架構,全稱為Machine Learning Unit Architecture,即機器學習單元架)。它是為高效處理人工智慧任務(如深度學習、神經網路運算等)而客製化的硬體架構,可廣泛應用於雲端運算、邊緣運算、智慧安防、自動駕駛等領域。

官方公佈的名稱分為MLU00 MLU01 MLU02 MLU03,分別對應於1A、1H、1M、以及官方尚未公佈型號的MLU370 的處理器核心。具有以下特點和優勢:

① 端雲一體可擴充性

MLU架構支援從端側(如邊緣設備)到雲端(資料中心)的靈活擴展。端側晶片可選擇單一核心(TP架構)或單一叢集(MTP架構),雲端晶片則透過多個叢集(MTP架構)實現高算力並行,支援單機單卡或多機多卡叢集加速。

② 核心架構設計

對應單一IPU核心,可獨立執行單一任務。由多個IPU核心組成叢集,支援並行執行複雜任務。不同世代的MLU架構(如MLUv03、MLUv05)在IPU數量和算力配比上有所差異,但透過硬體相容性確保程式可二進位相容運作。

③ 儲存與通訊優化

儲存層次:包括片上SRAM、L2快取、片外DDR/HBM等,透過多層快取及高速互聯技術(如MLU-Link)提升資料傳輸效率。

通訊機制上:支援叢集內和叢集間的資料傳輸,透過專用通道(如Cluster-DMA)實現低延遲、高頻寬通訊。

(2)全端式AI工具鏈NeuWare

Cambricon NeuWare軟體堆疊是寒武紀晶片的重要支撐。它支援TensorFlow、PyTorch等主流框架,提供CUDA程式碼遷移工具,降低開發者遷移成本,與華為MindSpore、百度PaddlePaddle等國產框架深度適配。

① 開發工具層

MLU架構配套的程式設計模型為“Cambricon Bang”,提供Host-Device異構平行程式介面,支援C/C++等語言開發,簡化AI應用的移植與最佳化。自動最佳化算子融合(如Conv+ReLU)、記憶體重複使用,編譯效率達CUDA的90%。

② 運行時與框架適配

NeuWare Runtime:低延遲任務調度,達到μs級,支援PyTorch/TensorFlow/MindSpore等主流框架零程式碼遷移。

分散式訓練加速庫CNCL:萬卡叢集通訊延遲<2μs(對標NCCL),線性加速比達0.93(千卡規模)。

(3)多晶片互聯&推理加速引擎

2021 年,公司在發布思元290 智慧晶片時,首次推出自研的MLU-Link 多芯互聯技術,對標輝達的NVLink,幫助算力叢集執行高效的多芯多卡訓練和分散式推理任務。

2022 年,公司發表MLU370 X8 算卡,搭載了MLU-Link,為每顆晶片提供200GB/s 的額外跨晶片通訊能力,頻寬是PCIe 4.0 標準的3 倍。本公司為多卡系統特別設計了MLU-Link 橋接器,可實現4 張雙芯MLU370 X8 算卡的互聯。

下圖:寒武紀的「NVLink」—MLU-Link

推理加速引擎技術:擁有業界首個基於MLIR圖編譯技術達到商業化部署能力的推理引擎MagicMind,用戶只需投入極少的開發成本,即可將推理業務部署到寒武紀全系產品上,並獲得頗具競爭力的性能。

(4)策略差異化,垂直產業解決方案

① 客製化IP授權模式

提供晶片-演算法協同設計服務,讓客戶可以根據業務需求客製化運算單元(如增加特定算子),比較輝達的通用GPU方案,更貼合垂直場景需求。

在同等算力下,寒武紀加速卡價格約為輝達A100的60%-70%,且提供在地化技術支援團隊,反應速度更快(如48小時內現場調試

② 垂直產業解決方案

在智慧城市領域,寒武紀與海康威視、商湯科技合作,優化視訊分析模型的端雲協同推理效率。

在自動駕駛領域,其MLU370晶片支援多感測器融合運算,已進入部分車企的雲端訓練平台供應鏈。

受惠於「東數西算」工程及信創政策,寒武紀被納入多地智算中心採購名單(如北京、上海人工智慧算力平台),取代國際廠商份額。

三、市場空間與競對

1. 市場空間:算力供需缺口龐大

需求端:2025年中國企業AI算力投入約1,200億美元,50%資金用於AI晶片採購,預計需求300萬-400萬張卡片(以每卡10萬元估算)。

供給端:輝達H20晶片受限(實際到貨僅50萬張),疊加華為等國產產能不足,全年存在150萬-200萬張卡的缺口,2026年缺口或擴大至200萬張以上。

寒武紀的替代空間:憑藉下一代訓練晶片(如思元590/690)性能提升70%-80%,2025年產能規劃翻倍,可望承接超30%的國產替代需求。

2024年全球AI晶片市場份額,輝達、AMD、英特爾三家共佔比91%,其中,輝達一家就高達80%,寒武紀市場佔比約1%。

下圖:全球2024年AI晶片市場份額

2、競爭對手格局

國際巨頭輝達的生態霸權 :CUDA生態壟斷全球近90%AI軟體開發。 寒武紀思元590,採用7nm製程,整體性能約為輝達A100的80%,而A100本身性能弱於H100。這意味著思元590與H100(4nm製程)相比甚遠。

下圖:國內外主要競對:

另外,沐曦整合:全國產化GPU,自研GPGPU架構,支援PyTorch、TensorFlow等框架,實現「端到端」任務調度,直接對標輝達高階晶片,且獲國資背景基金加持,在技術與資金方面都有一定實力。

壁仞科技:其首款通用GPU晶片BR100系列採用7nm製程,整合770億顆電晶體,單晶片峰值算力達PFlops級別,FP32算力超1000TFlops,INT8算力超2000TOPS,性能對標國際旗艦產品,峰值算力是輝達A100的3倍比威以上。

同時阿里等網路廠商也在使用自研晶片,這些都對寒武紀構成了競爭壓力。

四、產業鏈

AI 晶片產業鏈上游:主要包括 晶片EAD設計工具、AI 演算法與IP授權;

中游:晶圓製造、代工和封測環節;

下游:應用包括但不限於 AI大模型、雲端運算、智慧駕駛、智慧醫療、智慧穿戴、智慧機器人等。

1、上游:晶片設計和IP授權等

(1)晶片設計與IP授權

AI 演算法主要包括視覺演算法、語言處理演算法、自然語言處理演算法、機器學習等,晶片設計工具主要涵蓋 EDA 軟體、IP 模組與硬體模擬設備。

設計公司:寒武紀專注於AI晶片設計,提供雲端(如思元系列)、邊緣端晶片及IP授權。

EDA工具與IP供應商:華大九天(EDA工具)、芯原股份(IP授權)等,為寒武紀晶片設計提供技術支援。

2、中游:晶片製造&封裝

(1)半導體材料與設備

材料:滬矽產業(矽片)、江豐電子(靶材)、晶瑞電材(光阻)等,提供晶片製造基礎材料。

設備:中微公司、北方華創、拓荊科技、華海清科等,提供光刻、蝕刻、薄膜沉積、CMP設備等關鍵設備,支撐晶片製造流程。

(2)晶圓製造

① 代工廠:中芯國際(14/7nm製程)、華虹公司(28nm以上製程),負責寒武紀晶片的晶圓製造。

② 封裝測試:封測企業,長電科技、通富微電、華天科技等,完成晶片封裝與測試環節,確保晶片效能穩定。

3、下游:應用

AI 晶片依應用場景的不同可分為雲端、邊緣端及終端 AI 晶片,下游應用包括但不限於 AI大模型、雲端運算、智慧駕駛、智慧醫療、智慧穿戴、智慧機器人等。

(1)AI伺服器:浪潮資訊(全球市佔率領先)、中科曙光(國產伺服器龍頭),新華三等,整合寒武紀晶片用於智慧運算設備或資料中心。

(2)網路:字節跳動、騰訊、阿里等網路大廠企業採購寒武紀晶片用於AI訓練與推理。

(3)金融能源與安防等應用:銀行、證券機構利用寒武紀晶片進行風險評估、智能投顧等;海康威視等企業可能採用寒武紀晶片提升視訊分析能力;國家電網等企業用於智慧電網監測與最佳化。

五、「寒王」總結&展望

寒武紀作為中國AI晶片領域的輝達,近年來實現了從虧損到獲利的逆襲,是中國AI晶片產業步履蹣跚與自主突破的縮影。

從2024年Q4首次實現單季獲利,2025年第一季淨利3.55億元,實現上市以來首次連續季獲利。徹底擺脫長達8年的虧損狀態。資本市場對寒王的熱捧,是技術突破與產業邏輯的雙重對應。 2025年8月下旬市值突破5,200億元,背後主要有三重因素:

其一、技術代差彌合:思元590在Transformer模型訓練效率上達業界領先水平,新一代思元690送測數據顯示性能逼近H100的80%;其二、國產替代剛偉達H20晶片安全漏洞和停產,疊加審批尺寸V3.1的UE8M0FP8資料格式,主要是針對即將發布的下一代國產晶片而設計,按進度,很可能有寒武紀的690晶片.

儘管光芒耀眼,寒武紀也面臨者以下挑戰:

首先,是客戶集中度之困:2024年年報顯示,第一大客戶貢獻79.15%營收,過度依賴頭部企業的採購周期,若該企業等自建算力叢集,業績可能斷崖式下跌。

其次,是研發投入之惑:雖然2024年研發佔比達91.3%,但研發人員從2022年的1,205人減至752人,技術迭代速度面臨壓力。

然後,就是生態建構之難:輝達CUDA開發者超500萬,而寒武紀MLU生態尚處襁褓,僅10萬左右開發者,軟體適配成本高企制約商業化進程。

至於其高估值引發市場熱議,或許仁者見智。截至2025年8月,其本益比高達4,000倍,市銷率也遠超業界平均。高估值與多年虧損形成鮮明對比,目前估值是否已透支未來預期,值得警覺。不過,這輪國產替代的東風,背後的隱密力量,也值得深思!

總之,站在AI算力革命的十字路口,寒武紀既是國產替代的先鋒,也是技術長徵的先驅。其未來的價值,不僅在於晶片效能的突破,更在於能否建構起媲美輝達的「硬體+軟體+開發者」生態帝國。

正如寒武紀在財報中所言:“我們始終相信,人工智慧的未來,屬於那些敢於在算力荒原中播撒火種的拓荒者。”

在這場沒有硝煙的科技戰中,寒武紀能否從“國產替代者”蛻變為“全球定義者”,中國的AI晶片能否不再被卡脖子?答案或許就藏在思元晶片閃爍的電晶體裡,寫在開發者社群一行程式碼中,亦或錒刻在每一位科技奮鬥者,堅定的眉宇間! (Aiden的硬科技行研)