#寒武紀
寒武紀688256
中科寒武紀科技股份有限公司(簡稱“寒武紀”)成立於2016年3月15日,由中科院計算技術研究所孵化,核心創始人陳天石、陳雲霽兄弟為人工智慧與晶片設計交叉領域的先行者。公司自成立起專注研發人工智慧晶片,致力於建構覆蓋雲端、邊緣端與終端的全場景智能處理器產品體系,2020年7月20日在上海證券交易所科創板上市,成為“A股AI晶片第一股”。公司簡介發展歷程技術奠基與早期突破(2016–2019)寒武紀在成立初期即聚焦底層核心技術研發,掌握了智能處理器微架構、指令集、SoC設計、編譯器、驅動等全端技術。2017年,公司首款商用終端AI處理器“寒武紀1A”被整合於華為麒麟970晶片,應用於Mate 10手機,成為全球首款商用AI手機晶片,一舉奠定行業地位。2018年,其升級版“寒武紀1H”繼續應用於麒麟980晶片,推動端側AI大規模落地。此階段,公司IP授權業務高度依賴華為,2019年該業務收入佔總收入92.56%。上市與持續虧損期(2020–2023)2020年7月,寒武紀登陸科創板,募資25.82億元,成為當時科創板稽核速度最快的企業之一。但上市後公司仍處於高投入、低回報階段,2020–2023年累計虧損近50億元。2020年財報顯示,公司淨虧損4.36億元,主要因持續加大雲端晶片(思元100、270、290)和軟體平台研發投入,以及股權激勵產生的股份支付費用。2019年,隨著華為自研NPU技術成熟,寒武紀IP授權收入驟降,公司被迫加速拓展新客戶,轉向雲端運算、營運商、金融等垂直行業。業績拐點與爆發式增長(2024–2025)2022年底全球AI大模型興起,疊加美國對華高端晶片出口限制,國產算力替代需求激增,寒武紀迎來關鍵轉折。2024年第三季度起,公司實現首次單季度盈利,開啟連續盈利周期。財務狀況發展前景寒武紀正處於從技術突破邁向規模化商業落地的關鍵躍升期,其發展前景由AI算力需求爆發、國產替代加速、全端生態建構與資本強力支援共同驅動公司業績爆發的核心動力來自雲端智能晶片及加速卡業務,思元590等新一代雲端晶片已在網際網路、金融、營運商等頭部客戶中實現規模化採購,訓練與推理性能接近國際主流產品,支撐大模型在搜尋、廣告、推薦等核心場景的落地。公司以自研的Cambricon Neuware軟體平台為核心,建構統一生態。該平台全面相容PyTorch、Triton等主流框架,成功適配DeepSeek-V3.2-Exp、Qwen、Llama等主流大模型,顯著降低開發者遷移成本。2025年10月,公司完成39.85億元定增,資金重點投向新一代大模型晶片平台與軟體平台建設。截至2025年9月30日,公司存貨達37.29億元,較上季度末增長38.6%,預示著強勁的訂單交付預期。寒武紀已成為中國AI晶片產業的代表性企業,2025年8月股價一度超越貴州茅台,市值突破6000億元,市盈率(PE-TTM)顯著高於行業平均水平,反映出資本市場對其技術稀缺性與國產替代敘事的高度認可。風險與挑戰客戶集中度高:2024年第一大客戶貢獻收入超92億元,單一客戶訂單波動可能對業績造成顯著影響。高估值回呼風險:當前估值水平遠超行業均值,若產品迭代或客戶拓展不及預期,存在估值回歸壓力。供應鏈與地緣政治風險:作為Fabless模式企業,且曾被列入實體清單,先進製程供應鏈的穩定性仍是長期挑戰。 (投研驛站riskon)
半年2億營收,400億市值,它又是「寒武紀」?
作為光通訊的“心臟”,光晶片,是AI數據高速傳輸的核心引擎。而高階光晶片,長久以來一直被海外壟斷,是產業鏈上的「卡脖子」環節。直到堪稱光晶片「寒武紀」的企業,悄悄打破壟斷,成為支撐中國光通訊和AI產業的關鍵力量。012018年,一則訊息在光電圈驟起波瀾:源傑科技的25G雷射晶片,成功通過客戶驗證。在「中科創星」創始合夥人米磊看來,「這是一件非常了不起的事」。雷射晶片是光晶片的一種,可將電訊號轉為光訊號,實現光纖資訊傳輸,是光通訊的核心部件。簡單理解,DFB適用於中距離傳輸,EML適用於長距離傳輸,VCSEL適用於短距離互聯。▲來源:智研諮詢報告《2025年中國光晶片產業發展歷程、市場規模、競爭格局及未來趨勢研判》長期以來,中國25G以上高速光晶片被外企壟斷。即便如今,國產化率僅有5%,海外廠商仍佔主導。而源傑的突破,使中國光晶片企業第一次躋身國際巨頭壟斷的戰場。實現這一突破的,是一位神秘的「技術隱士」:張欣剛。這位70後的美籍華人,清華本科畢業,是南加州大學材料博士。 2001年起,他從Luminent(「索爾斯光電」前身)研發員、研發經理,一路幹到「索爾斯光電」研發總監。而“索爾斯光電”,2024年位列全球光模組企業第10,有光通訊行業“黃埔軍校”的美譽。這份無可挑剔的履歷,意味著張欣剛幾乎精通光通訊全產業鏈。2013年,他帶著科技和理想回國,在鹹陽創立源傑科技。在某些人看來,張欣剛很「難搞」。「他經常躲在實驗室,很少出來應酬,對外部資本態度保守。」一位接觸過他的投資人回憶道。但在米磊看來,這恰恰是成事的最重要特質。於是,他不停拜訪張欣剛,下決心要投源傑。「N顧茅廬」之後,2019年,中科創星終於「領投」源傑,在公司估值暴漲前拿下了「入場券」。真正的轉折點,來自華為「哈伯投資」的入局。2020年,華為的工程師在探討「光晶片企業哪家強」時,有人提到了源傑。靠著過硬的品質和口碑,源傑打入華為供應鏈,同時引來了哈伯投資的注意。結果,原本三個月的盡調被壓到一個月,審批流程從數週縮至數天,哈伯入局源傑堪比光速。這像一顆信號彈,照亮了創投市場。很快,近200家機構遞交了投資意向書,源傑周圍迅速集結起中科創星、哈伯投資、國投創投、國開基金等一眾知名投資機構。而伴隨5G基地台的大規模部署,源傑的業績也迎來爆發性成長。根據C&C統計,2020年,在磷化銦(InP)半導體雷射晶片國內廠商中,源傑收入排名第一;其中,10G、25G雷射晶片出貨量國內第一,2.5G雷射晶片出貨量位居前列。產業東風+資本加持,2022年12月,源傑科技成功登陸科創板。資本市場的賦能,讓源傑有了更大的底氣。2025年,AI風口崛起,算力需求爆發。源傑乘風而起,針對400G/800G光模組研發的CW 70mW雷射晶片,實現大規模量產。這款雷射晶片,具備高功率、高耦合效率、寬工作溫度的性能,對設計、製程、測試的要求極高。但憑藉著在DFB光晶片領域的深耕,源傑完美攻克難題。隨之而來的,就是業績與股價的雙雙暴漲。2025年上半年,源傑實現營收2.05億,年增70.57%;歸母淨利0.46億,年增330.31%。其中,資料中心及其他業務收入1.05億,年比暴漲1034.18%,成為拉動績效的核心動力。同時,股價高歌猛進,近半年從最低88.1元漲到最高509.15元,最高漲幅達477.92%;公司市值也從75億飆升到超過400億。張欣剛的身家,也隨之突破50億。022015年,西安鹹陽機場。一輛陳舊的奧拓,停在幾個日本人面前。當時,源傑打算向日本廠商買半導體設備,報價百萬。但因為源傑名氣小,對方懷疑其實力,決定實地考察。結果,接機的竟是一輛破奧拓。日本代表當場面露疑色,極度懷疑源傑是“騙子”,一度不敢上車。這一幕,正是張欣剛創業之初最酸澀的註腳。2011年冬,張欣剛懷抱夢想,前往中關村融資時,同樣備受質疑。當時,光晶片高度依賴日、美進口,國內製造DFB(分散式回饋雷射晶片)的企業幾乎沒有,國產替代潛力巨大。一般人或許很難理解DFB晶片的作用,打個比方:如果資料中心裡的光模組是一個“快遞站”,那麼,DFB雷射晶片就是“發包機”:它透過發出單色雷射和明暗訊號,來傳遞0、1資料。最關鍵的是,DFB適用於中長距離傳輸,在無線基地台、資料中心等領域用途廣泛。但張欣剛試圖募集數千萬、打造光晶片產線時,卻被人視為天方夜譚。原因很簡單,晶片製造是重資產產業,投資大、週期長、見效慢,砸多少錢才能回本?更何況,幾千萬,能幹啥?只有中橋創投,投出了天使輪。原因也很簡單,投資人重視張欣剛幾乎乾過光晶片全鏈條,從產線搭建、設備選型、材料採購,到晶片設計、測試、製程優化。最重要的是,他都乾成了。本質上,是賭張欣剛這個人。於是,張欣剛揣著第一筆投資2000萬,在鹹陽建廠、開乾。多年後,他很慶幸這個選擇:如果工廠建在北上廣,沒準團隊早散了。也是因為錢少,才有了用奧拓接客戶的窘迫,每一分錢都用在刀刃上了。光晶片製造,大致分為晶圓設計、外延生長、刻蝕、減薄拋光、封裝等環節。而打造25G以上高速率晶片,晶圓的「外延生長」最關鍵。它難就難在,不僅要在半導體材料中實現多層精準堆疊,每層厚度還要控制在10奈米之內。一旦製程不過關,半導體材料易氧化,光晶片可靠性就會大打折扣。那些年,張欣剛天天泡在實驗室,春節都不回家,只為盡快實現技術突破。用他自己的話說:“我是騎虎難下了。”2018年,源傑25G雷射晶片,通過客戶驗證,然後有了中科創星、哈伯投資等一眾機構紛至沓來。然而,市場嗷嗷待哺時,張欣剛選擇主動「減速」。例如,源傑的12波25G MWDM雷射晶片,是5G基地台建置的關鍵裝置。但研發成功後,張欣剛不急於量產,堅持要先完成「雙85」可靠性測試,即:在溫度85℃、濕度85%的極端環境下,對晶片進行長期老化考驗。這一測,就是3年。有的客戶急不可耐,想盡快拿貨大干快上。但張欣剛的原則並未輕易改變:產品必須先抽樣測試,經過一個月以上的可靠性驗證,才能批次供貨。在「快魚吃慢魚」的商業世界,這樣的「保守」並不合時宜,卻為源傑贏得了「可靠」口碑。而包括華為在內的客戶,一旦認可了源傑的產品,基本上都會選擇長期綁定。因為他們知道,源傑不會為了短期利益,犧牲可靠性。這份不起眼的堅持,贏得了巨大的回報。2020年,源傑在磷化銦(InP)光晶片領域實現營收第一,10G、25G晶片出貨量登頂產業榜首。2021年.源傑25G MWDM雷射晶片斬獲「中國光電博覽獎」金獎。從中際旭創、海信寬頻、博創科技等光模組廠商,到中興通訊、諾基亞,甚至行動、聯通、電信三大電信營運商,都成了源傑的客戶。在張欣剛看來,正是因為科技迭代太快,所以,晶片反而要靠耐心和韌性去打磨。03耐心的張欣剛,也始終以前瞻仰賴公司的發展。2020年,矽光技術還未成為業界熱點,但他已敏銳捕捉到這一領域的潛力:用矽光子技術打造的高功率晶片,更小、更快、更省電,必將在AI數據中心成為主力擔當。也正是這樣的佈局,讓源傑實現了對國外巨頭的加速追趕。2025年,源傑開發出用於400G/800G光模組的CW70mW雷射晶片,實現大規模量產;同時,CW 100mW雷射晶片,也順利通過客戶驗證。在長距離傳輸的EML晶片領域,源傑的100G PAM4 EML通過客戶驗證,打破國際壟斷;200G PAM4 EML也完成開發,開始客戶推廣。在更前沿的CPO(光電共封裝)領域,源傑研發的300mW高功率CW光源,也實現了突破。結果,AI算力需求一爆發,直接轉化為源傑應接不暇的大單。2025年5月、8月、10月,源傑分別斬獲6,187.16萬、1.41億、6,302萬人民幣的超大訂單。光是這三單就合計2.65億,超越源傑2024全年的營收。這是市場對源傑技術實力的認可,也是對張欣剛策略抉擇的回饋。2024年底,源傑斥資5,000萬美元,啟動美國生產基地建設。實際上,源傑99.88%的營收在國內,出手在美國建廠,張欣剛的考量是:只有“走出去”,才有大未來。事實上,張欣剛在技術策略選擇上,一直很前瞻。早年間,他參加一場行業交流會,親眼目睹國外大廠的強勢和代理小廠的孱弱,強烈的危機感油然而生。因此,張欣剛力排眾議,選擇了一條少有人走的路,即IDM模式,也就是晶片設計、晶圓製造、晶片加工、封裝測試等全產業鏈都自己幹。這涉及上百道工藝的累積、打磨,要有長期「坐冷板凳」的決心。但唯有全流程自主,才能打破技術壟斷,將命運牢牢掌握在自己手中。事實證明,這個決策非常明智。實際上,國內不乏嘗試IDM的光晶片企業,但要不是製程不紮實,就是產能不穩定,能大規模穩定交付高階光晶片的寥寥無幾。而在晶圓工藝、外延生長這些「卡脖子」環節,源傑不僅練出了硬實力,更透過IDM模式,打通了設計、製造、測試的全流程。這正是源傑既能在中低端持續放量、佔優勢,又能反哺高端、不斷突破的根本原因。如今,全球的高速率光晶片市場,依然被住友電工、馬科姆(MACOM)、博通(Broadcom)等歐美日企業牢牢把持;特別在EML(電吸收調製雷射器晶片,光模組核心組件,適用於長距離高速傳輸)、VCSEL(垂直腔面發射國外器晶片,用於光模組、自動駕駛、人臉對車所以在張欣剛看來,要打入高端,就必須佈局美國。打入全球市場核心圈,與國際頂級客戶合作,才能掌握最前沿的技術動態,捕捉最高端的客戶需求,並實現技術和市場的雙重突破。ICC訊石諮詢數據顯示:2024年,全球光通訊電晶片市場規模達39億美元;預計2029年將達97億美元,複合年增長率20%,是半導體領域最具成長性的賽道之一。誰能掌握更先進的光晶片技術,誰能在未來的6G、AI的競賽中佔據更大先機。以源傑為代表的中國光晶片企業,正在加速追趕,合力為中國AI贏得更多加分。
騰訊造出160億超級獨角獸:要上市,和寒武紀競爭
這個秋天,騰訊接連豐收。它重倉投資的一個超級獨角獸——燧原科技,又重啟IPO輔導了(科創板)。此前,它押注的矽基智能向港交所遞交了招股書,投資的明略科技成功IPO。大家都知道寒武紀,可能也會知道摩爾執行緒、燧原科技、壁仞科技、沐曦科技等。燧原是它們的競爭隊友,做國產GPU的。據胡潤資料,其估值被披露為160 億元。一個明顯的特徵——燧原與騰訊有很深繫結關係。成立僅5個月,騰訊就領投其3.4億元,當年還打破了行業紀錄;隨後幾年,騰訊連續參投多輪,成為了其第一大機構股東,持股比例約為20%。儘管有騰訊支援,但燧原所在的賽道,市場環境複雜。燧原的主力客戶之一是:算力中心。即使有技術突破,但客戶敢不敢用、願不願用國產方案,又是另外一回事,過程不是一蹴而就的。另一個挑戰因素:算力中心的建設在嚴格被管控(需要審批)。2025年4月起,多地就接到了對算力基礎設施建設實施“窗口指導”的通知。據鉛筆道瞭解到,審批率通常不超過10%。這就意味著,需要買卡的企業變少了。本文將分析燧原科技的崛起過程,以及國產GPU的未來機會與挑戰。【福利推薦】作為科技公司,你是否想打品牌、做PR、整內容?鉛筆道為你助力,寫稿999元起,傳播599元起,還有更多傳播套餐,低預算換高曝光,讓品牌被看見,PR聲音被聽見,訂單資源找上門。- 01 -國產GPU人才的培養,確實要感謝AMD。多家國產GPU獨角獸的創始團隊,都是AMD出來的。比如近期IPO的沐曦,老闆陳維良曾是AMD全球GPU SoC設計總負責人。再有就是本文的燧原科技,創始人叫趙立東,本科畢業於清華大學電子工程系,曾在AMD美國總部擔任產品工程部高級總監;其聯合創始人叫張亞林,在AMD上海研發中心工作11年。2018年3月,這兩位老兵在上海張江創立“燧原科技”。5個月後,騰訊聞著味就來了:領投燧原科技3.4億元,創下當年晶片賽道融資記錄。2018-2025,“燧原科技”大約發佈了三代產品。其中有訓練晶片,也有推理晶片。這裡多解釋一句。訓練晶片幹嘛的?用來訓練大模型的;推理晶片呢?是用來運行大模型的。2020年12月,第一代訓練晶片上線;一年後,第一代推理晶片上線。上線後,VC武岳峰又領投了它7億元。接下來兩年,燧原科技陸續推出了第二代、第三代產品。當然,燧原科技不完全只做GPU。還做AI加速卡、算力叢集系統、軟體平台及服務等。為何?因為它的主力客戶是算力中心(營運者),客戶有多個需要。燧原科技搭載在算力中心的產品。 圖源:燧原公眾號作為算力中心,我是需要GPU沒錯,但如果算力非常大,我就需要算力叢集系統,把成千上萬個伺服器連起來,一起訓練大模型;我還需要AI程序能在這些硬體上運行,這就需要軟體平台及服務。提到這個應用場景,相信很多人就能明白:國產GPU為什麼能崛起。因為國產替代。就舉一個最硬核的例子。燧原科技的第一大股東(持股約20%)——騰訊,之前大多找誰買GPU?幾乎全依賴輝達。比如騰訊的AI 推理曾主要用輝達 A100,而中國移動的算力叢集多採用輝達H100。所以這是個壟斷市場,一旦壟斷,必然會面臨幾個問題:一個是斷供,受限於出口管制;二是貴,單卡成本超過10萬元;三是軟體生態封閉,企業定製難。誰能打掉這三個痛點,行業就支援誰。燧原科技的解決思路是啥?1、把產品做便宜,燧原S60價格比同性能輝達晶片“便宜不少”。2、軟體上,開放“馭算”平台支援客戶二次開發,比如為美圖快速適配“AI 換裝”的突發算力需求。當然,它還支援定製萬卡叢集。此外,既然是中國公司,自然不涉及出口管制問題。【社群推薦】您是科技服務業的一員嗎,是否對服務科技產業有巨大熱情?鉛筆道發起【科技服務產業俱樂部】,希望聚集一群志同道合的科技服務人,一起發現並培育科技獨角獸,共築10兆藍海市場。- 02 -那麼發展到今天,GPU的“國產替代”問題解決到那一步了呢?如果你要問市場份額,那麼可能是30分(滿分100分)。為何?賣不出去。現實的問題是:如果讓客戶自由選擇,算力中心幾乎不會買國產晶片。很簡單,它如果買了,算力就賣不出去,只能砸手裡。這一現象,鉛筆道已向多家頭部AIDC公司確認。就算是國產晶片老大哥——華為,也面臨這一市場現象。客戶不會用腳投票的:我買的不是卡,買的是最終體驗,最終結果。卡的性能固然重要——部分國產晶片的性能,在特定指標上已經能媲美輝達——但是,決定晶片能否“好用”的,遠不止是硬體參數,軟體生態也很重要,而國產GPU的最大短板就在於此。這就好比,你有一部性能極強的手機,但是裡面沒有APP可以用。因此,國產GPU的份額目前還很小。根據伯恩斯坦等國際機構2025年的預測資料,中國 AI 算力晶片市場中,輝達以54%的份額位居首位,華為超20%,AMD、寒武紀、其他國產GPU合佔不到20%。那有人要問了:這不還有30%-40%嗎?成績不錯。這裡面有很多“政策訂單”、“信創訂單”。如果在自由市場經濟下,國產GPU的份額會更小。具體到本文的燧原科技,在中國AI 算力晶片市場,份額佔比極低。- 03 -如果回到5年前,國產GPU到處是藍海,到處是機會。但到了今天,沒那麼好幹了。一個直接的原因是:算力中心夠多了,該買的卡也買的差不多了。以算力中心而言,如果是3年前,建設算力中心是當紅炸子雞。但現在,建設算力中心已經是一個“需要審批”的賽道,並且審批通過率非常低。據鉛筆道瞭解到,通過率可能低於10%。2025年4月起,多地就接到了對算力基礎設施建設實施“窗口指導”的通知,並開展了全國性的算力摸底工作。因此,國央企、地方政府等機構,已經大幅減少了算力中心的投資步伐。對於民營企業,如果過去3年沒有足夠的營運案例,審批通過率幾乎為0。審批收緊,意味著算力中心已經被視為“過熱賽道”,意味著國產GPU的訂單可能變少。在競爭格局上,除去輝達、華為等超級巨頭,新玩家還需要面臨超級獨角獸的競爭,比如寒武紀、燧原科技、壁仞科技、摩爾執行緒、沐曦科技等。這種情況下,如果瞄準的是“通用型GPU”,那麼機會是微小的;但如果是垂直行業晶片——比如醫療影像AI專用晶片——或許會有機會。這裡面有一個核心邏輯:在專用場景中,“通用型GPU”的使用體驗會更差。這種“差”,不是說後者不具備這些功能,而是它的成本、效率、功耗令人難以承受。通用型GPU是全能選手,而在執行專項任務時——比如遊戲設計——只需要用到渲染相關的電路,其他無關的電路就會空轉,會消耗更大的電力。以上又會不會帶來其他影響?比如生產價格是不是會更高,晶片體積是不是會更大?單從這些經濟帳裡,“專用型晶片”的潛在機會就體現出來了。比如醫療晶片。根據恆州誠思調研資料,2024年全球人工智慧醫療影像分析晶片收入規模約 207.6 億元,預計到 2031年收入規模將接近857.0億元,2025-2031 年年複合增長率為 22.2%。醫療需要用AI晶片做什麼?AI輔助診斷、精準醫療和藥物研發需求。這些需求都比較新,對硬體的需求也在進化中,或許存在顛覆巨頭的機會。 (鉛筆道)
5兆輝達回頭看:「寒武紀們」被低估了嗎?
人類歷史上第一家5兆市值公司誕生了。這個數字,超過了德國或英國一年的GDP,比A股所有「中」字頭股票的市值總和還要多。而創造這個奇蹟的,是一家在三十年前還只是在電腦城裡「賣顯示卡」的公司-輝達(NVIDIA)。作為AI的“賣鏟人”,輝達在人類對於人工智慧近乎宗教般的狂熱夢想中,一路高歌猛進。短短兩年時間,它的市值從1兆沖到5兆,其增長速度本身,就構成了這個時代最魔幻的註腳。很顯然,今天它當然不只賣鏟子。如果說上一輪的科技浪潮,是蘋果定義了「移動互聯網」的入口;那麼在這一輪波瀾壯闊的「智慧革命」中,輝達幾乎成為了整個AI世界的「中樞神經」和「唯一入口」。晶片,是鏟子、是石油、是電力……是人類關於Matrix所有想像的實體底座。沒有輝達的GPU,就沒有ChatGPT的橫空出世,就沒有Sora的以假亂真,就沒有今天我們談論的一切「大模型」。在輝達沖上5兆的時刻,我問一位在AI行業的朋友,這家公司有泡沫嗎?他幾乎是即時地回答我:目前看不到任何泡沫的跡象。其實也可以理解。為什麼?因為全世界的公司,從Google、微軟、OpenAI這樣的巨頭,到成千上萬試圖在AI浪潮中淘金的創業公司,都在排著隊,揮舞著現金,只為求購英VIDIA的H100或B200晶片。這種「剛性需求」的強烈程度,堪比沙漠中的淘金者對水的渴望。我在上個月給經濟觀察報的專欄文章《輝達進化論:當AI賣鏟人開始淘金》裡就寫道,這位最成功的“賣鏟人”,已經不再滿足於僅僅是提供工具本身。它正在從一個單純的硬體供應商,變成了一個與AI浪潮核心玩家深度綁定的利益共同體。這是一個完美的商業閉環。但即便如此,中國也不是沒有機會。當地緣政治的鐵幕落下,黃仁勳不久之前已經放話,中國高階AI晶片市場的佔有率「已經是0%。然而,中國作為唯一能在AI領域與對岸叫板的龐大市場,其需求並不會因此消失。一個巨大的真空地帶形成了。於是,「國產替代」從一個可選項,變成了唯一的必選項,風起雲湧。那麼,一個更貼近我們自身的問題是:當輝達創下5兆市值的歷史豐碑時,我們到底該如何給「寒武紀」們估值?A股市場上的這些AI晶片公司,如寒武紀、景嘉微、海光資訊…它們是真正的“潛力股”,還是只是這場盛宴中被高估的“氣氛組”?最近,我正在重溫估值大師達摩·達蘭(Aswath Damodaran)的經典之作《故事與估值》一書。達蘭教授的核心觀點是,所有估值的本質,都是「故事」與「數字」的結合。從這個視角,或許能夠幫助我們更能理解,中國AI晶片產業的未來,以及那些看似「昂貴」的股價背後,究竟隱藏著怎樣的邏輯。01. 兆估值煉金術首先,我們必須弄清楚,輝達的5兆估值,這套「煉金術」是怎麼來的?如果只是看財務“數字”,輝達的表現當然是驚人的。我們來看一組它「印鈔機」業務-資料中心的財務資料:連續幾個季度,營收年增超過200%甚至400%,毛利率直逼80%。這是什麼概念?這意味著輝達賣一塊晶片的利潤空間,比蘋果賣一部iPhone還要高得多。這根本不是硬體生意,這是「壟斷稅」。但僅僅是這些“數字”,還不足以支撐起5兆的龐大帝國。真正讓輝達「點石成金」的,是它那個強大到令人窒息的「故事」——CUDA。CUDA是什麼?這是理解輝達護城河的關鍵。我們可以打一個通俗的比方:輝達的GPU晶片是“引擎”,就像電腦上的Windows或蘋果的iOS,CUDA就是一套獨一無二的“操作系統”。在CUDA出現之前,GPU雖然計算能力很強,但非常難用。開發者想用它來做AI計算,不亞於要用文言文寫代碼,門檻極高。而輝達在近二十年前就開始佈局,推出了CUDA。這套「操作系統」提供了一個相對易用的程式設計平台,讓全球數百萬的開發者能夠用更熟悉的“白話文”(C++、Python等語言)來指揮GPU這台“發動機”,去完成複雜的AI訓練和推理任務。當Windows和iOS透過「應用商店」鎖定了所有使用者和開發者時,輝達也透過CUDA「鎖定」了全球所有的AI人才。這種「硬體(GPU)+軟體(CUDA)」的組合拳,才是其真正的護城河。它導致了極高的“遷移成本”。什麼叫遷移成本?想像一下,你所有的AI研究成果、所有的程式碼、你團隊裡所有工程師的技能,都是基於CUDA這個「操作系統」建立的。現在,另一家公司(如AMD或寒武紀)造出了一款新晶片,就算它的「引擎」性能和輝達一樣強,甚至價格還便宜一半,你敢用嗎?你不敢。因為你的「Windows」應用,無法在「Android」系統上運作。你必須把過去十年的程式碼全部重寫,你必須讓你的工程師團隊重新學習一套全新的「語言」。這個成本,遠遠高於你省下的那點晶片錢。這就是「網絡效應」:越多人用CUDA,為CUDA開發的工具和教學就越多;工具越多,就有越多的大學開始教CUDA;教CUDA的大學越多,畢業後懂CUDA的工程師就越多;懂CUDA的工程師越多,企業就越傾向於選擇輝達的晶片…這是一個完美的正向循環,也是一個讓所有競爭對手絕望的「生態壁壘」。因此,輝達的估值,早已不僅是對其當前「數字」(獲利能力)的計算,更是對它未來在AI世界「唯一入口」和「事實標準」地位的「故事」定價。而華爾街相信的,是輝達在未來十年,都將持續向全世界收取高昂的「AI稅」。02. 夾縫中的新大陸現在,我們把目光轉回中國。地緣政治的賽局和供應鏈的限制,為中國本土的AI晶片廠商,意外地打開了一個「夾縫中的新大陸」。當輝達最先進的H100、B200晶片被一紙禁令攔在海關之外時,一個規模高達千億等級、並且仍在高速增長的龐大市場,被動地「讓」了出來。這個市場有多大?根據信通院等機構的測算,光是2024年,中國大模型市場對高階AI晶片的需求就可能超過50萬張,未來幾年的複合成長率驚人。這本應是輝達最肥美的“蛋糕”,現在,它只能眼睜睜地看著。這對寒武紀、華為昇騰、阿里平頭哥、壁仞科技、摩爾執行緒等所有本土玩家來說,是前所未有的歷史機會期。它們面對的,是幾乎沒有外部競爭、需求又極其確定的「溫室市場」。然而,這片「新大陸」並非坦途,甚至可以說是荊棘叢生。本土廠商面臨的核心挑戰,已經從“能不能造出晶片”,轉向了“造出的晶片有沒有人用”。在過去,我們評斷一款晶片,主要看PPA,也就是性能(Performance)、功耗(Power)、面積(Area)。我們的目標是創造一款在性能上接近輝達,同時功耗和成本更低的「平替」產品。但現在,所有人都明白了,沒有對標CUDA的成熟軟件棧,再強的晶片也只是“屠龍之技”,是中看不中用的“擺設”。國內的科技巨頭,如阿里、騰訊、百度、字節跳動,它們囤積的輝達晶片總有耗盡的一天。它們急需“國產替代”,但它們的需求也非常苛刻:這款國產晶片,必須能“用起來”,不能讓我的演算法工程師們把代碼全重寫一遍。於是,我們看到,所有國產AI晶片的頭部玩家,都把戰場從“硬體”轉向了“軟件”,試圖構建自己的“朋友圈”和“護城河”。目前,牌桌上主要有兩種流派:第一種,以華為昇騰(Ascend)為代表的「全端模式」。華為的打法,是複製一個「垂直整合」的生態。它不但有自己的昇騰晶片(硬體),還有自己的CANN(對標CUDA的底層軟體棧),甚至還有自己的MindSpore(對標PyTorch的AI框架)。這種模式的好處是控制力強,可以集中力量辦大事,實現內部的完美優化。缺點也同樣明顯:它相對“封閉”,是在試圖建立另一個“蘋果iOS”,要求開發者全面擁抱華為的技術體系。第二種,以寒武紀(MagicJian)為代表的「開放追趕模式」。寒武紀的定位更像是“中國的輝達”,它專注於做好晶片(硬體),同時提供一套名為MagicJian的軟件棧。它試圖更廣泛地去適配且相容主流的AI框架(如PyTorch),努力降低開發者的「遷移成本」。它的挑戰在於,作為一個體量遠小於華為的「中立」廠商,它是否有足夠的資源和號召力,去吸引開發者用它的「語言」?這場競賽的勝負手,已經不在於短期內誰的晶片跑分更高,而在於誰能更快地建構起一個「可用、易用、開發者願意用」的軟體生態,去承接這個因禁令而「溢出」的龐大市場。03. 從計算,到信念最後,讓我們回到最初的問題:寒武紀們被低估了嗎?如果我們嚴格按照達摩·達蘭的估值模型,只用「計算」的眼光去看的話,比如根據它們當下的出貨量、微薄的利潤率(甚至是大額虧損),以及高得離譜的市銷率(P/S),這些仍在追趕和巨額投入期的公司,其估值似乎根本無法支撐,泡沫明顯。以寒武紀為例,市值數百億人民幣,但年收入可能只有幾十億,而且仍在虧損。如果用傳統製造或半導體公司的標準來看,這無疑是昂貴的。但資本市場定價的,從來都不僅僅是“現在”,更是“未來”。對於A股的本土AI晶片股而言,它們的估值,本質上已經脫離了傳統「計算」的範疇,轉而成為一個「信念題」。這個「信念」包含幾個非常具體且層層遞進的層面:第一層信念:對「國產替代必然性」的信念。這是最基礎的信念。市場相信,無論主動或被動,中國AI產業對本土晶片的採購將是剛性的、不可逆的。地緣政治的「高牆」越高,這層信念就越牢固。因為所有人都明白,沒有底層的算力自主,一切「智慧強國」的宏圖都是沙上建塔。這為本土晶片提供了一個確定性極高的「保底」市場。第二層信念:對「中國AI市場長期成長」的信念。光有「替代」還不夠,這個「被取代」的市場必須夠大。市場相信,中國龐大的數字化經濟體量、海量的資料、豐富的應用場景,將共同催生一個不亞於北美的AI市場。從大模型、自動駕駛、生物醫藥到智慧製造,每個領域都是兆級的賽道。這個龐大的增量,為本土晶片提供了足夠高的「天花板」。第三層信念,也是最核心、最脆弱的信念:對「本土生態終將完成」的信念。這才是決定估值「是泡沫還是鑽石」的關鍵。市場在用幾百億、上千億的市值,去「賭」一個可能性:在華為、寒武紀或其他玩家中,至少會有一家,能夠克服萬難,最終建構起一個足以對標CUDA、能夠讓中國數百萬開發者順暢使用的軟件生態。為什麼說這層信念最脆弱?因為它不是必然的。它需要巨額的、持續十數年的研發投入,需要頂級的戰略耐心,需要龐大的工程師團隊夜以繼日地去“填坑”,更需要下游的客戶和開發者“用腳投票”,願意忍受早期產品的不完善,一起“共建”這個生態。因此,短期來看,寒武紀們的估值,反映的就是市場對這第三層信念的「搖擺」。當市場情緒樂觀時,比如華為昇騰又有了新突破,或者寒武紀適配了某款熱門大模型,大家覺得“生態好像快成了”,股價就會飆升,因為市場願意為這個“中國版CUDA”的遠景支付高額溢價。當市場情緒悲觀時,例如財報虧損擴大,或者某個技術難關遲遲無法攻克,大家又會退回到“計算”模式,覺得“故事講不通了”,股價就會暴跌。所以,討論“低估”還是“高估”,已經意義不大。我們必須明白,給這些公司估值,本質上不是在「計算」一家公司的當前價值,而是在「押注」一個國家產業突圍的機率。04. 生態,終局的博弈當輝達的市值沖向5萬美元時,它早已不是一家單純的硬體公司,它是一個「生態帝國」。而對於「寒武紀」來說,它們從誕生之日起,就註定了無法成為一家「小而美」的晶片設計公司。它們背負的宿命,就是要在中國這片土地上,重建一個獨立自主的AI「生態」。這是一場九死一生的豪賭,也是一場沒有退路的戰爭。從這個角度來看,寒武紀們的估值,目前仍然是一個「信念題」。這個信念,建立在地緣政治的「高牆」和中國市場的「縱深」之上。但信念無法永遠脫離現實。未來三到五年,將是國內AI生態的「攤牌期」。如果本土廠商無法提供真正「可用」的工具鏈,那麼國內的AI產業發展將被迫降速,甚至停滯,這個「信念」的基礎也就不復存在。反之,如果我們能在這場「夾縫」中,真的培育出一個或幾個開放、繁榮、足以對抗封鎖的AI新生態——那怕這個生態運轉的效率可能只有CUDA的70%或80%——那麼,今天我們看到的幾百億、幾千億市值,或許都還只是一個開始。 (深水研究)
前CTO梁軍把寒武紀告了,要賠43億!晶片圈炸了
寒武紀的前CTO梁軍,要告寒武紀了,要賠他42.87億!注意,是“億”,不是“萬”哦!金額大得離譜,這個案件已經立案。松松大概看了下事件緣由,事情經過大概是這樣的:梁軍在華為海思幹了17年,是麒麟晶片的總架構師,2017年跳槽去了寒武紀,當上了CTO,帶團隊搞出了思元290、370這些明星產品,寒武紀上市他功勞不小。2020年,寒武紀在科創板上市,梁軍間接持有公司1,150萬多股。按照現在市值計算,這些股份差不多值十幾個億!但關鍵問題是:這些股權都是“激勵股”,是有條件的,不能賣的。如果你在禁售期離職,公司就有權回購你的股權。也就是說:你離職了,手上的股票是要還回來的。(圖為2020年7月20日,寒武紀上市)梁軍到底是主動離職還是被迫走人?看新聞上說,2022年梁軍和公司(寒武紀)鬧矛盾,後來離職了,寒武紀就說按協議把股權收回來。梁軍不同意,說公司沒履行勞動合同,還不讓他減持股票,然後就自己接觸了合同,現在又反過來起訴了媽,索賠43億,說這是他股權的損失。現在各有各的說法:寒武紀說:梁軍是主動離職的寒武紀公司公告寫得很明確:梁軍因與公司分歧,於2022 年2 月10 日通知公司解除勞動合約。既然是“通知公司解除勞動合約”,就等於是梁軍主動提出的離職。寒武紀的立場是:你是主動走的,我們只是照你簽的協議辦事。梁軍說:我是被逼的梁軍在起訴書裡寫的理由是:原告被迫解除勞動契約。意思很明白了,大意是說表面上是我提出接觸勞動合約的,但原因是你公司有什麼條件不兌現,所以把我逼走的。如果梁軍能證明他是被迫離職的,那官司就有可能贏。推測梁軍勝訴機率很小,但算是免費廣告目前推測來看,梁軍想要證明自己是「被迫離職」的難度很大,因為離職合約是他本人簽的,他本人也拒絕辦理回購手續。除非梁軍能拿出確鑿的證據。不過這些都是盧鬆鬆的推測,具體還需要等法院開庭,找證據。只要梁軍能拿出【我是被逼離職】的證據,就能直接決定這43億股票該歸誰!不過就算梁軍贏了,也大機率拿不到43億,這金額太誇張了,要買就是和解,要麼就是像徵性的補償一下。另外這事對梁軍來說“利大於弊”:因為他現在自己創業了,搞了個晶片公司“昉擎科技”,自己做CEO,就算官司打輸了,這波曝光對他的心公司來說也是免費的廣告!從5萬多翻倍到42億,是個人都會眼紅啊寒武紀在前幾月被捧成「國產AI晶片第一股」。股價一口氣被炒到5000億市值。注意啊,這是「億」不是「萬」。也就是說,梁軍之前的那些股權從5萬多翻倍到42億,難怪會起訴寒武紀,是個人都會眼紅啊。不過網上也有各種陰謀論了:有網友說:寒武紀是在上市前趕人走,剛好觸發了「不能拿股票」的政策。也有人說:是梁軍自己離職的,公司只是照規矩辦事。寫在最後:寒武紀這兩年日子本來也不好過,泡沫很大,股價虛高,AI晶片又輝達碾壓式打擊。現在在來個「前CTO索賠43億」的新聞,很容易就貼上「卸磨殺驢」「對技術員不厚道」的標籤。梁軍現在自己當CEO了,和寒武紀是同行,是競爭對手了,這家公司剛拿到了「數億元」的天使輪融資。而且公司裡好多是來自寒武紀、華為、AMD出來的人。 (盧松松)
寒武紀對手要IPO了
上市,分水嶺。投資人懸著的心落地了。投資界獲悉,沐曦積體電路(上海)股份有限公司(下稱“沐曦”)IPO申請成功通過上交所科創板上市委會議審議,同時已提交註冊。沐曦,創投圈並不陌生——身後掌舵者陳維良,曾在晶片巨頭超威半導體任職十餘年,在這裡他結識了日後的兩位創業夥伴,最終在2020年創立沐曦。成立至今,公司身後的投資方多達百余家,名單之長令人咋舌。今年寒武紀股價飆升,市值最高破6000億,VC/PE看在眼裡不勝感慨。眼前GPU獨角獸集體衝向IPO,其中摩爾執行緒不到90天率先過會,也讓沐曦一度緊張。投資人豪賭中國版輝達的誕生,而上市,也許就是分水嶺。三位老同事上海超級IPO來了陳維良無疑是這支團隊的靈魂人物。出生於1976年,陳維良在19歲那年考入了電子科技大學微電子技術專業。本科畢業後,他又進入清華大學微電子學研究所攻讀碩士學位,後來開啟自己的晶片生涯。招股書披露他重要的一段經歷:2007年1月加入超威半導體上海公司,擔任高級總監。直到2020年,陳維良內心中萌生創業的念頭。當時在他看來,中國積體電路產業還存在很多薄弱點,其中高性能GPU就是其中之一。於是他決心投身創業,為此找來兩位老同事——彭莉、楊建,兩人都曾是超威半導體上海公司的企業院士。2020年9月,沐曦積體電路在上海正式成立,英文名則是“MetaX”。談及名稱的寓意,陳維良曾解釋,“Meta有起源的意思,X代表著未來。相信未來將由我們創造,中國缺少自主可控高性能GPU的歷史將由我們終結。”值得一提的是,沐曦的監事會主席、總經理助理陳陽,監事兼架構工程師王定,監事兼研發總監周俊,也均有超威半導體從業經歷。這支團隊歷時近兩年時間,在2022年1月將曦思N100交付流片。時至今日,沐曦的主要產品覆蓋人工智慧計算、通用計算和圖形渲染三大領域,先後推出了用於智算推理的曦思N系列GPU、用於訓推一體和通用計算的曦雲C系列GPU,以及正在研發用於圖形渲染的曦彩G系列GPU。憑藉於此,沐曦也曾入選清科控股“2024 年 VENTURE 50 風雲企業”、“2024 年 VENTURE 50 硬科技企業”榜單。眼下,AI晶片江湖格局初顯,沐曦也在招股書中明確,公司主要中國競爭對手包括以海光資訊、天數智芯、壁仞科技、摩爾執行緒等為代表的 GPU 晶片設計企業,和以華為海思、寒武紀、崑崙芯、平頭哥、燧原科技等為代表的ASIC 晶片設計企業。而對標市值上,他們都希望能成為下一個寒武紀。回顧多年創業歷程,陳維良曾表示:“我們當年剛開始進入這個行業的時候,都是希望能夠做一些有挑戰的東西。”如今,隨著沐曦成功過會,陳維良與團隊開啟下一段征程。百余家VC/PE投資人鬆了一口氣一紙招股書,揭開了沐曦的神秘面紗。招股書顯示,沐曦致力於自主研發全端高性能GPU晶片及計算平台,重點佈局教科研、金融、交通、能源、醫療健康、大文娛等行業應用場景。截至報告期末,其GPU產品累計銷量超過2.5萬顆。具體來看,沐曦主要收入來源為核心產品訓推一體晶片曦雲 C500 系列的銷售,作為對標輝達A100/A800的主力產品,曦雲 C500 系列在2023 年度、2024 年度和 2025 年 1-3 月,收入分別為 1546.81 萬元、72173.52 萬元和 31359.27 萬元,佔同期主營業務收入的比例分別為 30.09%、97.28%和 97.87%,最近一年一期佔比較大。但需要注意的是,沐曦成立至今尚未盈利。招股書披露,2022至2024年、2025年1至3月,營業收入分別為42.64萬元、5302.12萬元、7.4億元和3.2億元,歸母淨利潤分別為-7.8億元、-8.7億元、-14億元和-2.3億元。根據沐曦預計,公司達到盈虧平衡點的預期時間最早為 2026 年。一路走來,沐曦在創投圈融資火爆,身後股東超過100家。時間回到2020年成立後的次月,沐曦宣佈完成近億元天使輪融資,由和利資本、泰達科投聯合領投。此後,沐曦融資節奏馬不停蹄,2021年1月完成了數億元Pre-A輪融資,由紅杉中國領投,真格基金跟投,老股東和利資本及泰達科投繼續加碼。時隔一個月,沐曦又獲得數億元Pre-A+輪融資,由經緯創投與光速光合聯合領投,和利資本、紅杉中國、真格基金等老股東持續跟投。同年8月,沐曦股東陣容迎來“國家隊”——完成10億元A輪融資,由中國國有企業結構調整基金股份有限公司、中國網際網路投資基金聯合領投,老股東經緯創投、和利資本、紅杉中國、光速中國繼續超額投資,國創中鼎、智慧互聯產業基金、上海科創基金、聯想創投、招商金台、復星銳正、東方富海、創徒投資跟投。隨後在2022年7月,沐曦再度獲得10億元Pre-B輪融資,由上海混沌投資集團、央視融媒體產業投資基金聯合領投,上海國盛資本、中鑫資本、建銀科創、和暄資本、普超資本等機構跟投,老股東中國網際網路投資基金、經緯創投、國創中鼎繼續超額追加投資。此後,沐曦在很長一段時間內,未再對外披露過融資情況,直至此次衝刺科創板,最新融資動作才浮出水面。招股書披露,沐曦股份在今年2月和3月完成兩次增資,共計新增超80家股東,混沌投資及其創始人葛衛東攜手成為第二大股東,同時Monolith礪思資本、IDG資本、春華創投、同創偉業、卓源亞洲等知名機構也位列其中。至此,沐曦對應投後估值為210.71億元。二級市場投資人往往會將沐曦、摩爾執行緒拿來與寒武紀對標——對比下來,寒武紀今年市值突破6000億,最新股價超1500元/股,超越茅台登頂了A股“股王”。這意味著沐曦身後投資人有望收穫豐厚回報。時間競賽中國國產輝達,排隊IPO發令槍早已打響。無獨有偶,另一個GPU獨角獸摩爾執行緒同樣在衝擊科創板,爭搶“GPU第一股”。9月底,摩爾執行緒科創板IPO首發上市獲得通過,並提交註冊。此次IPO,從受理到過會用時不到3個月,創下行業最快紀錄。成立於2020年6月,摩爾執行緒專注於全功能GPU的研發與創新。公司創始人張建中曾擔任輝達全球副總裁兼中國區總經理,期間推動GPU技術在中國市場的生態建設。至今,摩爾執行緒已累計獲百億元融資,據招股書披露最後一輪融資情況,對應估值約為298億元。稍早前的8月,證監會官網也披露了燧原科技上市輔導備案已獲受理。自2018年成立以來,燧原科技已完成十輪融資,累計融資額近70億元,背後知名VC/PE雲集。騰訊更是連續多輪參投,位列第一大股東。不止於此,上海國投先導人工智慧產業母基金在今年3月宣佈,聯合領投壁仞科技,數家知名投資機構及產業資本跟投。此後,壁仞科技也向IPO發起衝刺。去年9月,壁仞科技在上海證監局辦理輔導備案登記,擬首次公開發行股票並上市。今年2月傳出消息,壁仞科技考慮在香港進行IPO。放眼望去,從自動駕駛到大語言模型再到具身智能,GPU已不是個人PC時代一張簡單的“顯示卡”,而是實現人工通用智能最底層的燃料,佔據著AI競爭的制高點,重要性不言而喻。中國市場更是“兵家必爭之地”。 IDC資料顯示,2024年中國加速計算伺服器市場規模達221億美元,其中GPU伺服器佔比69%,主導算力供給;預計到2029年,這一市場規模將突破千億美元。過去,中國高端AI晶片長期依賴進口,一旦供應鏈受阻,整個AI產業將面臨癱瘓風險。因此,中國AI想要加速崛起,算力支援必須跟得上,中國國產AI晶片勢必要實現突破,這便催生了一批中國國產力量的誕生。正如一家國資機構所言,從演算法到晶片體現單點突破,從晶片到叢集實現生態崛起,人工智慧的發展離不開算力築基,“智算贏未來,中國國產當自強。”浙商證券研究報告也指出,2025年中國國產算力崛起,需求端大廠資本開支延續高增態勢+算力中國國產化共識逐步形成;供給端先進製程突破,寒武紀、摩爾執行緒(擬上市)營收放量,華為公佈未來3年昇騰產品規劃,一條自主可控的中國國產算力產業鏈或在逐步成型。由此一來,2025年或將成為中國國產算力扛下大旗的元年。“投出我們自己的輝達”,這是無數風險投資人孜孜奮鬥的夢想。不少已經實現財富自由的技術大牛投身於此,眾多投資機構頂著“人傻錢多”的壓力也要毅然出手,原因無非是這一晶片賽道實在太重要,我們迫切需要擁有自己的一席之地。這是一場艱難且無法缺席的征途。 (投資界)
十篇論文,揭秘寒武紀AI晶片崛起之路
2025年8月27日,寒武紀(Cambricon)成功躋身國內AI晶片產業的頂尖行列,為持續火熱的全球AI競賽再添一把火。面對NVIDIA等國際巨頭成熟的技術生態,這家成立不過10年的公司,其核心競爭力源於何處?背後又沉澱了怎樣的技術思考?要回答這些問題,須將時間的指針撥回十餘年前,回到中科院計算所那間略顯寂靜的實驗室。在那裡,沒有紛繁的市場喧囂,只有伺服器持續的蜂鳴;沒有商業模式的探討,只有一行行旨在探索計算本源的程式碼與公式。從一對天才兄弟開始,從一篇篇發表在國際頂刊頂會的論文開始,一場關於計算架構的創新早已悄然醞釀。不同於依賴商業模式創新的公司,寒武紀的崛起是一條典型的“硬核”路線,其每一步成長,幾乎都能在其公開發表的學術論文中找到清晰的印記。這些論文不僅是其技術實力的硬核證明,也共同繪製出了一幅清晰的“技術路線圖”,讓我們得以洞悉其每一步的戰略抉擇與未來的方向所在。本文精選了從2014年至2025年間的十篇論文,從最初的“DianNao”架構到“Cambricon”系列的前沿AI晶片探索,為您清晰地呈現寒武紀的技術進化脈絡。1 奠基時代 “DianNao”系列的一鳴驚人寒武紀的誕生,源於一對學術兄弟的“十年磨一劍”。陳雲霽與陳天石的傳奇,始於年少時的共同選擇——雙雙考入中國科學技術大學“少年班”,並在那裡展現出超凡的學術天賦。這對天才兄弟的軌跡高度重合,他們先後進入中國電腦科學的搖籃——中科院計算所,師從“龍芯”總設計師胡偉武教授攻讀博士,並在國家核心的CPU研發項目中得到了最硬核的處理器設計訓練。這段深厚的學術履歷,成為他們日後顛覆性創新的基石。他們提出的“DianNao”系列是全球最早、最系統化的深度學習處理器架構研究之一,為後續的商業化打下了堅實的基礎。在深度學習浪潮之初,敏銳地預見到通用CPU/GPU在執行神經網路時的效率瓶頸,開創性地提出了一系列專門針對神經網路的硬體加速器架構,通過軟硬體協同設計,實現了數量級的性能和能效提升。NO.1DianNao: a small-footprint high-throughput accelerator for ubiquitous machine-learning神經網路的硬體全實現加速器作者:T Chen, Z Du, N Sun, J Wang, C Wu, Y Chen, O Temam發表日期:2014原文連結:https://courses.e-ce.uth.gr/CE432/voh0hmata/bibliographic%20project/papers1/asplos2014%20-%20Chen%20et%20al%20-%20DianNao%20-%20A%20Small-Footprint%20High-Throughput%20Accelerator%20for%20Ubiquitous%20Machine-Learning.pdf摘要:在本研究中,我們設計了一種針對大規模CNN和DNN的加速器,特別強調了記憶體對加速器設計、性能和能耗的影響。我們展示了設計一種高吞吐量加速器的可能性,該加速器能夠在3.02平方毫米的小尺寸和485毫瓦的功耗下執行452 GOP/s(關鍵神經網路操作,如突觸權重乘法和神經元輸出加法);與128位2GHz SIMD處理器相比,該加速器速度快117.87倍,並且可以將總能耗降低21.08倍。加速器的特性是在65奈米佈局後獲得的。如此高吞吐量的小尺寸可以推動最先進機器學習演算法在廣泛系統和應用中的使用。研究意義:“DianNao”的開山之作;這篇文章首次提出了一個簡潔高效的神經網路加速器架構,包含了核心的運算單元(NPU)、緩衝區和資料通路,其意義在於驗證了專用硬體加速器這條技術路線的可行性,是思想的火種。NO.2DaDianNao: A Machine-Learning SupercomputerDianNao加速器框圖節點佈局快照作者:Y Chen, T Luo, S Liu, S Zhang, L He, J Wang, L Li, T Chen, Z Xu, N Sun, O Temam發表日期:2014原文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7011421&tag=1摘要:在本文中,我們介紹了一種基於這些思路的定製多晶片機器學習架構。我們展示了在已知最大的神經網路層子集上,與GPU相比,可以實現450.65倍的加速,並且在64晶片系統中平均能耗降低150.31倍。我們將節點實現到28奈米的佈局和布線,包含定製儲存和計算單元的組合,並採用工業級互連。研究意義:DianNao的性能強化版。如果說DianNao是探索,DaDianNao就是追求極致性能的嘗試。它面向資料中心,採用了多晶片、eDRAM等設計,展示了AI計算對高性能、高頻寬的極致需求,是寒武紀後續雲端晶片思想的雛形。NO.3PuDianNao: A Polyvalent Machine Learning AcceleratorPuDianNao加速器架構PuDianNao的佈局,CM、FU、HB、CB和OB分別代表控制模組、功能單元、熱緩衝區、冷緩衝區和輸出緩衝區作者:Dao-Fu Liu, Tianshi Chen, Shaoli Liu, Jinhong Zhou, Shengyuan Zhou, O. Temam, Xiaobing Feng, Xuehai Zhou, Yunji Chen發表日期:2015原文連結:https://dl.acm.org/doi/pdf/10.1145/2694344.2694358摘要:機器學習(ML)技術在各種新興商業應用中無處不在,但必須依賴強大的電腦系統來處理海量資料。儘管通用CPU和GPU提供了直接的解決方案,但由於它們對靈活性的過度支援,其能效受到限制。硬體加速器可能實現更好的能效,但每個加速器通常只支援單一的機器學習技術(或技術家族)。然而,根據機器學習領域著名的“無免費午餐”定理,一種機器學習技術在一個資料集上表現良好,可能在另一個資料集上表現不佳,這意味著這種加速器有時可能導致學習精度低下。即使不考慮學習精度,這種加速器也可能因為具體的機器學習任務發生變化,或者使用者選擇了另一種機器學習技術而變得不適用。在本研究中,我們提出了一種名為Pu-DianNao的機器學習加速器,它支援七種代表性的機器學習技術,包括k-means、k近鄰、樸素貝葉斯、支援向量機、線性回歸、分類樹和深度神經網路。得益於我們對不同機器學習技術的計算原語和局部性特性的深入分析,PuDianNao在3.51平方毫米的面積內可以執行高達1056 GOP/s(例如加法和乘法)的運算,並且僅消耗596毫瓦的功率。與NVIDIA K20M GPU(28奈米工藝)相比,PuDianNao(65奈米工藝)速度快1.20倍,並且能效提高了128.41倍。研究意義:PuDianNao不再侷限於神經網路,而是支援了K-Means、SVM等七種主流機器學習演算法。這體現了團隊對通用性和可程式設計性的早期思考,即AI晶片不能是“一次性”的硬體,必須適應演算法的快速迭代。NO.4ShiDianNao: shifting vision processing closer to the sensor加速器可能被整合到商用圖像處理晶片中加速器架構作者:Zidong Du, Robert Fasthuber, Tianshi Chen, Paolo Ienne, Ling Li, Tao Luo, Xiaobing Feng, Yunji Chen, Olivier TemamAuthors Info & Claims發表日期:2015原文連結:https://dl.acm.org/doi/pdf/10.1145/2749469.2750389摘要:近年來,神經網路加速器在識別和挖掘應用這一重要類別中,已展現出在廣泛應用場景下同時實現高能效和高性能的能力。然而,這類加速器的能效和性能仍受限於記憶體訪問。本文聚焦於圖像應用,這無疑是識別和挖掘應用中最為重要的一類。針對這些應用,最先進的神經網路是摺積神經網路(CNN),它們具備一個顯著特性:權重在眾多神經元間共享,大幅減少了神經網路的記憶體佔用。這一特性使得CNN能夠完全對應至SRAM中,從而消除所有針對權重的DRAM訪問。進一步將加速器置於圖像感測器旁,還能徹底消除所有剩餘的DRAM訪問,即針對輸入和輸出的訪問。本文提出了一種此類CNN加速器,緊鄰CMOS或CCD感測器佈置。通過消除DRAM訪問,並精心利用CNN內部的特定資料訪問模式,我們設計出一款能效比現有最先進神經網路加速器高出60倍的加速器。我們展示了從設計到65奈米佈局的完整方案,其面積僅為4.86平方毫米,功耗僅320毫瓦,但速度仍比高端GPU快約30倍。研究意義:ShiDianNao專為視覺應用(CNN)設計。這篇文章最大的亮點是將計算單元儘可能地靠近感測器),大幅減少資料搬運帶來的功耗。這是端側、邊緣AI晶片設計的核心思想,為寒武紀後來的終端IP業務埋下伏筆。2 商業化序章 從指令集到IP核的進化寒武紀公司正式成立,團隊開始將學術成果轉化為商業產品;並且意識到:要讓AI處理器真正可用,光有硬體架構是不夠的,必須為購買產品的開發者提供一套穩定、高效的“語言”——指令集。通過定義一套專用的指令集,寒武紀成功地將上層應用與底層硬體解耦,實現了從學術研究到商業IP授權的關鍵一躍。這個階段最核心的標誌是提出了第一個專門針對深度學習的指令集“Cambricon ISA”,這是建構其技術護城河的開始。NO.5Cambricon: An Instruction Set Architecture for Neural NetworksCambricon指令概述基於Cambricon的原型加速器作者:S Liu, Z Du, J Tao, D Han, T Luo, Y Xie, Y Chen, T Chen發表日期:2016原文連結:https://dl.acm.org/doi/pdf/10.1145/3007787.3001179摘要:在本文中,我們提出了一種新穎的領域特定指令集架構(Instruction Set Architecture, ISA)用於神經網路加速器,稱為Cambricon。Cambricon是一種基於暫存器-儲存器架構,綜合了標量、向量、矩陣、邏輯、資料傳輸和控制指令,基於對現有神經網路技術的全面分析。我們對十種具有代表性的不同神經網路技術的評估表明,Cambricon在廣泛的神經網路技術中表現出強大的描述能力,並且比×86、MIPS和GPGPU等通用指令集提供了更高的程式碼密度。與最新的神經網路加速器設計DaDianNao (僅能支援3種神經網路技術)相比,我們基於Cambricon的加速器原型在台積電65奈米工藝下實現,僅帶來了微不足道的延遲/功耗/面積開銷,並且能夠靈活覆蓋10種不同的神經網路基準測試。研究意義:寒武紀的“立司之本”。這篇文章首次完整提出了一套面向神經網路的指令集架構;它的意義堪比ARM指令集之於移動裝置。讓開發者就可以像為CPU程式設計一樣為AI晶片程式設計,極大地推動了AI晶片的生態建設。NO.6Cambricon-X: An Accelerator for Sparse Neural Networks(a)具有步進索引的稀疏網路示例(b)硬體步進索引的實現加速器程式設計過程作者:S Zhang, Z Du, L Zhang, H Lan, S Liu, L Li, Q Guo, T Chen, Y Chen發表日期:2016原文連結:https://dl.acm.org/doi/pdf/10.1145/356810.356816摘要:神經網路已被證明在圖像識別、自動翻譯和廣告推薦等廣泛的應用中非常有用。由於不斷增長的深度結構,即多層包含大量神經元和連接(即突觸),最先進的神經網路在計算和記憶體需求上都非常密集。稀疏神經網路作為一種有效的解決方案,能夠減少所需的計算量和記憶體。儘管現有的神經網路加速器能夠高效處理密集和規則的網路,但它們無法從突觸權重的減少中獲益。在本文中,我們提出了一種新型加速器Cambricon-X,旨在利用神經網路模型的稀疏性和不規則性來提高效率。該加速器採用基於處理單元(PE)的架構,由多個處理單元組成。索引模組能夠高效地選擇並將所需的神經元傳輸到連接的PE,從而減少頻寬需求,而每個PE以非同步方式儲存不規則和壓縮的突觸進行本地計算。我們的加速器在16個PE的情況下,能夠在小型封裝(6.38平方毫米,65奈米工藝下功耗為954毫瓦)中實現最高544 GOP/s的性能。通過對多個代表性稀疏網路的實驗結果表明,我們的加速器平均比最先進的神經網路加速器實現了7.23倍的加速和6.43倍的節能。研究意義:關注演算法與硬體的協同最佳化。這篇文章針對神經網路中的“稀疏性”進行硬體加速,能夠跳過無效計算,大幅提升效率。這表明寒武紀已經進入精細化、場景化最佳化的深水,思考如何充分發揮硬體的每一分性能。3 轉型生態建構 軟硬體一體化的產品矩陣2017年,寒武紀公司正式成立後的第一年,迎來關鍵商業突破;其處理器Cambricon-1A被整合於華為麒麟970晶片中,成為全球首款搭載獨立AI單元的手機SoC,這次合作不僅讓寒武紀一舉成名,也直接開啟了手機端側AI的浪潮。然而,隨著2019年華為出於自研戰略考量、推出了自家的“達文西架構”NPU後,寒武紀失去了當時最重要的客戶之一。這次“分手”卻也成為了其徹底轉型的催化劑;自此之後,公司傾盡全力加速自有品牌“思元”(MLU)雲端晶片的迭代和推廣,以更低的功耗和更高的性能從NVIDIA手中拿下一部分市場。並大力投入NeuWare全端軟體平台的建設,相容支援TensorFlow、PyTorch等主流框架,以此吸引更廣泛的客戶群體,建構一個獨立的、能與NVIDIA CUDA競爭的開發者生態。NO.7Cambricon-F: machine learning computers with fractal von Neumann architecture典型的分形馮·諾依曼架構:第0級(頂層節點)...第i級節點及其在第i+1級的子節點...第N級(葉節點)Cambricon-F節點中的流水線劃分作者:Yongwei Zhao, Zidong Du, Qi Guo, Shaoli Liu, Ling Li, Zhiwei Xu, Tianshi Chen, Yunji Chen發表日期:2019原文連結:https://dl.acm.org/doi/pdf/10.1145/3307650.3322226摘要:機器學習技術已成為新興商業應用中無處不在的工具,許多不同規模的專用機器學習電腦已被部署在嵌入式裝置、伺服器和資料中心中。目前,大多數機器學習電腦架構仍然側重於最佳化性能和能效,而非程式設計生產力。然而,隨著矽技術的快速發展,程式設計生產力(包括程式設計本身和軟體棧開發)已成為阻礙機器學習電腦應用的關鍵因素,而非性能和能效。在本文中,我們提出了Cambricon-F,這是一系列具有相同指令集架構(ISA)的同構、順序、多層、層相似的機器學習電腦。Cambricon-F機器採用分形馮·諾依曼架構,以迭代管理其元件:它具有馮·諾依曼架構,其處理元件(子節點)仍然是具有馮·諾依曼架構和相同ISA的Cambricon-F機器。由於不同規模的Cambricon-F實例可以在其共同的ISA上共享相同軟體棧,因此Cambricon-F可以顯著提高程式設計生產力。此外,我們解決了Cambricon-F架構設計中的四大挑戰,使Cambricon-F能夠實現高效率。我們實現了兩個不同規模的Cambricon-F實例,即Cambricon-F100和Cambricon-F1。與基於GPU的機器(DGX-1和1080Ti)相比,Cambricon-F實例在性能上分別提升了2.82倍和5.14倍,效率平均提升了8.37倍和11.39倍,面積成本分別減少了74.5%和93.8%。研究意義:提出了一種全新的、專為AI計算設計的“分形馮諾依曼架構”。Cambricon-F的設計就像一個俄羅斯套娃:它將一小塊計算單元和一小塊本地儲存緊密耦合,組成一個基本的“神經元處理單元”(NPU)。然後,多個這樣的小單元又可以組成一個更大的計算簇,這個簇又有自己稍大一些的共享儲存。NO.8Cambricon-Q: A Hybrid Architecture for Efficient TrainingCambricon-Q架構概述Camricon-Q上處理量化的前向和後向傳遞作者:Y Zhao, C Liu, Z Du, Q Guo, X Hu, Y Zhuang, Z Zhang, X Song, W Li發表日期:2021原文連結:https://dl.acm.org/doi/pdf/10.1145/3307650.3322226摘要:深度神經網路(DNN)訓練以其耗時著稱,而量化技術有望通過減少頻寬/儲存需求和計算成本來提升訓練效率。然而,當前最先進的量化演算法雖能在幾乎不損失訓練精度的情況下運行,但它們需要基於大量資料(如神經元和權重)進行即時統計量化以及高精度權重更新,這些要求使得它們難以在現有的DNN加速器上有效部署。為解決這一問題,我們提出了首個針對高效量化訓練且幾乎不損失精度的定製架構,命名為Cambricon-Q。Cambricon-Q採用混合架構,由ASIC加速核和近資料處理(NDP)引擎組成。加速核主要致力於通過專門的計算單元提升基於統計的量化效率,這些單元負責統計分析(如確定最大值)和資料重組,而NDP引擎則避免了將高精度權重從片外記憶體傳輸至加速核。實驗結果顯示,在評估的基準測試中,與GPU和TPU相比,Cambricon-Q在DNN訓練的能效上分別提升了6.41倍和1.62倍,性能上分別提升了4.20倍和1.70倍,且與全精度訓練相比,精度僅下降了不超過0.4%。研究意義:Cambricon-Q的研究意義,是為先進AI演算法和底層硬體之間架起了一座橋樑。它通過一套精心設計的“ASIC+近資料處理”混合架構,為當時“聽起來很美但跑不起來”的高精度量化訓練演算法掃清了硬體障礙;是“軟硬體協同設計”思想的一次完美實踐。NO.9Cambricon-C: Efficient 4-Bit Matrix Unit via PrimitivizationCambricon-C ACC的總體架構六種不同的PE設計,分別稱為MAC、8256、R225、832、R29和B15。為了簡化,讀出電路和脈動暫存器被省略作者:Yi Chen ; Yongwei Zhao; Yifan Hao; Yuanbo Wen; Yuntao Dai; Xiaqing Li發表日期:2024原文連結:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10764444&tag=1摘要:深度學習趨勢傾向於使用低精度數值格式來應對日益增長的模型規模。例如,大型語言模型LLaMA2已廣泛部署在4位精度下。隨著模型規模的增大和低精度導致的唯一值減少,矩陣乘法中重複運算的比例不斷增加。儘管先前的研究已討論過這種值冗餘,但尚未得到充分利用,且利用值冗餘的成本往往抵消了任何優勢。本文提出將矩陣乘法原始化,即將其分解為1元後繼函數(即計數)以合併重複運算。我們重新審視了各種技術,提出了Cambricon-C SA,一種4位原始矩陣乘法單元,其能效比傳統脈動陣列提高一倍。實驗結果表明,與基於MAC的脈動陣列相比,Cambricon-C SA可實現1.95倍的能效提升。研究意義:在AI算力需求爆炸式增長的今天,功耗和能效已經成為制約資料中心發展的生命線。Cambricon-C的研究意義在於,它為超低精度LLM時代提出了一種顛覆性的、從“乘法”降維到“計數”的全新計算範式,並用接近翻倍的能效提升證明了其巨大價值。NO.10Cambricon-SR: An Accelerator for Neural Scene Representation with Sparse Encoding TableCambricon-SR的整體架構稀疏表(ST)在稀疏表陣列(STA)節點中的訪問(左)和更新(右)示例作者:T Liu, X Song, Z Yue, R Wen, X Hu, Z Song, Y Wen, Y Hao, W Li, Z Du, R Zhang發表日期:2025原文連結:https://dl.acm.org/doi/pdf/10.1145/3695053.3731018摘要:神經場景表徵 (NSR) 是一種極具潛力的真實場景表徵技術。通過學習數十張從不同視角拍攝的二維照片,NSR 可以計算真實場景的三維表徵。然而,NSR 在 GPU 上運行的性能不足以滿足實際應用的需求。Cambricon-R 實現了每秒處理超過 60 個場景的高性能,但卻以犧牲建模質量為代價。 本文提出了 Cambricon-SR,一種演算法與硬體協同設計的加速器,用於提高 NSR 的性能和質量。首先,我們提出了一種帶有稀疏編碼表的新型 NSR 演算法,該演算法在幾乎不影響精度的情況下,實現了編碼表 80% 以上的稀疏度。其次,為了有效消除對修剪條目的無效記憶體訪問請求,我們提出了基於順序 SRAM 訪問的稀疏索引單元,以解決對稀疏結構點陣圖的不規則記憶體訪問的挑戰。它使編碼階段的吞吐量提高了 7.54 倍,但額外增加了 8.59% 的面積開銷。第三,我們為 MLP 單元提出了動態共享緩衝區,將緩衝區使用率降低了 85.3%,從而可以增加 MLP 單元的數量。 針對8個典型場景進行實驗評估,結果表明,與A100 GPU和Cambricon-R相比,Cambricon-SR在NSR每次訓練迭代中分別實現了1259倍和4.12倍的加速比,並降低了1139倍和2.98倍的能耗。研究意義:從早期的《Cambricon-X》開始,寒武紀就展現了在處理稀疏神經網路上的能力。《Cambricon-SR》則表明,這種能力不是一次性的,而是已經內化為公司的核心技術基因,可以根據不同的應用場景(從傳統的CNN到新興的NSR),進行演進和適配,並持續產生顛覆性的效果。這種“先改造演算法,再改造硬體”的深度協同,最終才換來了千倍等級的性能提升。這證明了最強大的AI晶片,並非單純堆砌算力,而是來自於對應用演算法的深刻理解和徹底的、全端式的最佳化。當“寒武紀大爆發”的讚譽言猶在耳,之後的道路卻並非坦途,擺在寒武紀面前的挑戰現實而嚴峻。放眼全球,寒武紀需要直面NVIDIA憑藉頂級製程工藝與CUDA生態構築的鐵壁,並回答一個根本性的問題:是甘於做亦步亦趨的“平替”,還是勇於另闢蹊徑、換道超車? 國內,面對華為昇騰全端式解決方案的主導地位,能否迎頭趕上?儘管如此,挑戰與機遇永遠並存。國內AI化處理程序對自主AI算力空前高漲的需求,以及開源大語言模型的時代浪潮,為所有晶片公司都提供了堅實的基本盤和寶貴的發展窗口。未來,寒武紀能否將這份以學術起家的底蘊,真正轉化為一個開發者云集、枝繁葉茂的商業生態,並在這場人工智慧長跑中不斷超越前者,將是時代賦予它的考驗。十年很長,長到足以讓十篇論文進化成一家AI晶片的行業巨頭;十年也很短,對於一家立志建構完整生態、挑戰科技巨頭的企業來說,一切才剛剛開始。 (半導體行業觀察)