#華為昇騰
【重磅】華為昇騰產業鏈全解(1):都有誰
2019年,華為被列入實體清單。有人說,中國晶片產業完了。2020年,晶片禁令全面升級。有人說,七年之內不可能有國產替代。2022年,昇騰910B開始規模出貨。有人說,國產替代不過是噱頭,性能差太遠。2024年,昇騰920發佈,算力開始逼近國際一線。2026年,DeepSeek V4 100%運行在昇騰上,性能碾壓GPT-4。曾經的那些有人,都閉嘴了。從最初被卡脖子的至暗時刻,到如今逼近國際一線性能,中國AI算力產業完成了從0到1的生死跨越。昇騰產業鏈的意義,遠不止於一款晶片、一家公司、一個行業。這個產業鏈上,都有誰在一同奮戰呢?一、價值分佈昇騰產業鏈的價值分佈,像一座金字塔:上游技術壁壘最高,利潤最厚;中游訂單兌現最快,規模效應明顯;下游長期空間大,應用場景最多。具體來看:上游:晶片與核心器件這是根基技術。晶片設計、代工製造、封裝測試、關鍵配套,每一個環節都是硬科技。卡脖子的上游環節一旦突破,將釋放巨大價值。中游:整機與系統整合可以看做出海口。整機廠是晶片變現的通道,智算中心是算力服務的載體。訂單能見度高,業績兌現快,但競爭也最激烈。未來3-5年將是整機廠的高速增長期。下游:軟體生態與行業應用這就是星辰大海。軟體生態決定開發者粘性,行業應用決定商業價值天花板。大模型浪潮下,下游的需求被極大啟動,長期空間不可限量。二、上游上游是整個昇騰產業鏈的技術底座,也是壁壘最高的環節。1.1 晶片設計干的活: 晶片的總設計師。負責定義晶片架構、設計計算單元、規劃功耗與互聯頻寬。賺的錢:晶片銷售利潤、技術授權費、以及基於自研晶片建構的生態溢價。晶片設計處於產業鏈價值鏈頂端,毛利率可達60%以上。特點:技術壁壘最高,利潤最厚,是產業鏈的核心源頭。課代表: 華為海思1.2 代工製造干的活: 把設計圖變成真實的晶圓,是晶片從PPT到實物的關鍵一步。賺的錢: 代工費用,按晶圓片數計價。先進製程代工單價可達每片數千美元,產能利用率高時利潤可觀。特點: 中國晶片製造的最後一道防線,打破海外封鎖的關鍵環節。課代表: 中芯國際1.3 封裝測試干的活: 晶片代工完成後是"裸晶片",封裝測試環節負責將其封裝成可使用的成品。先進封裝是高端AI晶片的必選項。賺的錢: 封測服務費,按封裝類型和測試量收費。先進封裝單價更高,利潤也更厚。特點: 封測是晶片落地的最後一公里,技術門檻被嚴重低估。先進封裝是AI晶片性能提升的關鍵。課代表: 長電科技、通富微電1.4 封裝基板干的活: 晶片底部承載訊號的底座,負責晶片與PCB之間的電氣連接和散熱。ABF載板、FC-BGA載板是高端封裝基板的核心產品。賺的錢: 基板銷售,定價按尺寸和層數差異較大,高端產品單價可達數百至上千元。特點: 被卡脖子的上游環節之一,國產替代空間巨大。高端基板產能稀缺,是晶片封裝的關鍵材料。課代表: 興森科技、深南電路1.5 光模組干的活: AI伺服器叢集需要海量高速資料傳輸,光模組是伺服器之間、伺服器與交換機之間的資訊高速公路。萬卡叢集對800G/1.6T光模組需求激增。賺的錢: 光模組銷售,800G光模組單只售價可達數千元,高端產品毛利率超30%。特點: 光模組是算力互聯的血管,萬卡叢集直接拉動需求爆發。技術迭代快,規模效應明顯。課代表: 中際旭創、華工科技1.6 高速連接器干的活: 負責將板卡、晶片、電源物理連接,確保訊號穩定傳輸。賺的錢: 連接器按套/按件計價,高端產品單價可達數百元。特點: 小器件、大作用,是伺服器可靠性的基石。技術門檻高,客戶粘性強,一旦進入供應鏈就很難被替換。課代表: 華豐科技、意華股份1.7 散熱/液冷干的活: 萬卡叢集功耗高達數MW(兆瓦),散熱是生死線。傳統風冷已無法滿足需求,液冷成為AI伺服器的標配。賺的錢: 整套液冷方案價值可達伺服器總成本的10%-15%。特點: 散熱做不好,萬卡叢集就是一堆廢鐵,這個環節正在被重新定價。液冷是AI伺服器的剛需配套。課代表: 英維克、高瀾股份、申菱環境1.8 PCB/覆銅板干的活: PCB(印製電路板)是伺服器的神經網路,承載所有晶片與元器件的電氣連接。AI伺服器對PCB的層數、密度、訊號完整性要求遠超普通伺服器。賺的錢:高端伺服器PCB單板價值可達數千元,高密度互聯(HDI)產品利潤豐厚。特點: PCB是電子系統的骨架,高端產能是稀缺資源。技術壁壘較高,頭部企業優勢明顯。課代表: 滬電股份、華正新材1.9 電源干的活: 整機櫃供電系統是算力的心臟。AI伺服器功耗動輒數千瓦,萬卡叢集總功耗可達數十MW。電源系統負責穩定、高效地將電能分配到每個計算單元。賺的錢:整機櫃電源系統價值可達數十萬元,高功率電源單價更高。特點: 供電能力決定算力上限,電源是底層保障。高功率電源技術門檻高,定製化需求強。課代表: 麥格米特、泰嘉股份二、中游中游是晶片到算力的最後一公里,這裡決定晶片能否真正轉化為客戶可用的算力。2.1 AI伺服器整機干的活: 買昇騰晶片,做成AI加速卡,裝進伺服器機箱賣給客戶。整機廠是典型的晶片搬運工+系統整合商,考驗供應鏈管理和整機設計能力。賺的錢: 一台昇騰AI伺服器售價可達數十萬至數百萬元,整機廠毛利率約15%-25%。特點: 昇騰生態的出海口,誰的份額大,誰就掌握了昇騰算力的分發權。訂單能見度高,業績兌現快,但競爭激烈。課代表:華鯤振宇、拓維資訊2.2 板卡干的活: 華為不僅賣晶片,還自己做板卡。原廠板卡是整機廠的核心採購來源,也是技術標準的制定者。賺的錢: 板卡銷售、硬體標準制定權。Atlas系列毛利率可達40%以上,是華為昇騰變現的核心產品。特點: 華為在板卡層面既是裁判員又是運動員,這種垂直整合模式讓生態夥伴既愛又恨。技術標準制定者,生態話語權最強。課代表: 華為Atlas系列2.3 智算中心與算力租賃干的活: 建設智算中心,購買伺服器叢集,對外提供算力租賃和AI服務。涉及資料中心建設、算力調度、維運管理等全鏈條能力。賺的錢: 算力租賃費,按GPU小時或算力單元收費。智算中心毛利率約30%-50%,規模效應顯著。特點: 算力租賃是輕資產玩法,讓中小企業也能用上高端算力。長期空間大,但前期投入重。課代表: 恆為科技、優刻得三、下游下游是昇騰價值的最終兌現處。晶片再強,沒有軟體生態和行業落地,就是空中樓閣。3.1 基礎軟體干的活: 讓大模型能在昇騰上跑起來、跑得快、跑得穩。包括晶片驅動、算子庫、編譯器、AI框架適配、大模型遷移最佳化等。軟體使能是生態建設的核心,決定昇騰能否真正被開發者接受。賺的錢: 軟體開發費、技術服務費、適配調優費用。軟體服務毛利率可達50%以上。特點: 軟體生態比硬體更難建構,卻比硬體更有護城河。決定開發者粘性和生態繁榮度。課代表:潤和軟體、軟通動力3.2 行業應用干的活: 把昇騰算力用到具體行業裡,開發業務系統、實施部署、維運服務。每個行業都有獨特的know-how和客戶關係,算是真正的苦活累活。賺的錢: 行業解決方案、軟體銷售、維運服務。行業項目金額從數百萬到數億元不等,毛利率約30%-40%。特點總結: 決定昇騰能否真正改變產業的關鍵。應用場景多樣,長期空間大。課代表:恆生電子、科大訊飛、大華股份、常山北明3.3 大模型干的活: 在昇騰上訓練、推理大模型。大模型訓練需要千卡甚至萬卡叢集,是昇騰算力消耗的大胃王。賺的錢: API呼叫費、模型授權、行業定製。大模型商業化路徑逐漸清晰:toB行業定製、toC訂閱、API呼叫分層收費。特點總結: 殺手級應用,也是昇騰生態能否真正挑戰CUDA生態的關鍵。大模型適配是生態繁榮的核心標誌。課代表:百度文心、科大訊飛再說幾句AI大模型的軍備競賽,本質上是算力的競賽。2025年,全球AI晶片市場規模超過1000億美元,預計五年後可能破兆。長期以來,這個市場被輝達壟斷。但我們買不到H100,買不到H200,搞了個中國特供版H800,然後也被禁。最後連特供閹割版H20也被限制。何以抗爭,唯有自強。華為昇騰,用5年時間走完了西方巨頭十幾年的路。如今,昇騰產業鏈是中國唯一具備完整閉環的AI算力體系。放眼全球,能從晶片設計到行業應用全鏈路自主可控的,只有美國,現在還要加上中國。這不是奇蹟,這是積累。數萬名工程師、數千億投資,用七年時間,走完了別人二十年的路。當有人想卡你脖子的時候,你最好的選擇就是織上一身鎧甲。這是國產AI算力的里程碑,但這不是終點。只是起點。 (半杯小築)
DeepSeek再次會師華為昇騰!1.2萬億MoE震撼發佈,全端重寫CANN架構,CUDA時代終結?
事情是這樣的。前兩天,大模型圈子裡出了個特別炸裂的消息,炸到什麼程度呢,連輝達的黃仁勳(Jensen Huang)在採訪裡都說了一句話。雖然那個傳得有鼻子有眼的「Terrible」評價大機率是圈內人自嗨的段子,但老黃對 DeepSeek 的忌憚是真的。他在內部和公開場合多次感嘆過,DeepSeek這種用極低算力成本跑出極高性能的演算法效率,確實讓輝達感到了前所未有的壓力。如果你一直關注 AI 圈子,你應該知道 DeepSeek(深度求索)這家公司的脾氣,他們以前有個鐵律:不拿外部融資。這家由幻方量化(國內頂尖量化私募)一手帶大的實驗室,一直以來給人的感覺就是個「純粹的技術極客」,不差錢,也不想被資本指手畫腳。但就在最近,這個鐵律被打破了。根據《The Information》的爆料,DeepSeek 正在跟投資者談首輪外部融資,估值直接奔著 100 億美元去了。很多人納悶,為啥以前不拿,現在拿了?其實答案就在即將發佈的 DeepSeek V4 身上,這玩意兒不僅是個模型,更是一次「飽和攻擊」等級的戰略轉型。我聽到的消息是,DeepSeek V4 預計在 4 月下旬正式亮相,它的參數量直接堆到了 1.2 萬億(1.2T)等級,採用的是 MoE(混合專家)架構。為了養活這個萬億參數的「哥斯拉」,DeepSeek 已經在內蒙古烏蘭察布大規模招人了,專門負責自建算力中心。但這還不是最騷的。最騷的事在於,DeepSeek V4 是他們第一個完全基於華為昇騰(Ascend)晶片訓練出來的旗艦模型。如果你還記得我前兩天寫過的那篇關於 GLM-5 的文章,你就會發現,這件事的訊號意義已經強到溢出來了。在那篇文章裡我聊過,智譜(Z.ai)用了 10 萬塊華為昇騰晶片,把 GLM-5.1 基礎模型從頭練完了,最後在 SWE-Bench Pro 這個全球最硬核的軟體工程榜單上,跑出了比 Claude 和 GPT 還要高的分數。雖然咱得承認,跑分高不代表實戰手感就能完全取代 Claude,但在這種公認的、需要解決真實 GitHub Bug 的硬核榜單上,國產模型第一次登頂,而且是基於華為晶片跑出來的,這事兒本身就足夠離譜了。如果說 GLM-5.1 是國產大模型在華為晶片上的第一次「奇蹟會師」,那現在的 DeepSeek V4,就是在嘗試把這個奇蹟推向另一個量級。為了在國產晶片上跑出最優效率,DeepSeek 的工程師幹了一件特別狠的事:他們把模型底層程式碼全重寫了,直接從輝達的 CUDA 生態完全遷移到了華為的 CANN Next 軟體棧。甚至為了適配華為昇騰 950PR 晶片的記憶體訪問特性,他們還專門重構了算子庫,針對 128 位元組的記憶體顆粒度做了專項最佳化。這事兒聽著簡單,但做過底層開發的兄弟應該知道,這跟「把房子的地基整個換掉還要保證房子不塌」沒啥區別。這也是為什麼 V4 引入了一個叫 Engram 的條件記憶架構,能支援 100 萬 token 的上下文,而且百萬長度下的資訊召回率還能頂到 97%。我突然意識到一個很重要的轉變。以前大家覺得用國產晶片是「沒辦法」,是由於被制裁後的無奈之舉。但從 GLM-5 到 DeepSeek V4,這個邏輯變了。它們不是在「勉強運行」,而是在「超越」。GLM-5 證明了用華為晶片能練出在全球頂級榜單登頂的模型,而 DeepSeek V4 準備證明,用華為晶片能練出萬億參數的多模態旗艦,而且效率高到讓老黃都覺得脊背發涼。說真的,我挺感慨的。以前我們聊 AI,總覺得我們是在「追趕」,用著別人的卡,跑著別人的架構。但現在,智譜和 DeepSeek 就像是兩條平行線,最後在華為的算力底座上匯合了。這種感覺,怎麼說呢,確實挺帶勁的。我們正在見證一套完全獨立於美國技術堆疊的 AI 生態,正從地底下冒出頭來。至於 V4 到底有多強,咱們等它發佈那天,我一定第一時間去試。 (KmTech)
華為昇騰950發佈:中國AI晶片終於追上輝達
單卡算力是H20的2.87倍,華為這波真的"硬"了。2026年3月20日,華為在中國合作夥伴大會上扔了一顆重磅炸彈。昇騰950PR處理器正式發佈。搭載這顆晶片的Atlas 350加速卡,在多個關鍵指標上實現了對輝達H20的反超。這不是"追趕",這是"超越"。一、昇騰950到底強在哪?核心參數單卡算力是H20的2.87倍。這不是參數黨自我感動,這是實打實的性能碾壓。技術突破1️⃣ 國內唯一支援FP4低精度的推理產品FP4是什麼?簡單說,就是把模型壓縮到原來的1/8,性能幾乎不損失。輝達H100不支援,H20不支援。現在昇騰950支援了。2️⃣ 自研HBM技術HBM(高頻寬記憶體)一直是韓國廠商的天下。華為這次首發自研HBM,打破了國外壟斷。3️⃣ 記憶體訪問顆粒度最佳化從512位元組減少到128位元組。這意味著什麼?小算子訪存效率提升4倍。大模型推理中,小算子佔比超過60%,這個最佳化帶來的提升是實打實的。4️⃣ 叢集能力支援百萬卡叢集,單叢集算力達數百EFLOPS(FP16)。這是什麼概念?相當於把全國Top10超算的算力塞進一個機房。二、為什麼這次不一樣?過去的昇騰:能用,但不夠強昇騰910時代,華為的姿態是"備胎"。能用,但性能、生態、穩定性都和輝達有差距。客戶選擇昇騰,更多是出於"不得不選"。現在的昇騰950:可以正面對剛這一次,華為不是在做"替代品",而是在做"超越者"。單卡算力:超越H20記憶體頻寬:超越H20FP4支援:H20沒有,950有國產生態:完全國產化客戶選擇昇騰950,不再是"無奈之舉",而是"最優解"。三、昇騰950系列規劃華為這次還公佈了完整的晶片路線圖:這是什麼意思?950PR:適合推理階段的第一步——快速生成第一個token。950DT:適合推理階段的第二步——高速解碼後續token。兩顆晶片配合,實現端到端推理加速。四、對產業鏈的影響硬體廠商的機會7家核心夥伴同步發佈基於Atlas 350的整機產品:這些廠商,將成為昇騰生態的"基建商"。投資者關注昇騰產業鏈核心標的:五、對普通人的意義你可能會說:我又不買AI晶片,這跟我有什麼關係?關係很大。1. AI服務成本下降算力成本是AI服務成本的核心。國產晶片性能提升、成本下降,意味著AI服務會更便宜。你用的ChatGPT、文心一言、Kimi,底層都可能跑在昇騰上。2. 資料安全更有保障國產晶片意味著資料不需要出境。政務、金融、醫療等敏感領域,可以放心使用AI。3. 科技自主權昇騰的突破,意味著中國在AI晶片領域不再被"卡脖子"。這是國家層面的戰略安全。昇騰950的發佈,不是技術迭代,是戰略突圍。從"能用"到"好用",從"替代"到"超越",華為走了整整7年。中國國產AI晶片的春天,真的來了。 (碼農看AI)
【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析
01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上,華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案,標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計,整合了8192顆華為昇騰950 DT晶片,是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會,報告補充道,SuperPoD計畫於2026年第四季度商用。除了Atlas系統外,華為還展示通用計算平台TaiShan 950 SuperPoD,以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧:華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日,在華為全聯接大會 2025 上,華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示,華為在25年 Q1 已經推出了 Ascend910C,2026 年 Q1 推出全新的 Ascend950PR晶片,2026 年 Q4 推出 Ascend950DT,2027 年 Q4 推出 Ascend960 晶片,2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構,旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU,最高可擴展至128個機櫃,也是就 8,192 個 NPU,可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比,它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構,可實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構,支援單板內、單板間和機架間的 NPU 全互聯,以 64 卡為步長按需擴展,最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成,單機櫃配置64張加速卡,總體由128個電腦櫃和32個互聯機櫃組成,整套系統共計160個機櫃,形成完整的大規模AI算力叢集。在散熱方案上,Atlas 950 SuperPoD全面採用全液冷架構設計,不提供風冷版本選配,出廠即為液冷機櫃。這一策略表明,隨著算力密度和功耗持續提升,液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署,系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境,滿足大模型訓練等高強度負載的長期運行需求。同時,統一液冷形態也有助於提升系統交付效率與維運標準化水平,降低複雜度,體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面,華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成,總計整合64顆NPU晶片,整櫃設計功耗約75kW,已進入典型高密度液冷部署區間。在散熱方案上,整體採用冷板式液冷架構,對核心高功率器件進行直接液冷覆蓋,以保障在高算力負載下的穩定運行與能效表現。在系統架構層面,該方案機櫃內部不配置Rack級CDU(機架內CDU),而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性,同時減少機櫃內部空間佔用,最佳化結構佈局。伺服器方面,華為950平台採用分佈式獨立冷板架構,在每一顆NPU上均配置單獨冷板,實現對高功率核心器件的精細化散熱管理。據業內資訊顯示,當前華為尚未大規模引入MLCP技術,而是以成熟穩定的單級冷板方案為主,以兼顧可靠性與工程可落地性。在管路設計上,華為採用EPDM材質的液冷軟管,強調柔性與裝配便利性,並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時,在連接方式上,華為引入浮動接頭設計,以緩解裝配公差、熱膨脹及振動帶來的機械應力,從而提升系統長期可靠性。值得關注的是,華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片,本次方案則將光模組納入液冷散熱體系。在超節點(Supernode)架構下,光互連密度與頻寬需求顯著提升,光器件功耗持續攀升,傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組(如800G及以上)功耗進入更高區間,液冷正從“可選方案”向“必選路徑”轉變,這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢,液冷大會現場呈現 2026年4月14日至15日,第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦,聚焦AI時代資料中心散熱技術升級與產業生態協同,吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與,預計2000位行業專家參與。 (零氪1+1)
5兆輝達回頭看:「寒武紀們」被低估了嗎?
人類歷史上第一家5兆市值公司誕生了。這個數字,超過了德國或英國一年的GDP,比A股所有「中」字頭股票的市值總和還要多。而創造這個奇蹟的,是一家在三十年前還只是在電腦城裡「賣顯示卡」的公司-輝達(NVIDIA)。作為AI的“賣鏟人”,輝達在人類對於人工智慧近乎宗教般的狂熱夢想中,一路高歌猛進。短短兩年時間,它的市值從1兆沖到5兆,其增長速度本身,就構成了這個時代最魔幻的註腳。很顯然,今天它當然不只賣鏟子。如果說上一輪的科技浪潮,是蘋果定義了「移動互聯網」的入口;那麼在這一輪波瀾壯闊的「智慧革命」中,輝達幾乎成為了整個AI世界的「中樞神經」和「唯一入口」。晶片,是鏟子、是石油、是電力……是人類關於Matrix所有想像的實體底座。沒有輝達的GPU,就沒有ChatGPT的橫空出世,就沒有Sora的以假亂真,就沒有今天我們談論的一切「大模型」。在輝達沖上5兆的時刻,我問一位在AI行業的朋友,這家公司有泡沫嗎?他幾乎是即時地回答我:目前看不到任何泡沫的跡象。其實也可以理解。為什麼?因為全世界的公司,從Google、微軟、OpenAI這樣的巨頭,到成千上萬試圖在AI浪潮中淘金的創業公司,都在排著隊,揮舞著現金,只為求購英VIDIA的H100或B200晶片。這種「剛性需求」的強烈程度,堪比沙漠中的淘金者對水的渴望。我在上個月給經濟觀察報的專欄文章《輝達進化論:當AI賣鏟人開始淘金》裡就寫道,這位最成功的“賣鏟人”,已經不再滿足於僅僅是提供工具本身。它正在從一個單純的硬體供應商,變成了一個與AI浪潮核心玩家深度綁定的利益共同體。這是一個完美的商業閉環。但即便如此,中國也不是沒有機會。當地緣政治的鐵幕落下,黃仁勳不久之前已經放話,中國高階AI晶片市場的佔有率「已經是0%。然而,中國作為唯一能在AI領域與對岸叫板的龐大市場,其需求並不會因此消失。一個巨大的真空地帶形成了。於是,「國產替代」從一個可選項,變成了唯一的必選項,風起雲湧。那麼,一個更貼近我們自身的問題是:當輝達創下5兆市值的歷史豐碑時,我們到底該如何給「寒武紀」們估值?A股市場上的這些AI晶片公司,如寒武紀、景嘉微、海光資訊…它們是真正的“潛力股”,還是只是這場盛宴中被高估的“氣氛組”?最近,我正在重溫估值大師達摩·達蘭(Aswath Damodaran)的經典之作《故事與估值》一書。達蘭教授的核心觀點是,所有估值的本質,都是「故事」與「數字」的結合。從這個視角,或許能夠幫助我們更能理解,中國AI晶片產業的未來,以及那些看似「昂貴」的股價背後,究竟隱藏著怎樣的邏輯。01. 兆估值煉金術首先,我們必須弄清楚,輝達的5兆估值,這套「煉金術」是怎麼來的?如果只是看財務“數字”,輝達的表現當然是驚人的。我們來看一組它「印鈔機」業務-資料中心的財務資料:連續幾個季度,營收年增超過200%甚至400%,毛利率直逼80%。這是什麼概念?這意味著輝達賣一塊晶片的利潤空間,比蘋果賣一部iPhone還要高得多。這根本不是硬體生意,這是「壟斷稅」。但僅僅是這些“數字”,還不足以支撐起5兆的龐大帝國。真正讓輝達「點石成金」的,是它那個強大到令人窒息的「故事」——CUDA。CUDA是什麼?這是理解輝達護城河的關鍵。我們可以打一個通俗的比方:輝達的GPU晶片是“引擎”,就像電腦上的Windows或蘋果的iOS,CUDA就是一套獨一無二的“操作系統”。在CUDA出現之前,GPU雖然計算能力很強,但非常難用。開發者想用它來做AI計算,不亞於要用文言文寫代碼,門檻極高。而輝達在近二十年前就開始佈局,推出了CUDA。這套「操作系統」提供了一個相對易用的程式設計平台,讓全球數百萬的開發者能夠用更熟悉的“白話文”(C++、Python等語言)來指揮GPU這台“發動機”,去完成複雜的AI訓練和推理任務。當Windows和iOS透過「應用商店」鎖定了所有使用者和開發者時,輝達也透過CUDA「鎖定」了全球所有的AI人才。這種「硬體(GPU)+軟體(CUDA)」的組合拳,才是其真正的護城河。它導致了極高的“遷移成本”。什麼叫遷移成本?想像一下,你所有的AI研究成果、所有的程式碼、你團隊裡所有工程師的技能,都是基於CUDA這個「操作系統」建立的。現在,另一家公司(如AMD或寒武紀)造出了一款新晶片,就算它的「引擎」性能和輝達一樣強,甚至價格還便宜一半,你敢用嗎?你不敢。因為你的「Windows」應用,無法在「Android」系統上運作。你必須把過去十年的程式碼全部重寫,你必須讓你的工程師團隊重新學習一套全新的「語言」。這個成本,遠遠高於你省下的那點晶片錢。這就是「網絡效應」:越多人用CUDA,為CUDA開發的工具和教學就越多;工具越多,就有越多的大學開始教CUDA;教CUDA的大學越多,畢業後懂CUDA的工程師就越多;懂CUDA的工程師越多,企業就越傾向於選擇輝達的晶片…這是一個完美的正向循環,也是一個讓所有競爭對手絕望的「生態壁壘」。因此,輝達的估值,早已不僅是對其當前「數字」(獲利能力)的計算,更是對它未來在AI世界「唯一入口」和「事實標準」地位的「故事」定價。而華爾街相信的,是輝達在未來十年,都將持續向全世界收取高昂的「AI稅」。02. 夾縫中的新大陸現在,我們把目光轉回中國。地緣政治的賽局和供應鏈的限制,為中國本土的AI晶片廠商,意外地打開了一個「夾縫中的新大陸」。當輝達最先進的H100、B200晶片被一紙禁令攔在海關之外時,一個規模高達千億等級、並且仍在高速增長的龐大市場,被動地「讓」了出來。這個市場有多大?根據信通院等機構的測算,光是2024年,中國大模型市場對高階AI晶片的需求就可能超過50萬張,未來幾年的複合成長率驚人。這本應是輝達最肥美的“蛋糕”,現在,它只能眼睜睜地看著。這對寒武紀、華為昇騰、阿里平頭哥、壁仞科技、摩爾執行緒等所有本土玩家來說,是前所未有的歷史機會期。它們面對的,是幾乎沒有外部競爭、需求又極其確定的「溫室市場」。然而,這片「新大陸」並非坦途,甚至可以說是荊棘叢生。本土廠商面臨的核心挑戰,已經從“能不能造出晶片”,轉向了“造出的晶片有沒有人用”。在過去,我們評斷一款晶片,主要看PPA,也就是性能(Performance)、功耗(Power)、面積(Area)。我們的目標是創造一款在性能上接近輝達,同時功耗和成本更低的「平替」產品。但現在,所有人都明白了,沒有對標CUDA的成熟軟件棧,再強的晶片也只是“屠龍之技”,是中看不中用的“擺設”。國內的科技巨頭,如阿里、騰訊、百度、字節跳動,它們囤積的輝達晶片總有耗盡的一天。它們急需“國產替代”,但它們的需求也非常苛刻:這款國產晶片,必須能“用起來”,不能讓我的演算法工程師們把代碼全重寫一遍。於是,我們看到,所有國產AI晶片的頭部玩家,都把戰場從“硬體”轉向了“軟件”,試圖構建自己的“朋友圈”和“護城河”。目前,牌桌上主要有兩種流派:第一種,以華為昇騰(Ascend)為代表的「全端模式」。華為的打法,是複製一個「垂直整合」的生態。它不但有自己的昇騰晶片(硬體),還有自己的CANN(對標CUDA的底層軟體棧),甚至還有自己的MindSpore(對標PyTorch的AI框架)。這種模式的好處是控制力強,可以集中力量辦大事,實現內部的完美優化。缺點也同樣明顯:它相對“封閉”,是在試圖建立另一個“蘋果iOS”,要求開發者全面擁抱華為的技術體系。第二種,以寒武紀(MagicJian)為代表的「開放追趕模式」。寒武紀的定位更像是“中國的輝達”,它專注於做好晶片(硬體),同時提供一套名為MagicJian的軟件棧。它試圖更廣泛地去適配且相容主流的AI框架(如PyTorch),努力降低開發者的「遷移成本」。它的挑戰在於,作為一個體量遠小於華為的「中立」廠商,它是否有足夠的資源和號召力,去吸引開發者用它的「語言」?這場競賽的勝負手,已經不在於短期內誰的晶片跑分更高,而在於誰能更快地建構起一個「可用、易用、開發者願意用」的軟體生態,去承接這個因禁令而「溢出」的龐大市場。03. 從計算,到信念最後,讓我們回到最初的問題:寒武紀們被低估了嗎?如果我們嚴格按照達摩·達蘭的估值模型,只用「計算」的眼光去看的話,比如根據它們當下的出貨量、微薄的利潤率(甚至是大額虧損),以及高得離譜的市銷率(P/S),這些仍在追趕和巨額投入期的公司,其估值似乎根本無法支撐,泡沫明顯。以寒武紀為例,市值數百億人民幣,但年收入可能只有幾十億,而且仍在虧損。如果用傳統製造或半導體公司的標準來看,這無疑是昂貴的。但資本市場定價的,從來都不僅僅是“現在”,更是“未來”。對於A股的本土AI晶片股而言,它們的估值,本質上已經脫離了傳統「計算」的範疇,轉而成為一個「信念題」。這個「信念」包含幾個非常具體且層層遞進的層面:第一層信念:對「國產替代必然性」的信念。這是最基礎的信念。市場相信,無論主動或被動,中國AI產業對本土晶片的採購將是剛性的、不可逆的。地緣政治的「高牆」越高,這層信念就越牢固。因為所有人都明白,沒有底層的算力自主,一切「智慧強國」的宏圖都是沙上建塔。這為本土晶片提供了一個確定性極高的「保底」市場。第二層信念:對「中國AI市場長期成長」的信念。光有「替代」還不夠,這個「被取代」的市場必須夠大。市場相信,中國龐大的數字化經濟體量、海量的資料、豐富的應用場景,將共同催生一個不亞於北美的AI市場。從大模型、自動駕駛、生物醫藥到智慧製造,每個領域都是兆級的賽道。這個龐大的增量,為本土晶片提供了足夠高的「天花板」。第三層信念,也是最核心、最脆弱的信念:對「本土生態終將完成」的信念。這才是決定估值「是泡沫還是鑽石」的關鍵。市場在用幾百億、上千億的市值,去「賭」一個可能性:在華為、寒武紀或其他玩家中,至少會有一家,能夠克服萬難,最終建構起一個足以對標CUDA、能夠讓中國數百萬開發者順暢使用的軟件生態。為什麼說這層信念最脆弱?因為它不是必然的。它需要巨額的、持續十數年的研發投入,需要頂級的戰略耐心,需要龐大的工程師團隊夜以繼日地去“填坑”,更需要下游的客戶和開發者“用腳投票”,願意忍受早期產品的不完善,一起“共建”這個生態。因此,短期來看,寒武紀們的估值,反映的就是市場對這第三層信念的「搖擺」。當市場情緒樂觀時,比如華為昇騰又有了新突破,或者寒武紀適配了某款熱門大模型,大家覺得“生態好像快成了”,股價就會飆升,因為市場願意為這個“中國版CUDA”的遠景支付高額溢價。當市場情緒悲觀時,例如財報虧損擴大,或者某個技術難關遲遲無法攻克,大家又會退回到“計算”模式,覺得“故事講不通了”,股價就會暴跌。所以,討論“低估”還是“高估”,已經意義不大。我們必須明白,給這些公司估值,本質上不是在「計算」一家公司的當前價值,而是在「押注」一個國家產業突圍的機率。04. 生態,終局的博弈當輝達的市值沖向5萬美元時,它早已不是一家單純的硬體公司,它是一個「生態帝國」。而對於「寒武紀」來說,它們從誕生之日起,就註定了無法成為一家「小而美」的晶片設計公司。它們背負的宿命,就是要在中國這片土地上,重建一個獨立自主的AI「生態」。這是一場九死一生的豪賭,也是一場沒有退路的戰爭。從這個角度來看,寒武紀們的估值,目前仍然是一個「信念題」。這個信念,建立在地緣政治的「高牆」和中國市場的「縱深」之上。但信念無法永遠脫離現實。未來三到五年,將是國內AI生態的「攤牌期」。如果本土廠商無法提供真正「可用」的工具鏈,那麼國內的AI產業發展將被迫降速,甚至停滯,這個「信念」的基礎也就不復存在。反之,如果我們能在這場「夾縫」中,真的培育出一個或幾個開放、繁榮、足以對抗封鎖的AI新生態——那怕這個生態運轉的效率可能只有CUDA的70%或80%——那麼,今天我們看到的幾百億、幾千億市值,或許都還只是一個開始。 (深水研究)
DeepSeek與寒武紀的“4分鐘協同”,中國國產AI的默契合謀
9月29日傍晚,AI業界上演了一場精彩的“默契配合”。18:07,DeepSeek官方宣佈發佈DeepSeek-V3.2-Exp模型;僅4分鐘後,寒武紀便宣佈已完成對該模型的適配並開源相關推理引擎。這種近乎即時的步調一致,絕非偶然,演算法與晶片的同步登場,不再是矽谷的獨有節奏。中國AI產業正在用一場精心編排的協同演出,證明中國國產生態的成熟度。01 中國國產大模型與算力晶片的“神同步”2025年9月29日18:07,深度求索(DeepSeek)官宣發佈實驗性模型 DeepSeek-V3.2-Exp,引入自研 稀疏注意力架構(DeepSeek Sparse Attention) ,顯著提升長文字處理效率並大幅降低推理成本。僅4分鐘後(18:11),寒武紀開發者公眾號宣佈:完成對該模型的適配並開源推理引擎vLLM-MLU程式碼,開發者可“第一時間體驗”新模型特性。這種精確到分鐘的協同,已遠超技術巧合,而是 中國國產AI軟硬體生態深度繫結的戰略縮影。01 技術協同 預先埋點的合謀表面上的“4分鐘響應”,實則是長期技術協作的結果。根據行業分析,像DeepSeek-V3.2這樣體量達到671GB的大模型,僅在理想條件下完成下載就需要8-10小時。而晶片與模型的適配涉及底層架構最佳化、算力資源匹配和相容性偵錯等複雜工作,絕非短時間內能夠完成。AI行業資深專家指出:“如此快速的適配響應,充分說明寒武紀早在DeepSeek-V3.2發佈前就已啟動適配研發,雙方在技術層面的溝通與協作早已悄然展開。”這種協同背後是深層次的技術融合。DeepSeek-V3.2-Exp引入的DeepSeek Sparse Attention(DSA)稀疏注意力機制,首次實現了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,大幅提升長文字訓練和推理效率。而寒武紀則通過Triton算子開發實現快速適配,利用BangC融合算子開發實現極致性能最佳化,基於計算與通訊的平行策略,達成業界領先的計算效率水平。02 軟硬體協同生態本次同步發佈的背後,是中國國產AI軟硬體生態的整體成熟。華為計算宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並向開發者開源所有推理程式碼和算子實現。華為雲更是首發上線了DeepSeek-V3.2-Exp,使用CloudMatrix 384超節點為該模型提供推理服務。這種協同效應不僅體現在效率上,更體現在性價比的實質性提升上。DeepSeek V3.2-Exp發佈後,API呼叫成本降低50%以上,使得更多開發者和中小企業能夠以更低成本使用頂尖水平的大模型。過去,中國國產晶片廠商常陷於“適配困境”——被動跟隨國際框架(如CUDA)更新介面,相容成本高且生態割裂。而2024年《國家人工智慧產業綜合標準化體系建設指南》的出台,首次系統性提出“軟硬體協同標準”,要求統一智能晶片介面、規範多硬體平台適配流程。《人工智慧異構加速器統一介面》國家標準強制要求晶片廠商開放指令集架構,使深度學習框架可跨平台無縫部署。這一頂層設計讓寒武紀等企業從“介面適配方”躍升為“標準制定方”,為DeepSeek模型的即時適配鋪平了道路。市場分析人士指出:“DeepSeek-V3.2最大的意義在於軟硬協同設計支援中國國產算力,全新DeepSeek Sparse Attention機制,疊加中國國產晶片的計算效率,可大幅降低長序列場景下的訓推成本。”需要注意的是儘管中國國產AI生態已初具規模,但挑戰猶存:TileLang等工具鏈的易用性仍不及CUDA,開發者生態需進一步下沉;全球競爭壓力下,Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求,對中國國產方案構成新挑戰。然而,當DeepSeek以UE8M0 FP8精度重新定義算力規則,當寒武紀以開放原始碼打破技術黑箱,中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調:“標準化的終極目標不是替代,而是重構全球AI生態的話語權分配。”03 協同模式下的AI產業新秩序DeepSeek與寒武紀等中國國產晶片廠商的高度協同,標誌著中國AI產業進入生態競爭新階段。這種協同不是偶然現象,而是產業鏈頭部企業面對國際競爭的戰略選擇。隨著AI向能源、交通、醫療等關鍵領域滲透,如果底層晶片、網路和系統長期依賴國外,就意味著命脈交到別人手裡。北京方案通過開放標準和統一相容,把崑崙芯、壁仞、太初元碁、摩爾執行緒等中國國產晶片和DeepSeek、豆包、文心一言、Kimi、Qwen等主流大模型拉入同一生態,確保中國國產AI有自己的“底座”和“話語權”。這種協同效應正在形成良性循環。中國國產晶片企業通過適配DeepSeek等先進模型,不斷提升自身在複雜AI任務中的處理能力;而大模型則借助晶片的最佳化實現更高效部署,擴大應用場景。申港證券分析認為:“隨著算力基礎設施的持續投入,中國國產算力在模型側和算力晶片方面或將持續突破,有望維持較好景氣度,展望中期,中國國產算力有望獲得領先於海外算力的增長彈性。”04 點評 定義權的爭奪遠未終結儘管中國國產AI生態已初具規模,但挑戰猶存:TileLang等工具鏈的易用性仍不及CUDA,開發者生態需進一步下沉;全球競爭壓力下,Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求,對中國國產方案構成新挑戰。然而,當DeepSeek以UE8M0 FP8精度重新定義算力規則,當寒武紀以開放原始碼打破技術黑箱,中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調:“標準化的終極目標不是替代,而是重構全球AI生態的話語權分配。” (壹零社)