#昇騰
華為昇騰950發佈:中國AI晶片終於追上輝達
單卡算力是H20的2.87倍,華為這波真的"硬"了。2026年3月20日,華為在中國合作夥伴大會上扔了一顆重磅炸彈。昇騰950PR處理器正式發佈。搭載這顆晶片的Atlas 350加速卡,在多個關鍵指標上實現了對輝達H20的反超。這不是"追趕",這是"超越"。一、昇騰950到底強在哪?核心參數單卡算力是H20的2.87倍。這不是參數黨自我感動,這是實打實的性能碾壓。技術突破1️⃣ 國內唯一支援FP4低精度的推理產品FP4是什麼?簡單說,就是把模型壓縮到原來的1/8,性能幾乎不損失。輝達H100不支援,H20不支援。現在昇騰950支援了。2️⃣ 自研HBM技術HBM(高頻寬記憶體)一直是韓國廠商的天下。華為這次首發自研HBM,打破了國外壟斷。3️⃣ 記憶體訪問顆粒度最佳化從512位元組減少到128位元組。這意味著什麼?小算子訪存效率提升4倍。大模型推理中,小算子佔比超過60%,這個最佳化帶來的提升是實打實的。4️⃣ 叢集能力支援百萬卡叢集,單叢集算力達數百EFLOPS(FP16)。這是什麼概念?相當於把全國Top10超算的算力塞進一個機房。二、為什麼這次不一樣?過去的昇騰:能用,但不夠強昇騰910時代,華為的姿態是"備胎"。能用,但性能、生態、穩定性都和輝達有差距。客戶選擇昇騰,更多是出於"不得不選"。現在的昇騰950:可以正面對剛這一次,華為不是在做"替代品",而是在做"超越者"。單卡算力:超越H20記憶體頻寬:超越H20FP4支援:H20沒有,950有國產生態:完全國產化客戶選擇昇騰950,不再是"無奈之舉",而是"最優解"。三、昇騰950系列規劃華為這次還公佈了完整的晶片路線圖:這是什麼意思?950PR:適合推理階段的第一步——快速生成第一個token。950DT:適合推理階段的第二步——高速解碼後續token。兩顆晶片配合,實現端到端推理加速。四、對產業鏈的影響硬體廠商的機會7家核心夥伴同步發佈基於Atlas 350的整機產品:這些廠商,將成為昇騰生態的"基建商"。投資者關注昇騰產業鏈核心標的:五、對普通人的意義你可能會說:我又不買AI晶片,這跟我有什麼關係?關係很大。1. AI服務成本下降算力成本是AI服務成本的核心。國產晶片性能提升、成本下降,意味著AI服務會更便宜。你用的ChatGPT、文心一言、Kimi,底層都可能跑在昇騰上。2. 資料安全更有保障國產晶片意味著資料不需要出境。政務、金融、醫療等敏感領域,可以放心使用AI。3. 科技自主權昇騰的突破,意味著中國在AI晶片領域不再被"卡脖子"。這是國家層面的戰略安全。昇騰950的發佈,不是技術迭代,是戰略突圍。從"能用"到"好用",從"替代"到"超越",華為走了整整7年。中國國產AI晶片的春天,真的來了。 (碼農看AI)
華為重磅發佈新一代算力加速卡
在剛剛結束的華為中國合作夥伴大會2026上,華為重磅發佈並展出了搭載全新昇騰950PR(Ascend 950PR)處理器的AI訓練推理加速卡Atlas 350。搭載全新昇騰950PR處理器的AI訓練推理加速卡Atlas 350。記者 時娜 攝崑崙、華鯤振宇、神州鯤泰、長江計算、寶德、軟通華方、百信7家華為核心夥伴在會上發佈了基於Atlas 350的伺服器整機產品,標誌著昇騰950代際推理算力正式進入商用階段。上市公司軟通動力旗下的軟通華方在會上發佈的“超強A860 A5”就是其中之一。軟通動力計算產品事業群企業級產品研發管理本部總經理鄧忠良將超強A860 A5比作賦能大模型時代的“核武級”算力。據介紹,超強A860 A5是一款6U2路AI伺服器產品,搭載鯤鵬920新型號處理器,可支援8塊昇騰Atlas350加速卡,具有超強算力、靈活拓展、安全可靠等特點,適合用於AI大語言模型訓練和推理、AI加速計算、視訊分析等應用場景。科大訊飛集團副總裁、星火企業軍團總裁劉江在會上表示,訊飛新一代星火大模型也將與昇騰910/950系列算力底座進行充分適配,為使用者提供“懂行業、能幹活、守規矩、會進化”的整體AI解決方案。算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。華為2018年發佈的昇騰310晶片,是昇騰系列晶片首款產品。2019年,華為發佈昇騰910晶片;2025年,昇騰910C晶片隨著Atlas900超節點規模部署,昇騰晶片逐漸為外界所熟悉。去年9月,華為副董事長、輪值董事長徐直軍在華為全聯接大會2025上首次介紹了昇騰950系列晶片,並官宣了昇騰950系列晶片的發佈時間——昇騰950PR將在2026年第一季度推出,首先支援的產品形態是標卡和超節點伺服器。在本次華為中國合作夥伴大會上,昇騰950PR隨標卡Atlas 350如約亮相,受到業界的廣泛關注。Atlas 350展台成為中國合作夥伴大會2026網紅打卡點。記者 時娜 攝與前一代昇騰晶片相比,昇騰950PR在低精度資料格式、向量算力、互聯頻寬及自研HBM等方面實現大幅提升。據華為昇騰計算業務總裁張迪煊介紹,Atlas 350的單卡算力達到了輝達H20的2.87倍,是目前國內唯一支援FP4低精度的推理產品;HBM(高頻寬記憶體)容量是H20的1.16倍,達到了112GB,多模態生成速度可以提升60%;記憶體訪問顆粒度從512字節減少到128字節,小算子訪存效率提升4倍。在大會展廳Atlas 350展台,上證報記者看到了Atlas 350的具體參數:Atlas 350的FP4精度算力為1.56P,頻寬達到了1.4TB/s;功耗為600W,是H20的1.5倍。大會展出Atlas 350具體參數。記者 時娜 攝展台工作人員告訴記者,Atlas 350除了支援FP16、FP8外,還支援更低精度的FP4。這意味著,整合Atlas 350類股的伺服器能夠支援更大的模型以及時延更低的推理,精度小了,計算速度就會更快,暫存器效率業會更高。目前Atlas 350在網際網路推薦場景的實測資料顯示,該卡的時延更低、響應更快,特別適合短影片、電商、廣告推薦等高並行場景。在大模型推理、文生圖、文生視訊等多模態場景,其性能也和輝達的L20相當。張迪煊表示,基於Atlas 350等產品,結合AI發展趨勢與客戶需求,昇騰將打造大、中、小三大核心算力場景,助力夥伴滿足差異化場景需求,共同深耕行業智能化。面向兆級模型,昇騰384超節點憑藉“超大頻寬、超低時延、統一記憶體編址”三大特性,實現有效算力線性擴展,更好支撐大模型訓練與推理,已在多行業成功落地;面向千億級模型,昇騰提供“開箱即用”的單機伺服器,滿足“快速部署”與“成本可控“的平衡;面向百億級模型,昇騰開放更多算力檔位、更高整合度、更寬溫度設計的模組/板卡,結合更多OS相容、更多場景SDK(軟體開發工具包),使能夥伴打造多樣化產品。會上,昇騰聯合20家行業頭部夥伴,發佈了2026昇騰AI應用場景解決方案,覆蓋輔助辦公、AI實訓、電子病歷、智能客服、政務辦公等多個行業核心場景,以“輕量部署、快速落地、可規模複製”的特點,破解行業智能化部署複雜、周期長的痛點。此外,“養蝦”熱潮再度激起了一體機的需求,華為副總裁、ICT產品組合管理與解決方案部總裁馬海旭在會上透露,過去一個多月已有十幾家合作夥伴推出了基於昇騰的OpenClaw一體機。截至目前,昇騰已聯合夥伴打造400多款行業一體機,服務客戶逾2700家,佔據國內一體機市場80%以上份額。 (上海證券報)
【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析
01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上,華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案,標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計,整合了8192顆華為昇騰950 DT晶片,是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會,報告補充道,SuperPoD計畫於2026年第四季度商用。除了Atlas系統外,華為還展示通用計算平台TaiShan 950 SuperPoD,以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧:華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日,在華為全聯接大會 2025 上,華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示,華為在25年 Q1 已經推出了 Ascend910C,2026 年 Q1 推出全新的 Ascend950PR晶片,2026 年 Q4 推出 Ascend950DT,2027 年 Q4 推出 Ascend960 晶片,2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構,旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU,最高可擴展至128個機櫃,也是就 8,192 個 NPU,可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比,它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構,可實現零線纜電互聯,採用液冷接頭浮動盲插設計做到零漏液,其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構,支援單板內、單板間和機架間的 NPU 全互聯,以 64 卡為步長按需擴展,最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成,單機櫃配置64張加速卡,總體由128個電腦櫃和32個互聯機櫃組成,整套系統共計160個機櫃,形成完整的大規模AI算力叢集。在散熱方案上,Atlas 950 SuperPoD全面採用全液冷架構設計,不提供風冷版本選配,出廠即為液冷機櫃。這一策略表明,隨著算力密度和功耗持續提升,液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署,系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境,滿足大模型訓練等高強度負載的長期運行需求。同時,統一液冷形態也有助於提升系統交付效率與維運標準化水平,降低複雜度,體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面,華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成,總計整合64顆NPU晶片,整櫃設計功耗約75kW,已進入典型高密度液冷部署區間。在散熱方案上,整體採用冷板式液冷架構,對核心高功率器件進行直接液冷覆蓋,以保障在高算力負載下的穩定運行與能效表現。在系統架構層面,該方案機櫃內部不配置Rack級CDU(機架內CDU),而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性,同時減少機櫃內部空間佔用,最佳化結構佈局。伺服器方面,華為950平台採用分佈式獨立冷板架構,在每一顆NPU上均配置單獨冷板,實現對高功率核心器件的精細化散熱管理。據業內資訊顯示,當前華為尚未大規模引入MLCP技術,而是以成熟穩定的單級冷板方案為主,以兼顧可靠性與工程可落地性。在管路設計上,華為採用EPDM材質的液冷軟管,強調柔性與裝配便利性,並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時,在連接方式上,華為引入浮動接頭設計,以緩解裝配公差、熱膨脹及振動帶來的機械應力,從而提升系統長期可靠性。值得關注的是,華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片,本次方案則將光模組納入液冷散熱體系。在超節點(Supernode)架構下,光互連密度與頻寬需求顯著提升,光器件功耗持續攀升,傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組(如800G及以上)功耗進入更高區間,液冷正從“可選方案”向“必選路徑”轉變,這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢,液冷大會現場呈現 2026年4月14日至15日,第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦,聚焦AI時代資料中心散熱技術升級與產業生態協同,吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與,預計2000位行業專家參與。 (零氪1+1)
中國超節點雙雄對決:昇騰384 & scaleX640底牌盡出!
熱度最高的兩大中國國產超節點終於同框出鏡。近日,出自華為的昇騰384與曙光scaleX640超節點,在2025世界計算大會首次毗鄰展出。前者圍繞華為全端技術閉環高度整合384張昇騰加速卡,被視為垂直整合路線里程碑之作;後者基於AI運算開放架構設計,以業界首個單機櫃級640卡超節點反超,展現出開放協同路線的蓬勃潛力。兩大路線迥異的超節點產品「面對面」互飆實力,成為本屆大會的關鍵亮點之一。有業內人士指出,前有昇騰384「以網補算」換道超車輝達,再有scaleX640在算力規模、密度、能效領域全面領航突破,國產超節點正在你追我趕中重塑中國計算系統的全球競爭力。六項指標飆升,國產超節點馬力全開!從昇騰384年中首次亮相,到曙光scaleX640年尾的漂亮收官,國產超節點接連打破業界記錄,在關鍵性指標上飆升加速度。這次兩大代表產品同框,將此進展體現到了極致。數據顯示,昇騰384 超節點以384 張昇騰算力卡組成一個超節點,可提供高達300PFLOPs 的密集BF16 算力,接近輝達GB200NVL72 系統的兩倍。彼時,華為特別強調了"超節點+叢集"策略,透過Atlas900SuperCluster 實現業界最大規模的高速匯流排互聯。相較於昇騰384的珠玉在前,scaleX640進一步實現單機櫃640張加速卡整合,並基於「一拖二」的高密架構組成雙scaleX640超節點(可達1280卡計算單元),FP16/BF16算力突破至昇騰384的2.1倍率當然,超節點的本質是讓叢集系統像一台電腦有效運作,考慮的不僅是算力卡的堆疊程度,其算力密度和整體能效也是系統最佳化過程中的重要版圖。內先進水平根據會上展出訊息,昇騰384單機櫃可搭載32張昇騰910C NPU(共12個機櫃),低至1.12的PUE值及800伏高壓直流(HVDC)供電技術,將功耗能源效率提升至業界先進水準。1. 算力密度scaleX640單機櫃640卡將算力密度提升了整整20倍,而解決散熱問題的關鍵在於全球頂尖的浸沒相變液冷技術,其PUE值降低到了1.04,配備400/800MW的超散熱能力供電,可以為千卡級計算單元提供高達1.72MW的超級散熱能力。2. 記憶體頻寬此外,國產超節點在HBM記憶體頻寬和記憶體容量上表現出明顯的遞進趨勢。其中,昇騰384記憶體頻寬為1229 TB/s,總記憶體達49.2 TB;曙光scaleX640記憶體頻寬為2304 TB/s,總記憶體容量81.9 TB。後者兩項指標分別達到前者的1.7倍、1.9倍。3. 國產計算至此,兩大超節點產品在關鍵指標對壘交出超分答案。尤其scaleX640在昇騰384領先輝達的基礎上再進一階,彰顯了國產計算叢集可持續迭進的澎湃動能。兩大路線並進,華為與曙光仍有底牌?從技術路線特性來看,昇騰384採用了典型的「蘋果係」垂直整合模式,主要由單一巨頭廠商為主導,建構獨立的生態閉環。scaleX640則是「Android系」超節點玩家的代表,追求全端開放協同共贏。兩大路線你追我趕構成了國產計算叢集主流發展圖景。儘管昇騰384在技術路線競跑中被暫時趕超,但在此次大會同台競技中,華為方面正掏出一張張新底牌,試圖在下一程「萬卡級」賽道迎頭趕上。據悉,所謂「Android系」之於「蘋果係」的主要優勢在於生態相容能力。如scaleX640基於AI運算開放架構,適配支援多品牌AI加速卡,可以提供使用者更多彈性選擇。並且,該產品全面相容主流AI運算生態,適配優化了400+主流大模型,能夠支援AI模型、業務應用快速無縫遷移與深度優化,對於AI用戶的高效部署上線需求具備天然的吸引力。為了在算力閉環內實現極致協同,彌補與前者的相容性、擴展性差距,華為方面緊急上線了Flex:ai技術,聚合叢集內空閒XPU算力聚合形成「共享算力池」。業界認為,此項技術本質上是透過軟體創新來實現算力資源的統一管理與利用,進而遮蔽算力硬體的差異。值得一提的是,華為近期也預告了下一步Atlas 950 超節點計畫。該產品支援8192 張基於Ascend 950DT的昇騰卡,可擴展至上一代超節點的20多倍,預計將於2026年Q4上市。面對華為方面一年後下定的“戰書”,曙光似乎正在提前鎖定萬卡級超節點目標。業界傳聞稱,基於scaleX640和1280千卡計算單元,曙光或將在年內進一步推出「萬卡計算叢集」。有人猜測,“很可能就在12月末,開放式超節點路線或將率先奪得全球萬卡級計算高地。”這一番底牌頻出的“高手過招”,儼然將國產大算力熱度推向了極致。可以明顯看出,兩大主流技術路線在輪動迭進中不斷提速,從算力規模、整合密度到功耗能效、內存頻寬,乃至生態層面的全方位比拚下,中國算力正以更積極的姿態衝擊全球計算產業鏈頂端。 (AI雲原生智慧算力架構)
5兆輝達回頭看:「寒武紀們」被低估了嗎?
人類歷史上第一家5兆市值公司誕生了。這個數字,超過了德國或英國一年的GDP,比A股所有「中」字頭股票的市值總和還要多。而創造這個奇蹟的,是一家在三十年前還只是在電腦城裡「賣顯示卡」的公司-輝達(NVIDIA)。作為AI的“賣鏟人”,輝達在人類對於人工智慧近乎宗教般的狂熱夢想中,一路高歌猛進。短短兩年時間,它的市值從1兆沖到5兆,其增長速度本身,就構成了這個時代最魔幻的註腳。很顯然,今天它當然不只賣鏟子。如果說上一輪的科技浪潮,是蘋果定義了「移動互聯網」的入口;那麼在這一輪波瀾壯闊的「智慧革命」中,輝達幾乎成為了整個AI世界的「中樞神經」和「唯一入口」。晶片,是鏟子、是石油、是電力……是人類關於Matrix所有想像的實體底座。沒有輝達的GPU,就沒有ChatGPT的橫空出世,就沒有Sora的以假亂真,就沒有今天我們談論的一切「大模型」。在輝達沖上5兆的時刻,我問一位在AI行業的朋友,這家公司有泡沫嗎?他幾乎是即時地回答我:目前看不到任何泡沫的跡象。其實也可以理解。為什麼?因為全世界的公司,從Google、微軟、OpenAI這樣的巨頭,到成千上萬試圖在AI浪潮中淘金的創業公司,都在排著隊,揮舞著現金,只為求購英VIDIA的H100或B200晶片。這種「剛性需求」的強烈程度,堪比沙漠中的淘金者對水的渴望。我在上個月給經濟觀察報的專欄文章《輝達進化論:當AI賣鏟人開始淘金》裡就寫道,這位最成功的“賣鏟人”,已經不再滿足於僅僅是提供工具本身。它正在從一個單純的硬體供應商,變成了一個與AI浪潮核心玩家深度綁定的利益共同體。這是一個完美的商業閉環。但即便如此,中國也不是沒有機會。當地緣政治的鐵幕落下,黃仁勳不久之前已經放話,中國高階AI晶片市場的佔有率「已經是0%。然而,中國作為唯一能在AI領域與對岸叫板的龐大市場,其需求並不會因此消失。一個巨大的真空地帶形成了。於是,「國產替代」從一個可選項,變成了唯一的必選項,風起雲湧。那麼,一個更貼近我們自身的問題是:當輝達創下5兆市值的歷史豐碑時,我們到底該如何給「寒武紀」們估值?A股市場上的這些AI晶片公司,如寒武紀、景嘉微、海光資訊…它們是真正的“潛力股”,還是只是這場盛宴中被高估的“氣氛組”?最近,我正在重溫估值大師達摩·達蘭(Aswath Damodaran)的經典之作《故事與估值》一書。達蘭教授的核心觀點是,所有估值的本質,都是「故事」與「數字」的結合。從這個視角,或許能夠幫助我們更能理解,中國AI晶片產業的未來,以及那些看似「昂貴」的股價背後,究竟隱藏著怎樣的邏輯。01. 兆估值煉金術首先,我們必須弄清楚,輝達的5兆估值,這套「煉金術」是怎麼來的?如果只是看財務“數字”,輝達的表現當然是驚人的。我們來看一組它「印鈔機」業務-資料中心的財務資料:連續幾個季度,營收年增超過200%甚至400%,毛利率直逼80%。這是什麼概念?這意味著輝達賣一塊晶片的利潤空間,比蘋果賣一部iPhone還要高得多。這根本不是硬體生意,這是「壟斷稅」。但僅僅是這些“數字”,還不足以支撐起5兆的龐大帝國。真正讓輝達「點石成金」的,是它那個強大到令人窒息的「故事」——CUDA。CUDA是什麼?這是理解輝達護城河的關鍵。我們可以打一個通俗的比方:輝達的GPU晶片是“引擎”,就像電腦上的Windows或蘋果的iOS,CUDA就是一套獨一無二的“操作系統”。在CUDA出現之前,GPU雖然計算能力很強,但非常難用。開發者想用它來做AI計算,不亞於要用文言文寫代碼,門檻極高。而輝達在近二十年前就開始佈局,推出了CUDA。這套「操作系統」提供了一個相對易用的程式設計平台,讓全球數百萬的開發者能夠用更熟悉的“白話文”(C++、Python等語言)來指揮GPU這台“發動機”,去完成複雜的AI訓練和推理任務。當Windows和iOS透過「應用商店」鎖定了所有使用者和開發者時,輝達也透過CUDA「鎖定」了全球所有的AI人才。這種「硬體(GPU)+軟體(CUDA)」的組合拳,才是其真正的護城河。它導致了極高的“遷移成本”。什麼叫遷移成本?想像一下,你所有的AI研究成果、所有的程式碼、你團隊裡所有工程師的技能,都是基於CUDA這個「操作系統」建立的。現在,另一家公司(如AMD或寒武紀)造出了一款新晶片,就算它的「引擎」性能和輝達一樣強,甚至價格還便宜一半,你敢用嗎?你不敢。因為你的「Windows」應用,無法在「Android」系統上運作。你必須把過去十年的程式碼全部重寫,你必須讓你的工程師團隊重新學習一套全新的「語言」。這個成本,遠遠高於你省下的那點晶片錢。這就是「網絡效應」:越多人用CUDA,為CUDA開發的工具和教學就越多;工具越多,就有越多的大學開始教CUDA;教CUDA的大學越多,畢業後懂CUDA的工程師就越多;懂CUDA的工程師越多,企業就越傾向於選擇輝達的晶片…這是一個完美的正向循環,也是一個讓所有競爭對手絕望的「生態壁壘」。因此,輝達的估值,早已不僅是對其當前「數字」(獲利能力)的計算,更是對它未來在AI世界「唯一入口」和「事實標準」地位的「故事」定價。而華爾街相信的,是輝達在未來十年,都將持續向全世界收取高昂的「AI稅」。02. 夾縫中的新大陸現在,我們把目光轉回中國。地緣政治的賽局和供應鏈的限制,為中國本土的AI晶片廠商,意外地打開了一個「夾縫中的新大陸」。當輝達最先進的H100、B200晶片被一紙禁令攔在海關之外時,一個規模高達千億等級、並且仍在高速增長的龐大市場,被動地「讓」了出來。這個市場有多大?根據信通院等機構的測算,光是2024年,中國大模型市場對高階AI晶片的需求就可能超過50萬張,未來幾年的複合成長率驚人。這本應是輝達最肥美的“蛋糕”,現在,它只能眼睜睜地看著。這對寒武紀、華為昇騰、阿里平頭哥、壁仞科技、摩爾執行緒等所有本土玩家來說,是前所未有的歷史機會期。它們面對的,是幾乎沒有外部競爭、需求又極其確定的「溫室市場」。然而,這片「新大陸」並非坦途,甚至可以說是荊棘叢生。本土廠商面臨的核心挑戰,已經從“能不能造出晶片”,轉向了“造出的晶片有沒有人用”。在過去,我們評斷一款晶片,主要看PPA,也就是性能(Performance)、功耗(Power)、面積(Area)。我們的目標是創造一款在性能上接近輝達,同時功耗和成本更低的「平替」產品。但現在,所有人都明白了,沒有對標CUDA的成熟軟件棧,再強的晶片也只是“屠龍之技”,是中看不中用的“擺設”。國內的科技巨頭,如阿里、騰訊、百度、字節跳動,它們囤積的輝達晶片總有耗盡的一天。它們急需“國產替代”,但它們的需求也非常苛刻:這款國產晶片,必須能“用起來”,不能讓我的演算法工程師們把代碼全重寫一遍。於是,我們看到,所有國產AI晶片的頭部玩家,都把戰場從“硬體”轉向了“軟件”,試圖構建自己的“朋友圈”和“護城河”。目前,牌桌上主要有兩種流派:第一種,以華為昇騰(Ascend)為代表的「全端模式」。華為的打法,是複製一個「垂直整合」的生態。它不但有自己的昇騰晶片(硬體),還有自己的CANN(對標CUDA的底層軟體棧),甚至還有自己的MindSpore(對標PyTorch的AI框架)。這種模式的好處是控制力強,可以集中力量辦大事,實現內部的完美優化。缺點也同樣明顯:它相對“封閉”,是在試圖建立另一個“蘋果iOS”,要求開發者全面擁抱華為的技術體系。第二種,以寒武紀(MagicJian)為代表的「開放追趕模式」。寒武紀的定位更像是“中國的輝達”,它專注於做好晶片(硬體),同時提供一套名為MagicJian的軟件棧。它試圖更廣泛地去適配且相容主流的AI框架(如PyTorch),努力降低開發者的「遷移成本」。它的挑戰在於,作為一個體量遠小於華為的「中立」廠商,它是否有足夠的資源和號召力,去吸引開發者用它的「語言」?這場競賽的勝負手,已經不在於短期內誰的晶片跑分更高,而在於誰能更快地建構起一個「可用、易用、開發者願意用」的軟體生態,去承接這個因禁令而「溢出」的龐大市場。03. 從計算,到信念最後,讓我們回到最初的問題:寒武紀們被低估了嗎?如果我們嚴格按照達摩·達蘭的估值模型,只用「計算」的眼光去看的話,比如根據它們當下的出貨量、微薄的利潤率(甚至是大額虧損),以及高得離譜的市銷率(P/S),這些仍在追趕和巨額投入期的公司,其估值似乎根本無法支撐,泡沫明顯。以寒武紀為例,市值數百億人民幣,但年收入可能只有幾十億,而且仍在虧損。如果用傳統製造或半導體公司的標準來看,這無疑是昂貴的。但資本市場定價的,從來都不僅僅是“現在”,更是“未來”。對於A股的本土AI晶片股而言,它們的估值,本質上已經脫離了傳統「計算」的範疇,轉而成為一個「信念題」。這個「信念」包含幾個非常具體且層層遞進的層面:第一層信念:對「國產替代必然性」的信念。這是最基礎的信念。市場相信,無論主動或被動,中國AI產業對本土晶片的採購將是剛性的、不可逆的。地緣政治的「高牆」越高,這層信念就越牢固。因為所有人都明白,沒有底層的算力自主,一切「智慧強國」的宏圖都是沙上建塔。這為本土晶片提供了一個確定性極高的「保底」市場。第二層信念:對「中國AI市場長期成長」的信念。光有「替代」還不夠,這個「被取代」的市場必須夠大。市場相信,中國龐大的數字化經濟體量、海量的資料、豐富的應用場景,將共同催生一個不亞於北美的AI市場。從大模型、自動駕駛、生物醫藥到智慧製造,每個領域都是兆級的賽道。這個龐大的增量,為本土晶片提供了足夠高的「天花板」。第三層信念,也是最核心、最脆弱的信念:對「本土生態終將完成」的信念。這才是決定估值「是泡沫還是鑽石」的關鍵。市場在用幾百億、上千億的市值,去「賭」一個可能性:在華為、寒武紀或其他玩家中,至少會有一家,能夠克服萬難,最終建構起一個足以對標CUDA、能夠讓中國數百萬開發者順暢使用的軟件生態。為什麼說這層信念最脆弱?因為它不是必然的。它需要巨額的、持續十數年的研發投入,需要頂級的戰略耐心,需要龐大的工程師團隊夜以繼日地去“填坑”,更需要下游的客戶和開發者“用腳投票”,願意忍受早期產品的不完善,一起“共建”這個生態。因此,短期來看,寒武紀們的估值,反映的就是市場對這第三層信念的「搖擺」。當市場情緒樂觀時,比如華為昇騰又有了新突破,或者寒武紀適配了某款熱門大模型,大家覺得“生態好像快成了”,股價就會飆升,因為市場願意為這個“中國版CUDA”的遠景支付高額溢價。當市場情緒悲觀時,例如財報虧損擴大,或者某個技術難關遲遲無法攻克,大家又會退回到“計算”模式,覺得“故事講不通了”,股價就會暴跌。所以,討論“低估”還是“高估”,已經意義不大。我們必須明白,給這些公司估值,本質上不是在「計算」一家公司的當前價值,而是在「押注」一個國家產業突圍的機率。04. 生態,終局的博弈當輝達的市值沖向5萬美元時,它早已不是一家單純的硬體公司,它是一個「生態帝國」。而對於「寒武紀」來說,它們從誕生之日起,就註定了無法成為一家「小而美」的晶片設計公司。它們背負的宿命,就是要在中國這片土地上,重建一個獨立自主的AI「生態」。這是一場九死一生的豪賭,也是一場沒有退路的戰爭。從這個角度來看,寒武紀們的估值,目前仍然是一個「信念題」。這個信念,建立在地緣政治的「高牆」和中國市場的「縱深」之上。但信念無法永遠脫離現實。未來三到五年,將是國內AI生態的「攤牌期」。如果本土廠商無法提供真正「可用」的工具鏈,那麼國內的AI產業發展將被迫降速,甚至停滯,這個「信念」的基礎也就不復存在。反之,如果我們能在這場「夾縫」中,真的培育出一個或幾個開放、繁榮、足以對抗封鎖的AI新生態——那怕這個生態運轉的效率可能只有CUDA的70%或80%——那麼,今天我們看到的幾百億、幾千億市值,或許都還只是一個開始。 (深水研究)
突破!DeepSeek新模型適配中國國產AI晶片!
中國人工智慧領域迎來軟硬體協同發展的重要里程碑。9月29日,深度求索(DeepSeek)公司正式開源發佈DeepSeek-V3.2-Exp大語言模型,其創新的稀疏注意力架構(DSA)顯著提升長文字處理效率。與此同時,華為昇騰計算產業生態宣佈實現對該模型的“0day支援”,基於vLLM/SGLang等主流推理框架完成全套適配部署,並向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp作為實驗性版本,首次引入細粒度稀疏注意力機制(DSA),在保持與V3.1-Terminus相當性能的前提下,顯著最佳化了長上下文場景下的訓練與推理效率。該機制通過動態令牌選擇與局部注意力聚焦,有效降低了長文字處理的計算複雜度和記憶體佔用。華為昇騰團隊針對模型架構中的兩個全新算子——Lightning Indexer(LI)與Sparse Flash Attention(SFA),進行了專門的算子Tiling設計、Cube核與Vector核間的流水最佳化,全面提升計算效率。在CANNAI平台上,昇騰完成了對應的最佳化適配,整體部署策略沿用DeepSeek的大EP平行方案,並針對稀疏DSA結構疊加實現長序列親和的CP平行策略,兼顧時延和吞吐。實測資料顯示,在128K長序列環境下,最佳化後的模型在昇騰硬體上能夠保持TTFT(首令牌響應時間)低於2秒、TPOT(每個令牌輸出時間)低於30毫秒的推理生成速度。這一性能表現使得中國國產算力平台在處理大規模語言模型任務時達到業界先進水平。為進一步簡化開發流程,昇騰CANN首次推出大融合算子程式設計體系PyPTO,該框架創新性地採用PTO程式設計範式,以Tensor為基本資料表達方式,建構計算圖,實現高效計算與最佳化。目前基於PyPTO完成的DeepSeek Indexer Attention和Lightning indexer算子開發,僅需幾百行程式碼即可實現動態Shape算子程式設計和算子整網運行。除了華為昇騰,寒武紀、海光等中國國產晶片廠商也迅速宣佈完成模型適配,展現出中國國產AI軟硬體生態協同效應的持續擴大。業內分析指出,DeepSeek已成為中國國產開源模型的重要標竿,其快速迭代正推動著中國國產晶片標準的確立。華為雲已在第一時間完成對DeepSeek-V3.2-Exp模型的適配工作,基於稀疏Attention結構疊加實現長序列親和的上下文平行策略,最大可支援160K長序列上下文長度。目前該模型已正式上架華為雲大模型即服務平台MaaS,為企業和開發者提供模型體驗和API服務。DeepSeek-V3.2-Exp的發佈與中國國產算力的快速適配,標誌著中國在人工智慧基礎軟硬體協同最佳化方面取得實質性進展。隨著稀疏注意力等創新技術的成熟,以及中國國產算力生態的不斷完善,中國人工智慧產業正朝著自主可控、高效普惠的方向穩步邁進。 (晶片行業)
DeepSeek與寒武紀的“4分鐘協同”,中國國產AI的默契合謀
9月29日傍晚,AI業界上演了一場精彩的“默契配合”。18:07,DeepSeek官方宣佈發佈DeepSeek-V3.2-Exp模型;僅4分鐘後,寒武紀便宣佈已完成對該模型的適配並開源相關推理引擎。這種近乎即時的步調一致,絕非偶然,演算法與晶片的同步登場,不再是矽谷的獨有節奏。中國AI產業正在用一場精心編排的協同演出,證明中國國產生態的成熟度。01 中國國產大模型與算力晶片的“神同步”2025年9月29日18:07,深度求索(DeepSeek)官宣發佈實驗性模型 DeepSeek-V3.2-Exp,引入自研 稀疏注意力架構(DeepSeek Sparse Attention) ,顯著提升長文字處理效率並大幅降低推理成本。僅4分鐘後(18:11),寒武紀開發者公眾號宣佈:完成對該模型的適配並開源推理引擎vLLM-MLU程式碼,開發者可“第一時間體驗”新模型特性。這種精確到分鐘的協同,已遠超技術巧合,而是 中國國產AI軟硬體生態深度繫結的戰略縮影。01 技術協同 預先埋點的合謀表面上的“4分鐘響應”,實則是長期技術協作的結果。根據行業分析,像DeepSeek-V3.2這樣體量達到671GB的大模型,僅在理想條件下完成下載就需要8-10小時。而晶片與模型的適配涉及底層架構最佳化、算力資源匹配和相容性偵錯等複雜工作,絕非短時間內能夠完成。AI行業資深專家指出:“如此快速的適配響應,充分說明寒武紀早在DeepSeek-V3.2發佈前就已啟動適配研發,雙方在技術層面的溝通與協作早已悄然展開。”這種協同背後是深層次的技術融合。DeepSeek-V3.2-Exp引入的DeepSeek Sparse Attention(DSA)稀疏注意力機制,首次實現了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,大幅提升長文字訓練和推理效率。而寒武紀則通過Triton算子開發實現快速適配,利用BangC融合算子開發實現極致性能最佳化,基於計算與通訊的平行策略,達成業界領先的計算效率水平。02 軟硬體協同生態本次同步發佈的背後,是中國國產AI軟硬體生態的整體成熟。華為計算宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並向開發者開源所有推理程式碼和算子實現。華為雲更是首發上線了DeepSeek-V3.2-Exp,使用CloudMatrix 384超節點為該模型提供推理服務。這種協同效應不僅體現在效率上,更體現在性價比的實質性提升上。DeepSeek V3.2-Exp發佈後,API呼叫成本降低50%以上,使得更多開發者和中小企業能夠以更低成本使用頂尖水平的大模型。過去,中國國產晶片廠商常陷於“適配困境”——被動跟隨國際框架(如CUDA)更新介面,相容成本高且生態割裂。而2024年《國家人工智慧產業綜合標準化體系建設指南》的出台,首次系統性提出“軟硬體協同標準”,要求統一智能晶片介面、規範多硬體平台適配流程。《人工智慧異構加速器統一介面》國家標準強制要求晶片廠商開放指令集架構,使深度學習框架可跨平台無縫部署。這一頂層設計讓寒武紀等企業從“介面適配方”躍升為“標準制定方”,為DeepSeek模型的即時適配鋪平了道路。市場分析人士指出:“DeepSeek-V3.2最大的意義在於軟硬協同設計支援中國國產算力,全新DeepSeek Sparse Attention機制,疊加中國國產晶片的計算效率,可大幅降低長序列場景下的訓推成本。”需要注意的是儘管中國國產AI生態已初具規模,但挑戰猶存:TileLang等工具鏈的易用性仍不及CUDA,開發者生態需進一步下沉;全球競爭壓力下,Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求,對中國國產方案構成新挑戰。然而,當DeepSeek以UE8M0 FP8精度重新定義算力規則,當寒武紀以開放原始碼打破技術黑箱,中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調:“標準化的終極目標不是替代,而是重構全球AI生態的話語權分配。”03 協同模式下的AI產業新秩序DeepSeek與寒武紀等中國國產晶片廠商的高度協同,標誌著中國AI產業進入生態競爭新階段。這種協同不是偶然現象,而是產業鏈頭部企業面對國際競爭的戰略選擇。隨著AI向能源、交通、醫療等關鍵領域滲透,如果底層晶片、網路和系統長期依賴國外,就意味著命脈交到別人手裡。北京方案通過開放標準和統一相容,把崑崙芯、壁仞、太初元碁、摩爾執行緒等中國國產晶片和DeepSeek、豆包、文心一言、Kimi、Qwen等主流大模型拉入同一生態,確保中國國產AI有自己的“底座”和“話語權”。這種協同效應正在形成良性循環。中國國產晶片企業通過適配DeepSeek等先進模型,不斷提升自身在複雜AI任務中的處理能力;而大模型則借助晶片的最佳化實現更高效部署,擴大應用場景。申港證券分析認為:“隨著算力基礎設施的持續投入,中國國產算力在模型側和算力晶片方面或將持續突破,有望維持較好景氣度,展望中期,中國國產算力有望獲得領先於海外算力的增長彈性。”04 點評 定義權的爭奪遠未終結儘管中國國產AI生態已初具規模,但挑戰猶存:TileLang等工具鏈的易用性仍不及CUDA,開發者生態需進一步下沉;全球競爭壓力下,Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求,對中國國產方案構成新挑戰。然而,當DeepSeek以UE8M0 FP8精度重新定義算力規則,當寒武紀以開放原始碼打破技術黑箱,中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調:“標準化的終極目標不是替代,而是重構全球AI生態的話語權分配。” (壹零社)