#華為昇騰 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#華為昇騰

【MWC 2026】出海硬剛輝達!華為昇騰950超節點及液冷架構解析

01. 華為攜950 SuperPoD出征海外,MWC展會硬剛輝達昨天,在 2026 年巴塞隆納世界移動通訊大會上，華為計算產品線總裁張世偉發佈了最新的 SuperPoD 產品 Atlas 950 SuperPoD、TaiShan 950 SuperPoD 以及一系列計算解決方案，標誌著這些產品首次在全球亮相。華為Atlas 950 SuperPoD專為人工智慧資料中心部署而設計，整合了8192顆華為昇騰950 DT晶片，是華為最新的高性能人工智慧基礎設施產品。此次活動將為華為提供向海外客戶展示其人工智慧解決方案的機會，報告補充道，SuperPoD計畫於2026年第四季度商用。除了Atlas系統外，華為還展示通用計算平台TaiShan 950 SuperPoD，以及包括TaiShan 500和TaiShan 200在內的下一代伺服器。02. 叢集級人工智慧：華為Atlas 950 SuperPoD揭秘在聊華為的950前,先簡單梳理下華為昇騰AI晶片出貨節點。25年9 月 18 日，在華為全聯接大會 2025 上，華為輪值董事長徐直軍公佈了最新的 AscendAI 晶片路線圖。根據路線圖顯示，華為在25年 Q1 已經推出了 Ascend910C，2026 年 Q1 推出全新的 Ascend950PR晶片，2026 年 Q4 推出 Ascend950DT，2027 年 Q4 推出 Ascend960 晶片，2028 年Q4 推出 Ascend970 晶片。關於華為的Atlas 950 SuperPoD的架構特點: 華為為其SuperPoD開發了一種名為UnifiedBus的新型互連架構，旨在與NVIDIA的NVLink競爭。在基於 UnifiedBus 的 Atlas 950 SuperPoD 每個機櫃整合 64 個 NPU，最高可擴展至128個機櫃,也是就 8,192 個 NPU，可以為為大規模人工智慧訓練和高並行推理提供卓越的性能。與傳統叢集相比，它顯著提升了模型訓練效率、可靠性和推理性能。950超節點整機櫃是通過正交架構，可實現零線纜電互聯，採用液冷接頭浮動盲插設計做到零漏液，其獨創的材料和工藝讓光模組液冷可靠性提升一倍。其創新的 UB-Mesh 遞迴直連拓撲網路架構，支援單板內、單板間和機架間的 NPU 全互聯，以 64 卡為步長按需擴展，最大可實現 8192 卡無收斂全互聯。03. 液冷唯一標配!華為950超節點液冷用量及架構解析華為950 Atlas SuperPoD採用面向大規模AI訓練場景的超節點架構設計。該系統由8192張 Huawei Ascend 950昇騰加速卡構成，單機櫃配置64張加速卡，總體由128個電腦櫃和32個互聯機櫃組成，整套系統共計160個機櫃，形成完整的大規模AI算力叢集。在散熱方案上，Atlas 950 SuperPoD全面採用全液冷架構設計，不提供風冷版本選配，出廠即為液冷機櫃。這一策略表明，隨著算力密度和功耗持續提升，液冷已從傳統的可選配置升級為基礎架構能力。通過全液冷部署，系統能夠實現更高的功率密度、更優的能效表現以及更穩定的運行環境，滿足大模型訓練等高強度負載的長期運行需求。同時，統一液冷形態也有助於提升系統交付效率與維運標準化水平，降低複雜度，體現出當前AI資料中心從“風液混合”向“全液冷”演進的趨勢。整機櫃架構方面，華為950採用高密度超節點設計。單機櫃由16台1U伺服器構成，總計整合64顆NPU晶片，整櫃設計功耗約75kW，已進入典型高密度液冷部署區間。在散熱方案上，整體採用冷板式液冷架構，對核心高功率器件進行直接液冷覆蓋，以保障在高算力負載下的穩定運行與能效表現。在系統架構層面，該方案機櫃內部不配置Rack級CDU（機架內CDU），而是採用機櫃式CDU進行統一冷卻液分配與控制。這種集中式CDU部署方式有利於提升維護便利性與系統一致性，同時減少機櫃內部空間佔用，最佳化結構佈局。伺服器方面，華為950平台採用分佈式獨立冷板架構，在每一顆NPU上均配置單獨冷板，實現對高功率核心器件的精細化散熱管理。據業內資訊顯示，當前華為尚未大規模引入MLCP技術，而是以成熟穩定的單級冷板方案為主，以兼顧可靠性與工程可落地性。在管路設計上，華為採用EPDM材質的液冷軟管，強調柔性與裝配便利性，並未像 NVIDIA 那樣大量採用不鏽鋼金屬波紋管結構。同時，在連接方式上，華為引入浮動接頭設計，以緩解裝配公差、熱膨脹及振動帶來的機械應力，從而提升系統長期可靠性。值得關注的是，華為950方案中液冷覆蓋範圍進一步擴大。此前液冷主要集中於CPU/NPU等核心晶片，本次方案則將光模組納入液冷散熱體系。在超節點（Supernode）架構下，光互連密度與頻寬需求顯著提升，光器件功耗持續攀升，傳統風冷逐漸難以滿足熱管理要求。隨著高速光模組（如800G及以上）功耗進入更高區間，液冷正從“可選方案”向“必選路徑”轉變，這也標誌著伺服器液冷從核心計算晶片向系統級關鍵器件全面擴展。更多液冷前沿趨勢，液冷大會現場呈現 2026年4月14日至15日，第五屆資料中心液冷峰會暨展覽會將在上海舉行。本次大會由零氪主辦，聚焦AI時代資料中心散熱技術升級與產業生態協同，吸引了包括整機廠、晶片廠、資料中心營運商及核心裝置供應商在內的產業鏈頭部企業參與，預計2000位行業專家參與。 (零氪1+1)

支援中國國產晶片！中國移動1.555億元採購華為昇騰910C：明確要求拒絕進口

雖然國產AI晶片跟輝達等巨頭相比仍有一定的差距，但它們就是星星之火，如果被好好扶持也是可以燎原的。對於國產晶片的支援，特別是華為昇騰這塊，中國移動已經開始率先拿出行動了。近日，中國政府採購網發佈《光明大裝置算力服務支撐平台採購項目》中標公告，中國移動廣東公司以1.55億元中標，採購項目包含華為溫冷資料備份儲存裝置一套，裝置單價為4459.86萬元。據悉，該項目總預算金額為1.555億元，採購項目包括智能算力開放服務系統軟硬體及服務支援、資訊安全與維運軟硬體及服務支援、溫冷資料備份儲存裝置及配套，每一項貨物名稱都要求“拒絕進口”。招標公告提到，光明大裝置採用華為昇騰910C裝置以及面向超密叢集的天工架構進行建設，並使用性能最高的華為靈衢匯流排進行承載。整體系統提供智能算力規模為每秒一千六百億億次16位浮點運算。其中，包括基礎硬體、基礎軟體2個分系統，而全域儲存子系統配置高性能層儲存裝置OceanStor A800（SSD裸容量30.9PB）和大容量層儲存裝置OceanStor Pacific 9550（HHD裸容量62PB）等。 (硬體世界)

5兆輝達回頭看：「寒武紀們」被低估了嗎？

人類歷史上第一家5兆市值公司誕生了。這個數字，超過了德國或英國一年的GDP，比A股所有「中」字頭股票的市值總和還要多。而創造這個奇蹟的，是一家在三十年前還只是在電腦城裡「賣顯示卡」的公司－輝達（NVIDIA）。作為AI的“賣鏟人”，輝達在人類對於人工智慧近乎宗教般的狂熱夢想中，一路高歌猛進。短短兩年時間，它的市值從1兆沖到5兆，其增長速度本身，就構成了這個時代最魔幻的註腳。很顯然，今天它當然不只賣鏟子。如果說上一輪的科技浪潮，是蘋果定義了「移動互聯網」的入口；那麼在這一輪波瀾壯闊的「智慧革命」中，輝達幾乎成為了整個AI世界的「中樞神經」和「唯一入口」。晶片，是鏟子、是石油、是電力……是人類關於Matrix所有想像的實體底座。沒有輝達的GPU，就沒有ChatGPT的橫空出世，就沒有Sora的以假亂真，就沒有今天我們談論的一切「大模型」。在輝達沖上5兆的時刻，我問一位在AI行業的朋友，這家公司有泡沫嗎？他幾乎是即時地回答我：目前看不到任何泡沫的跡象。其實也可以理解。為什麼？因為全世界的公司，從Google、微軟、OpenAI這樣的巨頭，到成千上萬試圖在AI浪潮中淘金的創業公司，都在排著隊，揮舞著現金，只為求購英VIDIA的H100或B200晶片。這種「剛性需求」的強烈程度，堪比沙漠中的淘金者對水的渴望。我在上個月給經濟觀察報的專欄文章《輝達進化論：當AI賣鏟人開始淘金》裡就寫道，這位最成功的“賣鏟人”，已經不再滿足於僅僅是提供工具本身。它正在從一個單純的硬體供應商，變成了一個與AI浪潮核心玩家深度綁定的利益共同體。這是一個完美的商業閉環。但即便如此，中國也不是沒有機會。當地緣政治的鐵幕落下，黃仁勳不久之前已經放話，中國高階AI晶片市場的佔有率「已經是0%。然而，中國作為唯一能在AI領域與對岸叫板的龐大市場，其需求並不會因此消失。一個巨大的真空地帶形成了。於是，「國產替代」從一個可選項，變成了唯一的必選項，風起雲湧。那麼，一個更貼近我們自身的問題是：當輝達創下5兆市值的歷史豐碑時，我們到底該如何給「寒武紀」們估值？A股市場上的這些AI晶片公司，如寒武紀、景嘉微、海光資訊…它們是真正的“潛力股”，還是只是這場盛宴中被高估的“氣氛組”？最近，我正在重溫估值大師達摩·達蘭（Aswath Damodaran）的經典之作《故事與估值》一書。達蘭教授的核心觀點是，所有估值的本質，都是「故事」與「數字」的結合。從這個視角，或許能夠幫助我們更能理解，中國AI晶片產業的未來，以及那些看似「昂貴」的股價背後，究竟隱藏著怎樣的邏輯。01. 兆估值煉金術首先，我們必須弄清楚，輝達的5兆估值，這套「煉金術」是怎麼來的？如果只是看財務“數字”，輝達的表現當然是驚人的。我們來看一組它「印鈔機」業務－資料中心的財務資料：連續幾個季度，營收年增超過200%甚至400%，毛利率直逼80%。這是什麼概念？這意味著輝達賣一塊晶片的利潤空間，比蘋果賣一部iPhone還要高得多。這根本不是硬體生意，這是「壟斷稅」。但僅僅是這些“數字”，還不足以支撐起5兆的龐大帝國。真正讓輝達「點石成金」的，是它那個強大到令人窒息的「故事」——CUDA。CUDA是什麼？這是理解輝達護城河的關鍵。我們可以打一個通俗的比方：輝達的GPU晶片是“引擎”，就像電腦上的Windows或蘋果的iOS，CUDA就是一套獨一無二的“操作系統”。在CUDA出現之前，GPU雖然計算能力很強，但非常難用。開發者想用它來做AI計算，不亞於要用文言文寫代碼，門檻極高。而輝達在近二十年前就開始佈局，推出了CUDA。這套「操作系統」提供了一個相對易用的程式設計平台，讓全球數百萬的開發者能夠用更熟悉的“白話文”（C++、Python等語言）來指揮GPU這台“發動機”，去完成複雜的AI訓練和推理任務。當Windows和iOS透過「應用商店」鎖定了所有使用者和開發者時，輝達也透過CUDA「鎖定」了全球所有的AI人才。這種「硬體（GPU）+軟體（CUDA）」的組合拳，才是其真正的護城河。它導致了極高的“遷移成本”。什麼叫遷移成本？想像一下，你所有的AI研究成果、所有的程式碼、你團隊裡所有工程師的技能，都是基於CUDA這個「操作系統」建立的。現在，另一家公司（如AMD或寒武紀）造出了一款新晶片，就算它的「引擎」性能和輝達一樣強，甚至價格還便宜一半，你敢用嗎？你不敢。因為你的「Windows」應用，無法在「Android」系統上運作。你必須把過去十年的程式碼全部重寫，你必須讓你的工程師團隊重新學習一套全新的「語言」。這個成本，遠遠高於你省下的那點晶片錢。這就是「網絡效應」：越多人用CUDA，為CUDA開發的工具和教學就越多；工具越多，就有越多的大學開始教CUDA；教CUDA的大學越多，畢業後懂CUDA的工程師就越多；懂CUDA的工程師越多，企業就越傾向於選擇輝達的晶片…這是一個完美的正向循環，也是一個讓所有競爭對手絕望的「生態壁壘」。因此，輝達的估值，早已不僅是對其當前「數字」（獲利能力）的計算，更是對它未來在AI世界「唯一入口」和「事實標準」地位的「故事」定價。而華爾街相信的，是輝達在未來十年，都將持續向全世界收取高昂的「AI稅」。02. 夾縫中的新大陸現在，我們把目光轉回中國。地緣政治的賽局和供應鏈的限制，為中國本土的AI晶片廠商，意外地打開了一個「夾縫中的新大陸」。當輝達最先進的H100、B200晶片被一紙禁令攔在海關之外時，一個規模高達千億等級、並且仍在高速增長的龐大市場，被動地「讓」了出來。這個市場有多大？根據信通院等機構的測算，光是2024年，中國大模型市場對高階AI晶片的需求就可能超過50萬張，未來幾年的複合成長率驚人。這本應是輝達最肥美的“蛋糕”，現在，它只能眼睜睜地看著。這對寒武紀、華為昇騰、阿里平頭哥、壁仞科技、摩爾執行緒等所有本土玩家來說，是前所未有的歷史機會期。它們面對的，是幾乎沒有外部競爭、需求又極其確定的「溫室市場」。然而，這片「新大陸」並非坦途，甚至可以說是荊棘叢生。本土廠商面臨的核心挑戰，已經從“能不能造出晶片”，轉向了“造出的晶片有沒有人用”。在過去，我們評斷一款晶片，主要看PPA，也就是性能（Performance）、功耗（Power）、面積（Area）。我們的目標是創造一款在性能上接近輝達，同時功耗和成本更低的「平替」產品。但現在，所有人都明白了，沒有對標CUDA的成熟軟件棧，再強的晶片也只是“屠龍之技”，是中看不中用的“擺設”。國內的科技巨頭，如阿里、騰訊、百度、字節跳動，它們囤積的輝達晶片總有耗盡的一天。它們急需“國產替代”，但它們的需求也非常苛刻：這款國產晶片，必須能“用起來”，不能讓我的演算法工程師們把代碼全重寫一遍。於是，我們看到，所有國產AI晶片的頭部玩家，都把戰場從“硬體”轉向了“軟件”，試圖構建自己的“朋友圈”和“護城河”。目前，牌桌上主要有兩種流派：第一種，以華為昇騰（Ascend）為代表的「全端模式」。華為的打法，是複製一個「垂直整合」的生態。它不但有自己的昇騰晶片（硬體），還有自己的CANN（對標CUDA的底層軟體棧），甚至還有自己的MindSpore（對標PyTorch的AI框架）。這種模式的好處是控制力強，可以集中力量辦大事，實現內部的完美優化。缺點也同樣明顯：它相對“封閉”，是在試圖建立另一個“蘋果iOS”，要求開發者全面擁抱華為的技術體系。第二種，以寒武紀（MagicJian）為代表的「開放追趕模式」。寒武紀的定位更像是“中國的輝達”，它專注於做好晶片（硬體），同時提供一套名為MagicJian的軟件棧。它試圖更廣泛地去適配且相容主流的AI框架（如PyTorch），努力降低開發者的「遷移成本」。它的挑戰在於，作為一個體量遠小於華為的「中立」廠商，它是否有足夠的資源和號召力，去吸引開發者用它的「語言」？這場競賽的勝負手，已經不在於短期內誰的晶片跑分更高，而在於誰能更快地建構起一個「可用、易用、開發者願意用」的軟體生態，去承接這個因禁令而「溢出」的龐大市場。03. 從計算，到信念最後，讓我們回到最初的問題：寒武紀們被低估了嗎？如果我們嚴格按照達摩·達蘭的估值模型，只用「計算」的眼光去看的話，比如根據它們當下的出貨量、微薄的利潤率（甚至是大額虧損），以及高得離譜的市銷率（P/S），這些仍在追趕和巨額投入期的公司，其估值似乎根本無法支撐，泡沫明顯。以寒武紀為例，市值數百億人民幣，但年收入可能只有幾十億，而且仍在虧損。如果用傳統製造或半導體公司的標準來看，這無疑是昂貴的。但資本市場定價的，從來都不僅僅是“現在”，更是“未來”。對於A股的本土AI晶片股而言，它們的估值，本質上已經脫離了傳統「計算」的範疇，轉而成為一個「信念題」。這個「信念」包含幾個非常具體且層層遞進的層面：第一層信念：對「國產替代必然性」的信念。這是最基礎的信念。市場相信，無論主動或被動，中國AI產業對本土晶片的採購將是剛性的、不可逆的。地緣政治的「高牆」越高，這層信念就越牢固。因為所有人都明白，沒有底層的算力自主，一切「智慧強國」的宏圖都是沙上建塔。這為本土晶片提供了一個確定性極高的「保底」市場。第二層信念：對「中國AI市場長期成長」的信念。光有「替代」還不夠，這個「被取代」的市場必須夠大。市場相信，中國龐大的數字化經濟體量、海量的資料、豐富的應用場景，將共同催生一個不亞於北美的AI市場。從大模型、自動駕駛、生物醫藥到智慧製造，每個領域都是兆級的賽道。這個龐大的增量，為本土晶片提供了足夠高的「天花板」。第三層信念，也是最核心、最脆弱的信念：對「本土生態終將完成」的信念。這才是決定估值「是泡沫還是鑽石」的關鍵。市場在用幾百億、上千億的市值，去「賭」一個可能性：在華為、寒武紀或其他玩家中，至少會有一家，能夠克服萬難，最終建構起一個足以對標CUDA、能夠讓中國數百萬開發者順暢使用的軟件生態。為什麼說這層信念最脆弱？因為它不是必然的。它需要巨額的、持續十數年的研發投入，需要頂級的戰略耐心，需要龐大的工程師團隊夜以繼日地去“填坑”，更需要下游的客戶和開發者“用腳投票”，願意忍受早期產品的不完善，一起“共建”這個生態。因此，短期來看，寒武紀們的估值，反映的就是市場對這第三層信念的「搖擺」。當市場情緒樂觀時，比如華為昇騰又有了新突破，或者寒武紀適配了某款熱門大模型，大家覺得“生態好像快成了”，股價就會飆升，因為市場願意為這個“中國版CUDA”的遠景支付高額溢價。當市場情緒悲觀時，例如財報虧損擴大，或者某個技術難關遲遲無法攻克，大家又會退回到“計算”模式，覺得“故事講不通了”，股價就會暴跌。所以，討論“低估”還是“高估”，已經意義不大。我們必須明白，給這些公司估值，本質上不是在「計算」一家公司的當前價值，而是在「押注」一個國家產業突圍的機率。04. 生態，終局的博弈當輝達的市值沖向5萬美元時，它早已不是一家單純的硬體公司，它是一個「生態帝國」。而對於「寒武紀」來說，它們從誕生之日起，就註定了無法成為一家「小而美」的晶片設計公司。它們背負的宿命，就是要在中國這片土地上，重建一個獨立自主的AI「生態」。這是一場九死一生的豪賭，也是一場沒有退路的戰爭。從這個角度來看，寒武紀們的估值，目前仍然是一個「信念題」。這個信念，建立在地緣政治的「高牆」和中國市場的「縱深」之上。但信念無法永遠脫離現實。未來三到五年，將是國內AI生態的「攤牌期」。如果本土廠商無法提供真正「可用」的工具鏈，那麼國內的AI產業發展將被迫降速，甚至停滯，這個「信念」的基礎也就不復存在。反之，如果我們能在這場「夾縫」中，真的培育出一個或幾個開放、繁榮、足以對抗封鎖的AI新生態——那怕這個生態運轉的效率可能只有CUDA的70%或80%——那麼，今天我們看到的幾百億、幾千億市值，或許都還只是一個開始。（深水研究）

DeepSeek與寒武紀的“4分鐘協同”，中國國產AI的默契合謀

9月29日傍晚，AI業界上演了一場精彩的“默契配合”。18:07，DeepSeek官方宣佈發佈DeepSeek-V3.2-Exp模型；僅4分鐘後，寒武紀便宣佈已完成對該模型的適配並開源相關推理引擎。這種近乎即時的步調一致，絕非偶然，演算法與晶片的同步登場，不再是矽谷的獨有節奏。中國AI產業正在用一場精心編排的協同演出，證明中國國產生態的成熟度。01 中國國產大模型與算力晶片的“神同步”2025年9月29日18:07，深度求索（DeepSeek）官宣發佈實驗性模型 DeepSeek-V3.2-Exp，引入自研稀疏注意力架構（DeepSeek Sparse Attention），顯著提升長文字處理效率並大幅降低推理成本。僅4分鐘後（18:11），寒武紀開發者公眾號宣佈：完成對該模型的適配並開源推理引擎vLLM-MLU程式碼，開發者可“第一時間體驗”新模型特性。這種精確到分鐘的協同，已遠超技術巧合，而是中國國產AI軟硬體生態深度繫結的戰略縮影。01 技術協同預先埋點的合謀表面上的“4分鐘響應”，實則是長期技術協作的結果。根據行業分析，像DeepSeek-V3.2這樣體量達到671GB的大模型，僅在理想條件下完成下載就需要8-10小時。而晶片與模型的適配涉及底層架構最佳化、算力資源匹配和相容性偵錯等複雜工作，絕非短時間內能夠完成。AI行業資深專家指出：“如此快速的適配響應，充分說明寒武紀早在DeepSeek-V3.2發佈前就已啟動適配研發，雙方在技術層面的溝通與協作早已悄然展開。”這種協同背後是深層次的技術融合。DeepSeek-V3.2-Exp引入的DeepSeek Sparse Attention（DSA）稀疏注意力機制，首次實現了細粒度稀疏注意力機制，在幾乎不影響模型輸出效果的前提下，大幅提升長文字訓練和推理效率。而寒武紀則通過Triton算子開發實現快速適配，利用BangC融合算子開發實現極致性能最佳化，基於計算與通訊的平行策略，達成業界領先的計算效率水平。02 軟硬體協同生態本次同步發佈的背後，是中國國產AI軟硬體生態的整體成熟。華為計算宣佈，昇騰已快速基於vLLM/SGLang等推理框架完成適配部署，實現DeepSeek-V3.2-Exp Day 0（第零天）支援，並向開發者開源所有推理程式碼和算子實現。華為雲更是首發上線了DeepSeek-V3.2-Exp，使用CloudMatrix 384超節點為該模型提供推理服務。這種協同效應不僅體現在效率上，更體現在性價比的實質性提升上。DeepSeek V3.2-Exp發佈後，API呼叫成本降低50%以上，使得更多開發者和中小企業能夠以更低成本使用頂尖水平的大模型。過去，中國國產晶片廠商常陷於“適配困境”——被動跟隨國際框架（如CUDA）更新介面，相容成本高且生態割裂。而2024年《國家人工智慧產業綜合標準化體系建設指南》的出台，首次系統性提出“軟硬體協同標準”，要求統一智能晶片介面、規範多硬體平台適配流程。《人工智慧異構加速器統一介面》國家標準強制要求晶片廠商開放指令集架構，使深度學習框架可跨平台無縫部署。這一頂層設計讓寒武紀等企業從“介面適配方”躍升為“標準制定方”，為DeepSeek模型的即時適配鋪平了道路。市場分析人士指出：“DeepSeek-V3.2最大的意義在於軟硬協同設計支援中國國產算力，全新DeepSeek Sparse Attention機制，疊加中國國產晶片的計算效率，可大幅降低長序列場景下的訓推成本。”需要注意的是儘管中國國產AI生態已初具規模，但挑戰猶存：TileLang等工具鏈的易用性仍不及CUDA，開發者生態需進一步下沉；全球競爭壓力下，Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求，對中國國產方案構成新挑戰。然而，當DeepSeek以UE8M0 FP8精度重新定義算力規則，當寒武紀以開放原始碼打破技術黑箱，中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調：“標準化的終極目標不是替代，而是重構全球AI生態的話語權分配。”03 協同模式下的AI產業新秩序DeepSeek與寒武紀等中國國產晶片廠商的高度協同，標誌著中國AI產業進入生態競爭新階段。這種協同不是偶然現象，而是產業鏈頭部企業面對國際競爭的戰略選擇。隨著AI向能源、交通、醫療等關鍵領域滲透，如果底層晶片、網路和系統長期依賴國外，就意味著命脈交到別人手裡。北京方案通過開放標準和統一相容，把崑崙芯、壁仞、太初元碁、摩爾執行緒等中國國產晶片和DeepSeek、豆包、文心一言、Kimi、Qwen等主流大模型拉入同一生態，確保中國國產AI有自己的“底座”和“話語權”。這種協同效應正在形成良性循環。中國國產晶片企業通過適配DeepSeek等先進模型，不斷提升自身在複雜AI任務中的處理能力；而大模型則借助晶片的最佳化實現更高效部署，擴大應用場景。申港證券分析認為：“隨著算力基礎設施的持續投入，中國國產算力在模型側和算力晶片方面或將持續突破，有望維持較好景氣度，展望中期，中國國產算力有望獲得領先於海外算力的增長彈性。”04 點評定義權的爭奪遠未終結儘管中國國產AI生態已初具規模，但挑戰猶存：TileLang等工具鏈的易用性仍不及CUDA，開發者生態需進一步下沉；全球競爭壓力下，Google Gemini 2.5通過模型蒸餾進一步壓縮算力需求，對中國國產方案構成新挑戰。然而，當DeepSeek以UE8M0 FP8精度重新定義算力規則，當寒武紀以開放原始碼打破技術黑箱，中國AI產業已邁出從“生態追隨”到“標準定義”的關鍵一步。正如《指南》所強調：“標準化的終極目標不是替代，而是重構全球AI生態的話語權分配。” (壹零社)

寒武紀、華為昇騰適配DeepSeek最新模型

9月29日，DeepSeek-V3.2-Exp模型正式在Hugging Face平台發佈並開源。模型引入稀疏 Attention 架構，這種架構能夠降低計算資源消耗並提升模型推理效率。據“華為計算”微信公眾號消息，昇騰已快速基於vLLM/SGLang等推理框架完成適配部署，實現DeepSeek-V3.2-Exp 0day支援，並面向開發者開源所有推理程式碼和算子實現。寒武紀在官方微訊號宣佈，已同步實現對深度求索公司最新模型DeepSeek-V3.2-Exp的適配，並開源大模型推理引擎vLLM-MLU原始碼。依託DeepSeek-V3.2-Exp帶來的全新DeepSeek Sparse Attention機制，疊加寒武紀的極致計算效率，可大幅降低長序列場景下的訓推成本。海光資訊同日宣佈其DCU實現無縫適配+深度調優，做到大模型算力“零等待”部署。海光資訊表示，基於GPGPU架構強大的生態優勢，與程式設計開發軟體棧DTK的特性，DeepSeek-V3.2-Exp在海光DCU上展現出優異的性能，同時驗證海光DCU高通用性、高生態相容度及自主可控的技術優勢。 (財聯社)

首發自研HBM記憶體！華為昇騰950/960/970晶片全公佈，全球最強超節點來了

在今日舉辦的華為全聯接大會2025上，華為輪值董事長徐直軍表示超節點成為AI基礎設施建設新常態，目前CloudMatrix 384超節點累計部署300+套，服務20+客戶。華為將推出全球最強超節點Atlas 950 SuperPoD，算力規模8192卡，預計於今年四季度上市。此外新一代產品Atlas 960 SuperPoD ，算力規模15488卡，預計2027年四季度上市。會上，徐直軍還發佈了全球首個通算超節點TaiShan950 SuperPoD，計畫2026年一季度上市。徐直軍稱，其將成為大型機、小型機終結者。此外，他還表示，算力過去是，未來也將繼續是，人工智慧的關鍵，更是中國人工智慧的關鍵。徐直軍還首次公佈了昇騰晶片演進和目標。他表示，未來三年，華為已經規劃了昇騰多款晶片，包括昇騰950PR、950DT以及昇騰960、970。其中昇騰950PR 2026年第一季度對外推出，該晶片採用了華為自研HBM。根據現場公佈的資訊，昇騰950PR晶片架構新增支援低精度資料格式，其中FP8/MXFP8/HIF8: 1 PFLOPS，MXFP4: 2 PFLOPS，重點提升向量算力，提升互聯寬頻2.5倍，支援華為自研HBM高頻寬記憶體，分為HiBL 1.0和HiZQ 2.0兩個版本。規格方面，HiBL 1.0容量128GB，頻寬1.6TB/s；HiZQ 2.0容量144GB，頻寬4TB/s。其中，昇騰950PR晶片採用950核心+HiBL 1.0記憶體，可提升推理Prefill（預填充）性能，提升推薦業務性能。昇騰950DT採用HiZQ 2.0記憶體，可提升推理Decode（解碼）性能，提升訓練性能，提升記憶體容量和頻寬。延伸閱讀：在大模型推理中，Prefill階段負責接收完整輸入資料（如文字或圖像），並計算快取。這一過程需要強大的算力支援，通常由高性能晶片完成。該階段強調算力而非記憶體頻寬，因此更適合在HBM（高頻寬記憶體）晶片上運行。相比之下，後續的Decode階段更依賴高速記憶體傳輸和互聯方案。HBM（High Bandwidth Memory，高頻寬記憶體）是一種基於3D堆疊技術的先進DRAM解決方案，多層DRAM晶片垂直整合，顯著提升資料傳輸效率。具有超高頻寬與低延遲、高容量密度、高能效比等優勢，能協助快速處理資料密集型的AI任務。美國國際戰略研究中心（CSIS）AI專家艾倫（Gregory Allen）解釋，HBM對於製造先進AI晶片至關重要，價值約佔整體晶片的一半。AI推理需頻繁呼叫海量模型參數（如千億級權重）和即時輸入資料。HBM的高頻寬和大容量允許GPU直接訪問完整模型，可避免傳統DDR記憶體因頻寬不足導致的算力閒置。對於千億參數以上的大模型，HBM可顯著提升響應速度。當下，HBM已成為高端AI晶片的標配，訓練側滲透率接近100%，推理側隨模型複雜化加速普及。 (快科技)

華為昇騰推理對決：開源vLLM vs 官方MindIE，資料說話「Qwen與DeepSeek推理實測」

在昇騰 NPU 上進行大模型推理，長期以來都是國內開發者面臨的一項挑戰。雖然華為官方提供了性能表現良好的 MindIE 推理引擎，並原生支援 Atlas 800 A2 系列和 Atlas 300i Duo（昇騰 910B 和 310P），但其使用門檻較高，環境配置複雜，限制了非官方團隊在實際項目中部署和偵錯的效率。開源社區也在積極推進對昇騰 NPU 的支援。尤其值得關注的是，近段時間昇騰聯合 vLLM 社區推出了 vLLM Ascend 外掛，實現了對 Atlas 800 A2 系列的支援（預計在 2025 年 Q3 支援 Atlas 300i Duo）。其開源生態活躍，發展勢頭迅猛，逐步成為昇騰推理生態中不可忽視的一股力量。為了系統地評估 vLLM Ascend 與 MindIE 在實際推理場景中的性能差異，本文將從單卡推理、多卡平行、多並行處理等維度展開對比測試。實驗基於開源模型服務平台 GPUStack 進行，在保證復現性和易用性的前提下，快速完成部署與測試。GPUStack https://github.com/gpustack/gpustack 是目前對昇騰 NPU 支援最完善的開源模型服務平台。它開箱即用地整合了 MindIE、vLLM（vLLM Ascend）、llama-box（llama.cpp）等多個後端，避免了使用者在部署過程中反覆踩坑和冗長的環境配置流程。平台原生支援昇騰上的多種模型類型，包括大語言模型、多模態模型、文字嵌入模型、重排序模型和圖像生成模型等，同時也相容昇騰的多機多卡推理場景，其中 vLLM 和 llama-box 已實現多機分佈式推理支援，MindIE 分佈式功能也在開發計畫中。以下是 GPUStack 官方的特性介紹：廣泛的 GPU 相容性：無縫支援 Apple Mac、Windows PC 和 Linux 伺服器上各種供應商（NVIDIA、AMD、Apple、昇騰、海光、摩爾執行緒、天數智芯）的 GPU。廣泛的模型支援：支援各種模型，包括大語言模型 LLM、多模態 VLM、圖像模型、語音模型、文字嵌入模型和重排序模型。靈活的推理後端：支援與 llama-box（llama.cpp 和 stable-diffusion.cpp）、vox-box、vLLM 和 Ascend MindIE 等多種推理後端的靈活整合。多版本後端支援：同時運行推理後端的多個版本，以滿足不同模型的不同運行依賴。分佈式推理：支援單機和多機多卡平行推理，包括跨供應商和運行環境的異構 GPU。可擴展的 GPU 架構：通過向基礎設施加入更多 GPU 或節點輕鬆進行擴展。強大的模型穩定性：通過自動故障恢復、多實例冗餘和推理請求的負載平衡確保高可用性。智能部署評估：自動評估模型資源需求、後端和架構相容性、作業系統相容性以及其他與部署相關的因素。自動調度：根據可用資源動態分配模型。輕量級 Python 包：最小依賴性和低操作開銷。OpenAI 相容 API：完全相容 OpenAI 的 API 規範，實現無縫遷移和快速適配。使用者和 API 金鑰管理：簡化使用者和 API 金鑰的管理。即時 GPU 監控：即時跟蹤 GPU 性能和利用率。令牌和速率指標：監控 Token 使用情況和 API 請求速率。偵錯昇騰裝置在實際操作中遠比 NVIDIA 環境複雜，尤其在依賴項編譯、推理引擎整合等方面常常阻礙開發流程。GPUStack 的意義在於有效遮蔽部署過程中的環境複雜性，為開發者提供一個統一、穩定的推理平台，大幅降低了在昇騰裝置上開展模型部署和推理的門檻。此外，GPUStack 還內建了模型對比功能，支援在統一的測試環境下直觀對比 MindIE 和 vLLM Ascend 的推理表現，為後續選型和最佳化提供直接的資料支援。因此，我們將在 GPUStack 上系統測試兩種推理後端的性能表現。快速安裝 GPUStack首先，參考 GPUStack 官方文件完成安裝（https://docs.gpustack.ai/latest/installation/ascend-cann/online-installation/）。本文採用容器化部署方式，在昇騰 910B 伺服器上，根據文件要求完成對應版本的 NPU 驅動和 Docker 執行階段的安裝後，通過 Docker 啟動 GPUStack 服務。在本次實驗中，我們掛載了 /dev/davinci0 至 /dev/davinci3 共四張 NPU 卡，具體掛載方式可根據實際裝置資源靈活調整。在執行階段通過 --port 9090 指定管理介面的訪問連接埠（使用 Atlas 300i Duo 的使用者，可以參照安裝文件選擇對應的 310P 鏡像，vLLM Ascend 暫不支援 310P）：docker run -d --name gpustack \--restart=unless-stopped \--device /dev/davinci0 \--device /dev/davinci1 \--device /dev/davinci2 \--device /dev/davinci3 \--device /dev/davinci_manager \--device /dev/devmm_svm \--device /dev/hisi_hdc \-v /usr/local/dcmi:/usr/local/dcmi \-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \-v /etc/ascend_install.info:/etc/ascend_install.info \--network=host \--ipc=host \-v gpustack-data:/var/lib/gpustack \crpi-thyzhdzt86bexebt.cn-hangzhou.personal.cr.aliyuncs.com/gpustack_ai/gpustack:v0.6.2-npu \--port 9090查看容器日誌確認 GPUStack 是否正常運行（需要注意的是，昇騰 NPU 默認不支援裝置在多個容器間共享使用，如果已有其他容器佔用 NPU 裝置（已掛載 /dev/davinci*），將導致 GPUStack 無法正常使用 NPU。在此情況下，需先停止佔用 NPU 的其他容器，釋放裝置資源）：docker logs -f gpustack若容器日誌顯示服務啟動正常，使用以下命令獲取 GPUStack 控制台的初始登錄密碼：docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password在瀏覽器中通過伺服器 IP 和自訂的 9090 連接埠訪問 GPUStack 控制台（http://YOUR_HOST_IP:9090），使用默認使用者名稱 admin 和上一步獲取的初始密碼登錄。登錄 GPUStack 後，在資源菜單即可查看識別到的 NPU 資源：GPUStack 也支援加入更多 Worker 節點建構異構推理叢集。由於本文聚焦單機性能對比，相關叢集部署內容不作展開，感興趣的讀者可參考前文提到的官方安裝文件獲取詳細說明。部署模型GPUStack 支援從 Hugging Face、ModelScope 和本地路徑部署模型，國內部網路絡推薦從 ModelScope 部署。在 GPUStack UI，選擇模型 - 部署模型 - ModelScope 部署模型。從 ModelScope 分別部署以下模型，並分別選擇 MindIE 和 vLLM 後端，部署不同後端的模型服務。由於 MindIE 和 vLLM 後端默認的獨佔視訊記憶體參數設定，當前資源不足以運行所有模型，本文將根據需要靈活停止和啟動不同的模型進行測試。GPUStack 提供了智能計算模型資源需求和分配資源的自動化調度功能，對於 7B 模型和 14B 模型，默認僅會分配單卡。如果想強制分配更多的卡數量：對於 vLLM 後端，可以設定 --tensor-parallel-size=2 或手動選擇 2 卡來分配 2 塊 NPU對於 MindIE 後端，可以手動選擇 2 卡來分配 2 塊 NPU完成後，模型運行如下所示（註：根據所需，停止和啟動不同模型進行測試）：測試 DeepSeek-R1-Distill-Qwen-7B（單卡）在試驗場-對話-多模型對比，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-7B 模型進行對比測試；切換到 6 模型對比，重複選擇 vLLM Ascend 運行的模型測試 6 並行請求；更換 MindIE 運行的模型測試 6 並行請求。本文基於 GPUStack 的能力進行性能對比測試，更深入的性能測試可以使用 EvalScope 等工具進行。以下為 DeepSeek R1 Distill Qwen 7B 模型在昇騰 910B 上的推理性能資料對比：單並行 vLLM Ascend 對比 MindIE6 並行 MindIE 性能資料6 並行 vLLM Ascend 性能資料測試 DeepSeek-R1-Distill-Qwen-7B（雙卡平行）在模型，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-7B 模型，修改配置分配 2 卡並重建生效；在試驗場-對話-多模型對比，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-7B 模型進行對比測試；切換到 6 模型對比，重複選擇 vLLM Ascend 運行的模型測試 6 並行請求；更換 MindIE 運行的模型測試 6 並行請求。以下為 DeepSeek R1 Distill Qwen 7B 模型在雙卡昇騰 910B 上的推理性能資料對比：單並行 vLLM Ascend 對比 MindIE6 並行 MindIE 性能資料6 並行 vLLM Ascend 性能資料測試 Qwen3-14B（單卡）在試驗場-對話-多模型對比，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-14B 模型進行對比測試；切換到 6 模型對比，重複選擇 vLLM Ascend 運行的模型測試 6 並行請求；更換 MindIE 運行的模型測試 6 並行請求。以下為 DeepSeek R1 Distill Qwen 14B 模型在單卡昇騰 910B 上的推理性能資料對比：單並行 vLLM Ascend 對比 MindIE6 並行 MindIE 性能資料6 並行 vLLM Ascend 性能資料測試 Qwen3-14B（雙卡平行）在模型，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-14B 模型，修改配置分配 2 卡並重建生效；在試驗場-對話-多模型對比，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-14B 模型進行對比測試；切換到 6 模型對比，重複選擇 vLLM Ascend 運行的模型測試 6 並行請求；更換 MindIE 運行的模型測試 6 並行請求。以下為 DeepSeek R1 Distill Qwen 14B 模型在雙卡昇騰 910B 上的推理性能資料對比：單並行 vLLM Ascend 對比 MindIE6 並行 MindIE 性能資料6 並行 vLLM Ascend 性能資料測試 DeepSeek-R1-Distill-Qwen-32B（雙卡平行）在試驗場-對話-多模型對比，分別選擇兩種後端運行的 DeepSeek-R1-Distill-Qwen-32B 模型進行對比測試；切換到 6 模型對比，重複選擇 vLLM Ascend 運行的模型測試 6 並行請求；更換 MindIE 運行的模型測試 6 並行請求。以下為 DeepSeek R1 Distill Qwen 32B 模型在雙卡昇騰 910B 上的推理性能資料對比：單並行 vLLM Ascend 對比 MindIE6 並行 MindIE 性能資料6 並行 vLLM Ascend 性能資料測試 Qwen3-32B（雙卡平行）在試驗場-對話-多模型對比，分別選擇兩種後端運行的 Qwen3-32B 模型進行對比測試；切換到 6 模型對比，重複選擇 vLLM Ascend 運行的模型測試 6 並行請求；更換 MindIE 運行的模型測試 6 並行請求。以下為 Qwen3 32B 模型在雙卡昇騰 910B 上的推理性能資料對比：單並行 vLLM Ascend 對比 MindIE6 並行 MindIE 性能資料6 並行 vLLM Ascend 性能資料資料彙總分析將以上測試資料進行彙總得出下表：根據以上性能資料分析，可以得出以下結論：1.中小模型單卡部署場景下，vLLM 在延遲和吞吐方面表現更優以單卡部署的 DeepSeek R1 7B 和 Qwen3 14B 為例，vLLM 在 TTFT（首 token 延遲）方面普遍低於 MindIE，部分模型在吞吐上也略有提升，顯示出其在延遲敏感型應用中具有一定優勢。2.高並行場景下，vLLM 展現出良好的擴展性在多並行測試中，vLLM 能夠在保持較低延遲的同時實現與 MindIE 相當甚至略高的吞吐表現，說明其在並行請求調度和資源利用方面具備一定優勢。3.多卡部署場景中，MindIE 在性能上更具優勢在雙卡部署的多種模型測試中，MindIE 在吞吐率方面顯著優於 vLLM，TPOT 延遲也表現更優。這一差距主要源於 MindIE 對圖模式和融合算子的最佳化支援，而當前 vLLM Ascend 仍處於單算子模式，尚未充分釋放多卡性能。隨著社區計畫發佈 vLLM Ascend 0.9，該瓶頸有望得到改善。4.總體來看，兩者在不同部署場景下各有優勢vLLM 目前更適用於單卡可運行的小型模型、延遲敏感和互動式應用場景；而 MindIE 更適合追求吞吐效率的大模型多卡部署。實際選型應結合業務需求、資源條件和生態支援情況綜合判斷。總結從本文的實驗結果來看，當前 vLLM Ascend 的推理性能已初具規模，儘管在多卡平行等場景下仍存在一定差距，但其作為開放原始碼專案的發展潛力不可忽視。伴隨社區與廠商的持續協作，性能的進一步突破值得期待。值得強調的是，推理性能只是衡量生態成熟度的一個維度。易用性、可維護性、社區活躍度，以及對新的模型、新的加速技術的支援能力，都是建構國產 AI 推理生態不可或缺的要素。vLLM Ascend 正是這樣一個探索的開端，也為更多開發者提供了參與昇騰生態建設的可能。在本次測試過程中，為了更高效地在昇騰硬體上部署 vLLM Ascend 和 MindIE 推理服務，作者採用了開源模型服務平台 GPUStack。該平台已適配昇騰、海光等多種國產 GPU 架構，有效簡化了 vLLM Ascend 和 MindIE 的部署和配置流程，顯著減少了環境配置的時間成本，使測試工作得以專注於模型本身的表現與分析。作為一個面向異構 GPU 生態的開源 MaaS 平台，GPUStack 的定位在於為模型推理、微調等場景和硬體適配之間提供穩定中間層。目前已有摩爾執行緒、天數智芯、寒武紀等廠商基於該平台進行了適配。未來，期待有更多國產 GPU 廠商加入，共同推動更統一、更高效的開源 AI 基礎設施。如果你也關注國產 AI 基礎設施平台的發展，不妨為該項目 https://github.com/gpustack/gpustack 點一個 star，關注後續適配進展，或參與生態共建。國產 AI 算力生態的成長不應僅依賴封閉的官方路徑，更需要開放、共享、協作的開發模式。從 MindIE 到 vLLM，從底層驅動到模型服務平台，每一個環節的開源努力，都是對自主可控技術路線的真實推動。未來，我們期待更多項目以開放的姿態匯聚在一起，共同建構真正具備競爭力的國產 AI 基礎設施體系。 (AI寒武紀)

全球封殺昇騰晶片，為什麼美國不願放過華為？

美國全球追殺華為！在最新禁令中，美國一邊禁售輝達H20晶片，另一面在全球範圍內拉黑華為昇騰晶片。為什麼美國這麼害怕華為？華為幾乎做什麼，它就封鎖什麼。當年，華為手機銷量首次超越蘋果，就被美國全球製裁，連孟晚舟都被加拿大扣押了。然後，華為5G麒麟晶片也被封鎖，被逼得退出市場。因光刻機被禁，華為熬了3年之久，才借助中芯國際代工7奈米重返5G。如今，華為昇騰晶片打破了輝達H20一家獨大的局面，又被美國全球追殺了。為什麼美國非要死盯華為不放？根本原因就一個：華為的技術太強了。縱觀全球，還從來沒有那一家公司，像華為這樣，被美國以舉國之力，全球追殺的。而且，還不是一次性的追殺，而是層層圍堵，不斷加碼，全球追殺，誓不罷休。從2019年，華為被踢出美國算起來，這場華為美國之戰，已經打到第六年了。可結果呢？美國是，明知殺不死華為，卻不甘心放棄。華為則是，明知對方絕不會放過自己，但也絕不妥協，力戰到底。但打了六年之後，華為是越打越強了，而美國封鎖則是越鎖，越鎖不住了。為什麼是這樣？一是，中國不認輸。華為能活到現在，它的背後也站著一支強大的國家隊。在華為最危難的時候，深圳國資委出資1000億，買下榮耀，給華為補了一大口血。為了幫助華為突破晶片製造之困，國家成立晶片大基金，全力支援光刻機研發和晶片工藝的突破。深圳國資委還親自下場，成立了「新凱來」等大量半導體裝備企業，專供光刻機、刻蝕機、清洗裝置以及光刻機原料等核心技術突破。美國以舉國之力壓制華為，中國也幾乎是以舉國之力，力挺華為。華為的晶片突圍之戰，成為了中美晶片對決的巔峰之戰。華為被迫站在了美國的砲口下，但也得到了中國的全面後勤支援。這才保住了華為不倒。二是，華為確實屬於技術實力派。一個國家能被美國盯住六年，扛住美國六年的封鎖與打壓，這本身就證明了華為自身擁有強大的韌性。在這六年裡，華為沒有一味地等待光刻機的突破，而是在堅守基本盤的同時，全力開拓汽車業務，形成第二增長曲線。像華為通訊，依然穩居世界第一，5G業務遍佈全球。華為手機則在中芯國際的代工支援下，市佔率逼近20%，打敗蘋果，重返中國第一。而華為汽車就更是成為了中國版的「博世」，華為智駕幾乎拿下了中國全部國有大車企，包括長安、北汽、上汽、一汽、廣汽以及奇瑞等。華為智駕也躋身中國第一梯隊，更是一手帶飛了賽力斯。三是，在晶片領域，華為仍舊取得重大突破。這次被美國全球追殺的華為昇騰晶片，就是國內最先進的AI算力晶片了。雖然它的性能比不上輝達的旗艦H100、H200，但輝達之外，華為已經站穩第二名了。用黃仁勳的話說，輝達的最強對手之一，就是華為。同時呢，華為麒麟晶片也完成了對英特爾晶片的替代。手機、電腦、汽車三大算力平台，華為海思都一手包了。在手機領域，它曾經超越高通、蘋果。在電腦領域，它取代了英特爾。在汽車領域，它則是輝達的第一對手。這種硬核的技術實力，放在全球都是頂尖的存在。而華為取得的這種技術，都還是在美國封鎖之下完成的。這就形成了一個非常規的技術循環：華為越強大，美國就越封鎖，美國越封鎖，華為越強大！現在著急的不是華為，而是美國。因為在中國的晶片工業上，就只剩下最後一塊短板了。一旦光刻機突破，華為就徹底擋不住了。留給美國製裁華為的時間已然不多了。（牲產隊）