曝華為千顆昇騰910C完成DeepSeek兆模型後訓練，這次是拱了一卒，還是系統性突破

2026/06/06

•

AI速讀

近日深圳市政府披露，華為研究團隊利用 1000 顆昇騰 910C 晶片完成了 1.6 兆參數規模的 DeepSeek V4-Pro 模型全參數後訓練，證實國產 AI 晶片具備處理此量級工作負載的能力。儘管此舉被視為突破，但業界分析指出，後訓練的算力需求遠低於預訓練，且昇騰在原始算力與互聯效率上仍遜於輝達 H100。此次成功更多歸功於「繡花式」的工程調優而非底層算力逆襲。目前中國 AI 晶片正處於從「可用」轉向「高效」的關鍵期，仍需面對製程物理極限與 CUDA 生態體系的高度競爭。

6 月 6 日，深圳市政府披露的一則消息在半導體領域引起關注，也被《南華早報》報導——一支以華為為核心的聯合研究團隊，用至少 1000 顆昇騰 910C 晶片組成的叢集，完成了對深度求索（DeepSeek）V4‑Pro 模型的全參數後訓練。該模型的參數規模達 1.6 兆，預訓練語料庫超過 32 兆個 token。

這是中國本土 AI 加速器首次被公開證實能夠處理此量級的訓練類工作負載。過去，中國的 AI 公司在“訓練”這一環節幾乎完全受制於輝達 GPU，即便在推理側已能替代一部分。而“後訓練”，處於預訓練和部署之間，此前一直是未被跨越的難關。

但該消息未給出任何基準測試、執行階段長，也未提及與輝達的效率對比。背後的張力，自始至終都未曾減弱。

從“困境”走向“可行”

將時間倒回 2025 年 8 月。Tom’s Hardware 等媒體當時透露，DeepSeek 在嘗試用昇騰晶片訓練 R2 模型時，遭遇諸多難題。華為駐場工程師也未能解決，連一次正常的訓練都未完成。故障集中在晶片間互聯不穩定、性能波動較大，以及華為對標 CUDA 的軟體棧 CANN 存在較大差距。

重新回到那個時間點，才能明白此次“後訓練”成功的意義。它至少表明，經過幾個月的聯合調優，在全參數微調這個特定領域，華為的硬體和軟體生態從“完全不行”改進到了“能夠運行”。DeepSeek V4‑Pro 模型於今年 4 月發佈，本身也是首個從設計環節就圍繞昇騰晶片建構的 DeepSeek 模型。

但限定詞不能去掉：這是“後訓練”，而非“預訓練”。

打個比方，預訓練如同讓一個學生通讀人類所有文明的典籍，以建立對世界底層的認知——可能需要上萬顆晶片一起運行好幾個月，處理數兆 token，對算力、互聯頻寬和穩定性要求極高。後訓練更像是給這位已博學的學生制定規則、對指令和安全進行調整，算力需求遠低於預訓練。僅靠 1000 顆昇騰 910C 完成後訓練，就期望這套系統能直接進行預訓練，是不現實的。

Tom’s Hardware 在後續報導中直言：“這並不能證明這些晶片能從頭預訓練一個前沿模型，那才是更具挑戰性、更複雜的任務。”

性能與低調的 DeepSeek

昇騰 910C 是華為目前的旗艦 AI 加速器，採用了雙 Die 合封的設計。早前在 DeepSeek 的推理測試中，其性能大約與輝達 H100 的 60%相當。在訓練場景中，這個效率數值還會更低。

科技媒體 SemiAnalysis 從社區流出的內部評估顯示，即便在看似更成熟的推理方面，華為 CloudMatrix384（由 384 顆昇騰 910C 構成）通過對 MoE 和 MLA 架構的最佳化，將 DeepSeek 模型的推理成本比 H100 降低了 90%。但這並非原始算力的逆襲，而是架構級調優帶來的商業經濟效益。在拼絕對算力和互聯效率的訓練方面，差距比帳面數字更為顯著。

此次聲明最令人困惑的是，資訊極其有限。訓練持續了幾天還是幾周？有效算力利用率（MFU）是多少？與同等規模的 H100 相比，是快還是慢？一個問題都未回答。研究團隊未發表技術論文，DeepSeek 公司自身也保持沉默。這與全球 AI 社區開放、可驗證的常規做法，幾乎截然相反。深圳市的報導，使得整件事看起來更像是一次“能夠使用”的宣告，而非能讓同行反覆審視的技術突破。

半導體深潛分析師羅伯特·卡斯特拉諾博士在 Substack 專欄“Semiconductor Deep Dive”中分析，從華為昇騰晶片的技術基礎來看，當下對輝達構成的威脅還相當有限。他指出，即便中國在逆向工程被遺棄的裝置上取得了一些進展，半導體裝置和先進製程的追趕之路仍然漫長。

雙面局勢

時間線拉長，這種張力實際上是兩個技術生態的激烈碰撞。1965 年，戈登·摩爾在《電子學》雜誌上預測晶片元件數每兩年翻一番。《紐約時報》在摩爾定律 40 周年的文章中計算過，資訊處理速度在 20 年裡增長了 100 萬到 1000 萬倍，遠超工業革命 200 年生產力的百倍增幅。如今，算力已如同錨一般鎖住國運。

2020 年，美國商務部一道禁令，禁止任何使用美國技術的外國工廠（例如台積電）為華為代工。中國半導體產業被強制推上一條全鏈路的“自我證明”之路。

這一路上的情況有兩面。一面是全鏈路突破的氣勢磅礴：2026 年的 SEMICON China 上，北方華創發佈了能對標 5nm 工藝的 12 英吋 ICP 刻蝕機，並率先完成了 D2W 混合鍵合裝置的客戶端工藝驗證，能夠覆蓋 HBM 和 Chiplet 等 3D 整合。中微公司展示了支援 5nm 及以下節點的電感耦合電漿體刻蝕裝置。拓荊科技、華海清科、晶盛機電則在 3D IC 鍵合、CMP、減薄拋光、大矽片等環節紛紛嶄露頭角。從單點突破到全面鋪開，國產裝置廠商正以驚人的速度填補空白。

另一面是現實的艱難。有市場分析預計，華為 AI 晶片的收入今年會急劇增長至 120 億美元，輝達在中國的份額迅速縮小；但本土晶圓廠的進展，顯然跟不上如此激進的晶片需求。被寄予厚望的中芯國際，早年間極度依賴從台積電“挖”來的 400 多名技術骨幹，追趕之路充滿艱辛。到如今在先進 AI 晶片的製造上，先進製程的物理極限與裝置短板，仍像一道看不見的屏障阻擋在前。

一點希望之光

華為領頭的此次後訓練突破，猶如在鐵幕上點亮一點微光。它展現了一個變化：在極限封鎖之下，中國 AI 晶片在軟體棧搭建、系統整合和工程調優方面，迭代的速度超出預期。從完全無法完成訓練，到能夠對 1.6 兆參數模型進行全參數後訓練，軟體生態的缺口正在逐漸被填補。

社區裡有傳言，為了此次成功，華為聯合各家研究所投入幾百名工程師，對每一張卡、每一條互聯鏈路進行了幾個月細緻的“繡花式”調優。

但僅靠這一點微光，想要點燃預訓練那堆難題，還相差甚遠。它要解決的不僅是“能運行”，還要在千卡、萬卡級叢集上，實現接近輝達 H100 的穩定性和效率。物理極限、數學法則、軟體生態，三道難關就橫在面前。

中國 AI 晶片的故事，當下正從“有無”邁向“強弱”的深水區。局面已經改變：對手不再僅僅是輝達的設計和台積電的代工，而是整個依靠 CUDA 生態、NVLink 互聯和數十年積累建立起來的體系。華為的昇騰，就像在暴風雨中重新拼湊帆的水手——每次出航，都被置於全球聚光燈下，奇蹟的希望和質疑的風浪從未停歇。

這一次，它至少證明自己已駛出了最凶險的那片暗礁。 (矽基LIFE)

科技