6 月 6 日,深圳市政府披露的一則消息在半導體領域引起關注,也被《南華早報》報導——一支以華為為核心的聯合研究團隊,用至少 1000 顆昇騰 910C 晶片組成的叢集,完成了對深度求索(DeepSeek)V4‑Pro 模型的全參數後訓練。該模型的參數規模達 1.6 兆,預訓練語料庫超過 32 兆個 token。
這是中國本土 AI 加速器首次被公開證實能夠處理此量級的訓練類工作負載。過去,中國的 AI 公司在“訓練”這一環節幾乎完全受制於輝達 GPU,即便在推理側已能替代一部分。而“後訓練”,處於預訓練和部署之間,此前一直是未被跨越的難關。
但該消息未給出任何基準測試、執行階段長,也未提及與輝達的效率對比。背後的張力,自始至終都未曾減弱。
從“困境”走向“可行”
將時間倒回 2025 年 8 月。Tom’s Hardware 等媒體當時透露,DeepSeek 在嘗試用昇騰晶片訓練 R2 模型時,遭遇諸多難題。華為駐場工程師也未能解決,連一次正常的訓練都未完成。故障集中在晶片間互聯不穩定、性能波動較大,以及華為對標 CUDA 的軟體棧 CANN 存在較大差距。
重新回到那個時間點,才能明白此次“後訓練”成功的意義。它至少表明,經過幾個月的聯合調優,在全參數微調這個特定領域,華為的硬體和軟體生態從“完全不行”改進到了“能夠運行”。DeepSeek V4‑Pro 模型於今年 4 月發佈,本身也是首個從設計環節就圍繞昇騰晶片建構的 DeepSeek 模型。
但限定詞不能去掉:這是“後訓練”,而非“預訓練”。
打個比方,預訓練如同讓一個學生通讀人類所有文明的典籍,以建立對世界底層的認知——可能需要上萬顆晶片一起運行好幾個月,處理數兆 token,對算力、互聯頻寬和穩定性要求極高。後訓練更像是給這位已博學的學生制定規則、對指令和安全進行調整,算力需求遠低於預訓練。僅靠 1000 顆昇騰 910C 完成後訓練,就期望這套系統能直接進行預訓練,是不現實的。
Tom’s Hardware 在後續報導中直言:“這並不能證明這些晶片能從頭預訓練一個前沿模型,那才是更具挑戰性、更複雜的任務。”
性能與低調的 DeepSeek
昇騰 910C 是華為目前的旗艦 AI 加速器,採用了雙 Die 合封的設計。早前在 DeepSeek 的推理測試中,其性能大約與輝達 H100 的 60%相當。在訓練場景中,這個效率數值還會更低。
科技媒體 SemiAnalysis 從社區流出的內部評估顯示,即便在看似更成熟的推理方面,華為 CloudMatrix384(由 384 顆昇騰 910C 構成)通過對 MoE 和 MLA 架構的最佳化,將 DeepSeek 模型的推理成本比 H100 降低了 90%。但這並非原始算力的逆襲,而是架構級調優帶來的商業經濟效益。在拼絕對算力和互聯效率的訓練方面,差距比帳面數字更為顯著。
此次聲明最令人困惑的是,資訊極其有限。訓練持續了幾天還是幾周?有效算力利用率(MFU)是多少?與同等規模的 H100 相比,是快還是慢?一個問題都未回答。研究團隊未發表技術論文,DeepSeek 公司自身也保持沉默。這與全球 AI 社區開放、可驗證的常規做法,幾乎截然相反。深圳市的報導,使得整件事看起來更像是一次“能夠使用”的宣告,而非能讓同行反覆審視的技術突破。
半導體深潛分析師羅伯特·卡斯特拉諾博士在 Substack 專欄“Semiconductor Deep Dive”中分析,從華為昇騰晶片的技術基礎來看,當下對輝達構成的威脅還相當有限。他指出,即便中國在逆向工程被遺棄的裝置上取得了一些進展,半導體裝置和先進製程的追趕之路仍然漫長。
雙面局勢
時間線拉長,這種張力實際上是兩個技術生態的激烈碰撞。1965 年,戈登·摩爾在《電子學》雜誌上預測晶片元件數每兩年翻一番。《紐約時報》在摩爾定律 40 周年的文章中計算過,資訊處理速度在 20 年裡增長了 100 萬到 1000 萬倍,遠超工業革命 200 年生產力的百倍增幅。如今,算力已如同錨一般鎖住國運。
2020 年,美國商務部一道禁令,禁止任何使用美國技術的外國工廠(例如台積電)為華為代工。中國半導體產業被強制推上一條全鏈路的“自我證明”之路。
這一路上的情況有兩面。一面是全鏈路突破的氣勢磅礴:2026 年的 SEMICON China 上,北方華創發佈了能對標 5nm 工藝的 12 英吋 ICP 刻蝕機,並率先完成了 D2W 混合鍵合裝置的客戶端工藝驗證,能夠覆蓋 HBM 和 Chiplet 等 3D 整合。中微公司展示了支援 5nm 及以下節點的電感耦合電漿體刻蝕裝置。拓荊科技、華海清科、晶盛機電則在 3D IC 鍵合、CMP、減薄拋光、大矽片等環節紛紛嶄露頭角。從單點突破到全面鋪開,國產裝置廠商正以驚人的速度填補空白。
另一面是現實的艱難。有市場分析預計,華為 AI 晶片的收入今年會急劇增長至 120 億美元,輝達在中國的份額迅速縮小;但本土晶圓廠的進展,顯然跟不上如此激進的晶片需求。被寄予厚望的中芯國際,早年間極度依賴從台積電“挖”來的 400 多名技術骨幹,追趕之路充滿艱辛。到如今在先進 AI 晶片的製造上,先進製程的物理極限與裝置短板,仍像一道看不見的屏障阻擋在前。
一點希望之光
華為領頭的此次後訓練突破,猶如在鐵幕上點亮一點微光。它展現了一個變化:在極限封鎖之下,中國 AI 晶片在軟體棧搭建、系統整合和工程調優方面,迭代的速度超出預期。從完全無法完成訓練,到能夠對 1.6 兆參數模型進行全參數後訓練,軟體生態的缺口正在逐漸被填補。
社區裡有傳言,為了此次成功,華為聯合各家研究所投入幾百名工程師,對每一張卡、每一條互聯鏈路進行了幾個月細緻的“繡花式”調優。
但僅靠這一點微光,想要點燃預訓練那堆難題,還相差甚遠。它要解決的不僅是“能運行”,還要在千卡、萬卡級叢集上,實現接近輝達 H100 的穩定性和效率。物理極限、數學法則、軟體生態,三道難關就橫在面前。
中國 AI 晶片的故事,當下正從“有無”邁向“強弱”的深水區。局面已經改變:對手不再僅僅是輝達的設計和台積電的代工,而是整個依靠 CUDA 生態、NVLink 互聯和數十年積累建立起來的體系。華為的昇騰,就像在暴風雨中重新拼湊帆的水手——每次出航,都被置於全球聚光燈下,奇蹟的希望和質疑的風浪從未停歇。
這一次,它至少證明自己已駛出了最凶險的那片暗礁。 (矽基LIFE)
