DeepSeek V4適配昇騰：中國芯的"換道"時刻

2026/05/30

•

4月24日，DeepSeek V4發佈，跑在華為昇騰晶片上。5月25日，華為何庭波在IEEE ISCAS上扔出一顆更大的炸彈——"韜定律"。

兩件事隔了整整一個月，但放在一起看，故事才完整。

先說V4。1.6兆MoE，100萬token上下文，MIT開源——參數炸裂，但圈內聊的不是參數。是它用了昇騰，沒用NVIDIA。這是第一次，世界頂級開源大模型用國產晶片扛住了真實流量。

再說韜定律。何庭波那場演講的核心就一句話：以後晶片的性能之爭，不看你電晶體做得多小，看你訊號傳得多快。她把晶片最佳化的焦點從"幾何縮微"（摩爾定律的路徑）扭到了"時間縮微"——那個希臘字母 τ（tau），就是訊號傳輸的時間常數。

這兩件事疊在一起，有意思了。

先別急著說"國產替代"。DeepSeek V4+昇騰這件事，如果你只看到"中國也能造AI晶片了"，那你漏掉了裡面最有意思的東西。

DeepSeek團隊為了把V4從CUDA搬到華為CANN框架，重寫了200多個核心算子，跑了十萬級測試用例，投入30人·年，產品跳票兩個月。華為說剛開始跑的時候，速度是NVIDIA上的三十分之一。後來硬最佳化到持平甚至部分反超。

但比這組數字更值得琢磨的，是V4的架構決策——它從第一天起就是多晶片原生的。寒武紀、海光、摩爾線程、崑崙芯、平頭哥、天數智芯，七家國產晶片在發佈當天全能跑。當天調API就能用，不是事後補的。

這說明什麼？DeepSeek在戰略上早就做好了離開CUDA的準備。

而韜定律，則給這個"離開"提供了一個理論底座。

韜定律有三個技術支柱：邏輯折疊（晶片內部垂直堆疊縮簡訊號距離）、近存計算（運算貼近儲存，消滅"記憶體牆"）、靈衢匯流排（系統級互聯最佳化）。

你有沒有發現，前兩個是晶片內部的事，第三個就是昇騰已經在做的事？

昇騰950的靈衢互聯單鏈路2TB/s，超NVLink 5.0的1.8TB/s。之前我一直用"以通訊補算力"來形容這個策略。現在韜定律出來了，這句話該改改了：它在換維度競爭。

傳統思路：製程越先進→電晶體越小→性能越強。這條路中國被EUV卡住了，物理上暫時走不通。

韜定律的思路：你的算力強，但我把資料搬運的時間壓縮到極致，讓算力利用率從30%提到60%、80%。我不是在跟你比誰肌肉大，我在比誰不浪費。

一組數字：AI推理中，80%的能耗消耗在資料移動上，GPU算力利用率常常不到30%。你買了一堆算力，三分之二在空轉等資料。我看著這些數字，說實話，覺得韜定律打的就是這個"三分之二"。

所以DeepSeek V4跑在昇騰上的真實含義，是一條新賽道正在成形。

好聽的講完了。說點實際的。

Pro版本現在還跑不太動。DeepSeek自己承認V4-Pro"吞吐十分有限"，得等下半年超節點量產。最強的版本現在喂不飽。

產能差一個數量級。昇騰950全年75萬顆。NVIDIA資料中心GPU以百萬計。75萬顆分給字節、阿里、騰訊、百度、政務雲——夠嗆。

Pro的訓練晶片，DeepSeek沒說出來。Flash版確認部分用了昇騰訓練，Pro版——他們拒絕透露。Reuters專門點了這件事。不管原因是什麼，這個沉默本身就說明問題。

開發者生態是代際差距。CANN社區8.7萬人，CUDA社區300萬人。DeepSeek花30人·年適配了一款晶片。整個生態的遷移，是另一個數量級的事。

韜定律提供了一個漂亮的頂層設計。但從設計到落地，中間隔著邏輯折疊的工程化、靈衢的規模部署、近存計算的量產工藝——每一樣都是硬骨頭。

說實話，寫到這我自己都覺得有點分裂。前面講"換道"講得挺興奮，一列這些缺口又覺得還早。但這種分裂感，可能就是這行噹噹下的真實狀態。

Jensen Huang在4月Dwarkesh Podcast上說，DeepSeek+華為構成"實質性競爭威脅"。5月韜定律發佈後他沒有再公開評論，但你猜他在想什麼。

老黃怕的不是單卡跑分。他怕的是華為和DeepSeek聯合定義晶片架構——模型和晶片"一起設計"，買來適配的邏輯已經翻篇了。現在又多了韜定律，等於華為有了一套完整的方法論：直接在NVIDIA的賽道旁邊畫了一條新的。

我翻來覆去看了他那段Podcast好幾遍，說實話，他的語氣裡不是憤怒——是焦慮。那種"有人終於想明白了"的焦慮。

V4發佈前兩天，美國眾議院36:8通過MATCH法案。時機不是巧合。

DeepSeek官方對V4的評價是"萬里長征第一步"。韜定律發佈後回頭看這句話，更有份量了。"終於能用國產晶片了"這個說法，本身就沒說到點上。真正重要的第一步，"我們選了一條不同的路"。 (HanView)