4月24日,DeepSeek V4發佈,跑在華為昇騰晶片上。5月25日,華為何庭波在IEEE ISCAS上扔出一顆更大的炸彈——"韜定律"。
兩件事隔了整整一個月,但放在一起看,故事才完整。
先說V4。1.6兆MoE,100萬token上下文,MIT開源——參數炸裂,但圈內聊的不是參數。是它用了昇騰,沒用NVIDIA。這是第一次,世界頂級開源大模型用國產晶片扛住了真實流量。
再說韜定律。何庭波那場演講的核心就一句話:以後晶片的性能之爭,不看你電晶體做得多小,看你訊號傳得多快。她把晶片最佳化的焦點從"幾何縮微"(摩爾定律的路徑)扭到了"時間縮微"——那個希臘字母 τ(tau),就是訊號傳輸的時間常數。
這兩件事疊在一起,有意思了。
換道,不是適配
先別急著說"國產替代"。DeepSeek V4+昇騰這件事,如果你只看到"中國也能造AI晶片了",那你漏掉了裡面最有意思的東西。
DeepSeek團隊為了把V4從CUDA搬到華為CANN框架,重寫了200多個核心算子,跑了十萬級測試用例,投入30人·年,產品跳票兩個月。華為說剛開始跑的時候,速度是NVIDIA上的三十分之一。後來硬最佳化到持平甚至部分反超。
但比這組數字更值得琢磨的,是V4的架構決策——它從第一天起就是多晶片原生的。寒武紀、海光、摩爾線程、崑崙芯、平頭哥、天數智芯,七家國產晶片在發佈當天全能跑。當天調API就能用,不是事後補的。
這說明什麼?DeepSeek在戰略上早就做好了離開CUDA的準備。
而韜定律,則給這個"離開"提供了一個理論底座。
τ = 為什麼靈衢比製程更重要
韜定律有三個技術支柱:邏輯折疊(晶片內部垂直堆疊縮簡訊號距離)、近存計算(運算貼近儲存,消滅"記憶體牆")、靈衢匯流排(系統級互聯最佳化)。
你有沒有發現,前兩個是晶片內部的事,第三個就是昇騰已經在做的事?
昇騰950的靈衢互聯單鏈路2TB/s,超NVLink 5.0的1.8TB/s。之前我一直用"以通訊補算力"來形容這個策略。現在韜定律出來了,這句話該改改了:它在換維度競爭。
傳統思路:製程越先進→電晶體越小→性能越強。這條路中國被EUV卡住了,物理上暫時走不通。
韜定律的思路:你的算力強,但我把資料搬運的時間壓縮到極致,讓算力利用率從30%提到60%、80%。我不是在跟你比誰肌肉大,我在比誰不浪費。
一組數字:AI推理中,80%的能耗消耗在資料移動上,GPU算力利用率常常不到30%。你買了一堆算力,三分之二在空轉等資料。我看著這些數字,說實話,覺得韜定律打的就是這個"三分之二"。
所以DeepSeek V4跑在昇騰上的真實含義,是一條新賽道正在成形。
但路還很長
好聽的講完了。說點實際的。
Pro版本現在還跑不太動。DeepSeek自己承認V4-Pro"吞吐十分有限",得等下半年超節點量產。最強的版本現在喂不飽。
產能差一個數量級。昇騰950全年75萬顆。NVIDIA資料中心GPU以百萬計。75萬顆分給字節、阿里、騰訊、百度、政務雲——夠嗆。
Pro的訓練晶片,DeepSeek沒說出來。Flash版確認部分用了昇騰訓練,Pro版——他們拒絕透露。Reuters專門點了這件事。不管原因是什麼,這個沉默本身就說明問題。
開發者生態是代際差距。CANN社區8.7萬人,CUDA社區300萬人。DeepSeek花30人·年適配了一款晶片。整個生態的遷移,是另一個數量級的事。
韜定律提供了一個漂亮的頂層設計。但從設計到落地,中間隔著邏輯折疊的工程化、靈衢的規模部署、近存計算的量產工藝——每一樣都是硬骨頭。
說實話,寫到這我自己都覺得有點分裂。前面講"換道"講得挺興奮,一列這些缺口又覺得還早。但這種分裂感,可能就是這行噹噹下的真實狀態。
老黃為什麼真失眠了
Jensen Huang在4月Dwarkesh Podcast上說,DeepSeek+華為構成"實質性競爭威脅"。5月韜定律發佈後他沒有再公開評論,但你猜他在想什麼。
老黃怕的不是單卡跑分。他怕的是華為和DeepSeek聯合定義晶片架構——模型和晶片"一起設計",買來適配的邏輯已經翻篇了。現在又多了韜定律,等於華為有了一套完整的方法論:直接在NVIDIA的賽道旁邊畫了一條新的。
我翻來覆去看了他那段Podcast好幾遍,說實話,他的語氣裡不是憤怒——是焦慮。那種"有人終於想明白了"的焦慮。
V4發佈前兩天,美國眾議院36:8通過MATCH法案。時機不是巧合。
說到最後
DeepSeek官方對V4的評價是"萬里長征第一步"。韜定律發佈後回頭看這句話,更有份量了。"終於能用國產晶片了"這個說法,本身就沒說到點上。真正重要的第一步,"我們選了一條不同的路"。 (HanView)
