梁文鋒冒著自己淪為二流大模型的風險,給整個中國 AI 企業探路了

V4 出來這天,DeepSeek 沒開發佈會。

只發了一份技術報告。封面上印了兩行字:輝達 GPU,華為昇騰 NPU。

注意這兩行字的順序。這是中國大模型公司第一次,把輝達和華為放在同一張技術報告的封面上。

更狠的是後面那一句:模型 1.6 兆參數,100 萬 token 上下文,全端跑通昇騰。

也就是說,這個兆參數的大模型,可以徹底不依賴輝達。

先看一組資料,事情就清楚了

去年 5 月,DeepSeek R1 橫空出世,矽谷開會研究中國人怎麼做到的。一年過去,國際同行進度是這樣的:

OpenAI GPT-5 已經迭代到 5.4。 Anthropic Claude 4.7 出了。 Gemini 3.1 Pro 上線了。

DeepSeek 這邊呢?V3.2 原地不動。

整整 5 個月沒出新模型。同期業內 11 家頭部公司平均每 2.8 天發一次迭代。第三方榜單上,V3.2 綜合成績跌到全球第 16,程式碼生成第 17。

外面已經在傳一個判斷:DeepSeek 淪為二流了。

這就是題面。

但誰也沒想到,沉默 5 個月不是技術不行。是梁文鋒自己關了門,幹一件比追榜單更難的事。

把 1.6 兆參數的大模型,從輝達 CUDA 整套搬到華為昇騰 CANN。

這件事到底有多難

得講一點背景,不繞。

你今天用的所有大模型,幾乎都跑在輝達 GPU 上。CUDA 是輝達自家的開發語言,2007 年到現在,全球幾乎所有 AI 工程師都是在 CUDA 生態里長大的。所有快、所有省、所有穩定的訣竅,都沉澱在這套工具鏈裡。

華為昇騰也是 AI 晶片,但它用自己的語言,叫 CANN。

讓一個兆參數模型在輝達上跑通,已經夠難。讓同一個兆參數模型同時在昇騰上跑通,性能不能差太多,相當於讓一個寫慣了漢語的作家,臨時學德語,再把《紅樓夢》翻譯重寫一遍,還要讓德國讀者覺得好看。

DeepSeek 把這件事做了。技術細節不難懂:

V4 用了 FP4 精度。這個精度,恰好是華為今年 3 月新發佈的昇騰 950PR 原生支援的。

MoE 專家權重、稀疏注意力索引器,全部按昇騰的硬體特性設計。

整個工程總共重寫了 40 萬行算子,全端架構重做,精度對齊誤差控制在 0.5% 以內。

翻譯成大白話:DeepSeek 直接給昇騰量身定做了一個兆參數模型。

代價是 484 天沒出新版本。

這 484 天裡,GPT、Gemini、Claude 在輝達上各自把版本號往前推了好幾代。DeepSeek 主動把自己最鋒利的那把刀放下,去打磨另一把還沒開刃的刀。

一道反商業直覺的題

這就有意思了。

按所有商學院的邏輯,企業要先保自己。R1 那波之後,DeepSeek 的局面其實非常硬:

第一,全端跑在輝達上,CUDA 用了多少年,所有最佳化都是熟手。

第二,量化基金幻方做爹,2025 年收益率 56.6%,一年抽五十億現金不缺錢。

第三,技術口碑天花板,融資排隊的人能從知春路排到中關村。

最聰明的選擇,是接著按輝達這條路猛衝。把模型做到全球第一,把品牌做到頂。R2 踩 OpenAI,V4 跨過 Gemini,整個 2026 年的中國 AI 故事可以由 DeepSeek 一個人寫。

梁文鋒偏偏沒這麼做。

他選的是反過來。先做生態,再保自己。

為什麼?因為他看到一個誰都不願意承認的真相。

中國 AI 整個行業都在賭一件事:什麼時候,國產晶片能跑兆參數大模型。

這個賭局,誰都不敢押。

兆參數模型一旦在國產晶片上跑掛,損失的是幾億美元算力帳單加半年研發周期。沒有那家公司的 CFO 敢簽這個字。阿里不簽,字節不簽,騰訊不簽。

DeepSeek 簽了。

簽字那個人是梁文鋒。註冊資本從 10 萬元變成 510 萬元,他個人持股從 1% 漲到 34%。把身家全壓上去,讓 V4 同時跑通昇騰和輝達。

跑通的那一刻,整個遊戲的規則變了。

一夜之間,盟友全跟上來了

V4 發佈當天,8 家國產 AI 晶片公司同時宣佈完成適配。

華為昇騰 950 超節點、寒武紀、海光、燧原、摩爾線程,一個不少。

阿里、字節、百度,都在自己的雲上線了 V4。

更扎眼的是後面這條消息:阿里、字節、騰訊已經向華為下單數十萬顆昇騰 950PR。

中國 AI 圈很少出現這個畫面。平時大家是競爭對手,互相挖人,互相壓價。這一次罕見地朝同一個方向使勁。

為什麼?

因為 DeepSeek 把那塊最難搬的石頭,自己一個人搬開了。

兆參數模型在昇騰上跑通這件事,相當於一份公開的合格證。證書一出,所有國產晶片廠商都可以走同一條技術路徑去適配。所有雲廠商都敢把國產算力推給客戶,因為有 V4 這個標竿站在那裡。

輝達 CEO 黃仁勳去年說過一句話,被反覆引用:中國如果讓 DeepSeek 這種公司用上華為昇騰,那就是輝達的災難。

他沒想到這一天來得這麼快。

這才是梁文鋒真正干的事。

他要的不是榜單第一名的模型。要的是能讓國產晶片跑得動的最強模型。

沖榜單,是為自己。把行業抬起來,是給中國 AI 整體趟雷。

代價是真的

但代價不是嘴上說說。

第一個代價,人才。

V3 模型最重要的貢獻者羅福莉,去了小米。 核心研究員郭達雅,去了字節。 多模態核心阮翀、第一代大語言模型核心王炳宣,去了騰訊。

每一個名字,背後都是幾百萬年薪和股權。DeepSeek 給不出市場最高的價。

第二個代價,市場。

阿里通義千問把 V3 階段 DeepSeek 佔的那部分使用者場景,慢慢做了回去。豆包靠字節的流量入口,把日活拉到第一。Kimi 在長上下文這條賽道,已經走在 DeepSeek 前面。

DeepSeek 月活從 1.38 億漲到 1.60 億,看起來還在增長,但增長曲線明顯平了。

第三個代價,原則。

去年梁文鋒斬釘截鐵說過:DeepSeek 暫時不融資。

2026 年 4 月 20 日,DeepSeek 被曝尋求百億美元估值,至少 3 億美元戰略融資。阿里、騰訊都在溝通名單。

永不融資這條鐵律,在 V4 出來前一周,破了。

底層原因不複雜。R1 當年訓練成本是 587 萬美元,V4 單輪訓練成本飆到約 5 億美元。漲了快 100 倍。昇騰這條路要燒的錢,比輝達多得多。晶片產能不夠,工程師要重新培訓,工具鏈要從頭建。

幻方那點錢,撐不住一個兆模型時代的全產業鏈投入。

梁文鋒低頭了。

低頭的姿勢,是為了把整個國產 AI 算力產業鏈拽起來。

圈內的新評價

V4 發佈後,圈內最準的一句評價是這樣的:

V4-Pro 比 GPT-5.4、Gemini 3.1 Pro 落後 3 到 6 個月。

3 到 6 個月,聽起來不長。在 AI 這個行業,足夠把一家公司從第一梯隊拉到第二梯隊。

落後是梁文鋒自己選的。

V4 是不是 DeepSeek 最強的模型?不是。

V4 是不是 2026 年中國 AI 公司最重要的一次發佈?我傾向於是。

因為它做的事情,是把整個國產 AI 生態抬起一截,不是把自家排名再往上挪一格。

第一梯隊的位置可以再爭。算力的底子如果沒打牢,爭到也站不住。

跟普通人有什麼關係

繞了這麼大一圈,跟普通人有什麼關係?

第一件,AI 應用價格還會接著掉。

V4 把 API 壓到每百萬 token 0.3 美元。這個價格一出來,國內所有大模型都得跟著降。意味著你以後用的所有 AI 工具,寫文件、做翻譯、改程式碼、生成圖片,成本都要再低一檔。最直接的體感,是各種 AI 會員包月降價。

第二件,國產晶片產業鏈開始轉起來了。

華為昇騰、寒武紀、海光,這些名字以前主要是 A 股投資者關心。現在是真有大模型在用,訂單是看得見的。這條產業鏈上下游幾百家公司,包括伺服器、記憶體、散熱、電源,都跟著進入新一輪訂單周期。

第三件,AI 這件事不再被一根線綁住。

過去三年,業內一直擔心一件事:如果美國把輝達完全斷供,中國 AI 是不是要原地停擺。V4 跑通昇騰這件事,把這個最壞假設的機率往下打了一截。還談不上徹底安全,但至少有了第二條腿。

第四件,離你的工作更近了一步。

價格便宜的大模型,意味著越來越多公司開始把 AI 接入業務流程。客服、文案、設計、初級程式設計、報表分析,這些崗位被替代的速度只會更快。這不是好消息,但是該提前知道的事。

一句話收束

梁文鋒這次的選擇,可能讓 DeepSeek 在未來一年裡看起來不那麼耀眼。模型評測榜單上的名次會往下掉,融資估值會被國際同行甩開,明星光環會被分給其他公司。

這都是真實的代價。

但如果兩年後回頭看,會發現 2026 年 4 月這周,是中國 AI 從「跟在輝達後面跑」切換到「能靠自己跑」的一個分水嶺。

切這一刀的人,是梁文鋒。

你覺得他這步棋,賭對了嗎? (有知識青年)