梁文鋒冒著自己淪為二流大模型的風險，給整個中國 AI 企業探路了

2026/05/04

•

V4 出來這天，DeepSeek 沒開發佈會。

只發了一份技術報告。封面上印了兩行字：輝達 GPU，華為昇騰 NPU。

注意這兩行字的順序。這是中國大模型公司第一次，把輝達和華為放在同一張技術報告的封面上。

更狠的是後面那一句：模型 1.6 兆參數，100 萬 token 上下文，全端跑通昇騰。

也就是說，這個兆參數的大模型，可以徹底不依賴輝達。

先看一組資料，事情就清楚了

去年 5 月，DeepSeek R1 橫空出世，矽谷開會研究中國人怎麼做到的。一年過去，國際同行進度是這樣的：

OpenAI GPT-5 已經迭代到 5.4。 Anthropic Claude 4.7 出了。 Gemini 3.1 Pro 上線了。

DeepSeek 這邊呢？V3.2 原地不動。

整整 5 個月沒出新模型。同期業內 11 家頭部公司平均每 2.8 天發一次迭代。第三方榜單上，V3.2 綜合成績跌到全球第 16，程式碼生成第 17。

外面已經在傳一個判斷：DeepSeek 淪為二流了。

這就是題面。

但誰也沒想到，沉默 5 個月不是技術不行。是梁文鋒自己關了門，幹一件比追榜單更難的事。

把 1.6 兆參數的大模型，從輝達 CUDA 整套搬到華為昇騰 CANN。

這件事到底有多難

得講一點背景，不繞。

你今天用的所有大模型，幾乎都跑在輝達 GPU 上。CUDA 是輝達自家的開發語言，2007 年到現在，全球幾乎所有 AI 工程師都是在 CUDA 生態里長大的。所有快、所有省、所有穩定的訣竅，都沉澱在這套工具鏈裡。

華為昇騰也是 AI 晶片，但它用自己的語言，叫 CANN。

讓一個兆參數模型在輝達上跑通，已經夠難。讓同一個兆參數模型同時在昇騰上跑通，性能不能差太多，相當於讓一個寫慣了漢語的作家，臨時學德語，再把《紅樓夢》翻譯重寫一遍，還要讓德國讀者覺得好看。

DeepSeek 把這件事做了。技術細節不難懂：

V4 用了 FP4 精度。這個精度，恰好是華為今年 3 月新發佈的昇騰 950PR 原生支援的。

MoE 專家權重、稀疏注意力索引器，全部按昇騰的硬體特性設計。

整個工程總共重寫了 40 萬行算子，全端架構重做，精度對齊誤差控制在 0.5% 以內。

翻譯成大白話：DeepSeek 直接給昇騰量身定做了一個兆參數模型。

代價是 484 天沒出新版本。

這 484 天裡，GPT、Gemini、Claude 在輝達上各自把版本號往前推了好幾代。DeepSeek 主動把自己最鋒利的那把刀放下，去打磨另一把還沒開刃的刀。

一道反商業直覺的題

這就有意思了。

按所有商學院的邏輯，企業要先保自己。R1 那波之後，DeepSeek 的局面其實非常硬：

第一，全端跑在輝達上，CUDA 用了多少年，所有最佳化都是熟手。

第二，量化基金幻方做爹，2025 年收益率 56.6%，一年抽五十億現金不缺錢。

第三，技術口碑天花板，融資排隊的人能從知春路排到中關村。

最聰明的選擇，是接著按輝達這條路猛衝。把模型做到全球第一，把品牌做到頂。R2 踩 OpenAI，V4 跨過 Gemini，整個 2026 年的中國 AI 故事可以由 DeepSeek 一個人寫。

梁文鋒偏偏沒這麼做。

他選的是反過來。先做生態，再保自己。

為什麼？因為他看到一個誰都不願意承認的真相。

中國 AI 整個行業都在賭一件事：什麼時候，國產晶片能跑兆參數大模型。

這個賭局，誰都不敢押。

兆參數模型一旦在國產晶片上跑掛，損失的是幾億美元算力帳單加半年研發周期。沒有那家公司的 CFO 敢簽這個字。阿里不簽，字節不簽，騰訊不簽。

DeepSeek 簽了。

簽字那個人是梁文鋒。註冊資本從 10 萬元變成 510 萬元，他個人持股從 1% 漲到 34%。把身家全壓上去，讓 V4 同時跑通昇騰和輝達。

跑通的那一刻，整個遊戲的規則變了。

一夜之間，盟友全跟上來了

V4 發佈當天，8 家國產 AI 晶片公司同時宣佈完成適配。

華為昇騰 950 超節點、寒武紀、海光、燧原、摩爾線程，一個不少。

阿里、字節、百度，都在自己的雲上線了 V4。

更扎眼的是後面這條消息：阿里、字節、騰訊已經向華為下單數十萬顆昇騰 950PR。

中國 AI 圈很少出現這個畫面。平時大家是競爭對手，互相挖人，互相壓價。這一次罕見地朝同一個方向使勁。

為什麼？

因為 DeepSeek 把那塊最難搬的石頭，自己一個人搬開了。

兆參數模型在昇騰上跑通這件事，相當於一份公開的合格證。證書一出，所有國產晶片廠商都可以走同一條技術路徑去適配。所有雲廠商都敢把國產算力推給客戶，因為有 V4 這個標竿站在那裡。

輝達 CEO 黃仁勳去年說過一句話，被反覆引用：中國如果讓 DeepSeek 這種公司用上華為昇騰，那就是輝達的災難。

他沒想到這一天來得這麼快。

這才是梁文鋒真正干的事。

他要的不是榜單第一名的模型。要的是能讓國產晶片跑得動的最強模型。

沖榜單，是為自己。把行業抬起來，是給中國 AI 整體趟雷。

代價是真的

但代價不是嘴上說說。

第一個代價，人才。

V3 模型最重要的貢獻者羅福莉，去了小米。核心研究員郭達雅，去了字節。多模態核心阮翀、第一代大語言模型核心王炳宣，去了騰訊。

每一個名字，背後都是幾百萬年薪和股權。DeepSeek 給不出市場最高的價。

第二個代價，市場。

阿里通義千問把 V3 階段 DeepSeek 佔的那部分使用者場景，慢慢做了回去。豆包靠字節的流量入口，把日活拉到第一。Kimi 在長上下文這條賽道，已經走在 DeepSeek 前面。

DeepSeek 月活從 1.38 億漲到 1.60 億，看起來還在增長，但增長曲線明顯平了。

第三個代價，原則。

去年梁文鋒斬釘截鐵說過：DeepSeek 暫時不融資。

2026 年 4 月 20 日，DeepSeek 被曝尋求百億美元估值，至少 3 億美元戰略融資。阿里、騰訊都在溝通名單。

永不融資這條鐵律，在 V4 出來前一周，破了。

底層原因不複雜。R1 當年訓練成本是 587 萬美元，V4 單輪訓練成本飆到約 5 億美元。漲了快 100 倍。昇騰這條路要燒的錢，比輝達多得多。晶片產能不夠，工程師要重新培訓，工具鏈要從頭建。

幻方那點錢，撐不住一個兆模型時代的全產業鏈投入。

梁文鋒低頭了。

低頭的姿勢，是為了把整個國產 AI 算力產業鏈拽起來。

圈內的新評價

V4 發佈後，圈內最準的一句評價是這樣的：

V4-Pro 比 GPT-5.4、Gemini 3.1 Pro 落後 3 到 6 個月。

3 到 6 個月，聽起來不長。在 AI 這個行業，足夠把一家公司從第一梯隊拉到第二梯隊。

落後是梁文鋒自己選的。

V4 是不是 DeepSeek 最強的模型？不是。

V4 是不是 2026 年中國 AI 公司最重要的一次發佈？我傾向於是。

因為它做的事情，是把整個國產 AI 生態抬起一截，不是把自家排名再往上挪一格。

第一梯隊的位置可以再爭。算力的底子如果沒打牢，爭到也站不住。

跟普通人有什麼關係

繞了這麼大一圈，跟普通人有什麼關係？

第一件，AI 應用價格還會接著掉。

V4 把 API 壓到每百萬 token 0.3 美元。這個價格一出來，國內所有大模型都得跟著降。意味著你以後用的所有 AI 工具，寫文件、做翻譯、改程式碼、生成圖片，成本都要再低一檔。最直接的體感，是各種 AI 會員包月降價。

第二件，國產晶片產業鏈開始轉起來了。

華為昇騰、寒武紀、海光，這些名字以前主要是 A 股投資者關心。現在是真有大模型在用，訂單是看得見的。這條產業鏈上下游幾百家公司，包括伺服器、記憶體、散熱、電源，都跟著進入新一輪訂單周期。

第三件，AI 這件事不再被一根線綁住。

過去三年，業內一直擔心一件事：如果美國把輝達完全斷供，中國 AI 是不是要原地停擺。V4 跑通昇騰這件事，把這個最壞假設的機率往下打了一截。還談不上徹底安全，但至少有了第二條腿。

第四件，離你的工作更近了一步。

價格便宜的大模型，意味著越來越多公司開始把 AI 接入業務流程。客服、文案、設計、初級程式設計、報表分析，這些崗位被替代的速度只會更快。這不是好消息，但是該提前知道的事。

一句話收束

梁文鋒這次的選擇，可能讓 DeepSeek 在未來一年裡看起來不那麼耀眼。模型評測榜單上的名次會往下掉，融資估值會被國際同行甩開，明星光環會被分給其他公司。

這都是真實的代價。

但如果兩年後回頭看，會發現 2026 年 4 月這周，是中國 AI 從「跟在輝達後面跑」切換到「能靠自己跑」的一個分水嶺。

切這一刀的人，是梁文鋒。

你覺得他這步棋，賭對了嗎？ (有知識青年)

科技