DeepSeek過於樸素了

2026/04/25

•

DeepSeek依然是那個不負眾望的DeepSeek

“不誘於譽，不恐於誹，率道而行，端然正己。”

這是4月24日，DeepSeek在發佈V4預覽版時寫在公眾號文章末尾的話。

放在當下的語境，來解讀這句話的意思是，無論外界如何期待、如何猜測，DeepSeek仍按自己的節奏走，不被讚譽裹挾，也不被情緒推著走。

甚至相比於其他幾家基座模型公司，DeepSeek顯得過於樸素了——不刻意刷榜、不考慮商業化、不最佳化使用者體驗，只是充當好一個“修路人”的角色。

時間撥回至R1發佈當天，行業迅速沸騰，而在往後的這459天裡，大家一邊期待著DeepSeek的新模型，一邊見證了智譜和MiniMax兩大國產模型紛紛登陸資本市場，兩家市值均一度衝破3000億元。

就在DeepSeek正式發佈V4後的幾分鐘，資本市場再次給出反饋。約上午11時05分，港股大模型類股快速震盪，智譜與MiniMax雙雙跳水，盤中一度分別跌超10%和12%。

這是過去一年行業最鮮明的變化之一：國產模型首次被資本市場定價，也讓DeepSeek被不斷投射為下一次行業變數。

與此同時，Kimi、Minimax、Qwen和智譜等模型頻頻登頂，但在此期間，DeepSeek卻一直悄無聲息。

而今天DeepSeek的新模型終於來了，但從這個新模型V4來看，它並不屬於大眾所理解的”行業頂尖“，至少這個“領先”不是榜單所定義的。

據 Artificial Analysis 資料，V4 Pro 在世界知識類 benchmark 中已躋身全球前列，僅次於 Gemini-Pro-3.1。綜合表現來看，DeepSeek V4 已領先多數開源模型，整體性能開始逼近頂級閉源模型。

也就是說，如果按照大家期待，V4應該會是再一次震驚行業的“頂尖”模型，但這不是DeepSeek給自己的定義。它給自己的定義一直都是追求性價比。

01. 和其他基模公司比，DeepSeek過於樸素

在幾家頭部大模型公司裡，DeepSeek一直有一種很特別的氣質：樸素。

這種樸素，不是指產品簡單或者技術激進與否，而是它很少像一家標準AI創業公司那樣，被融資節奏、商業化壓力和市場情緒推著走。某種程度上，它不急著證明自己能賺多少錢，因此反而更有空間去做自己真正想做的事。

虎嗅對比了幾大基座模型的技術路線後發現，和DeepSeek最相似的就是Kimi了。

兩家公司都帶有鮮明的技術理想主義色彩，也都曾憑藉模型能力在行業裡打出辨識度。就在V4發佈前兩天，Kimi剛剛推出K2.6，並稱其為發佈以來最好的程式碼模型。與此同時，DeepSeek在V4發佈文章中也提到，他們內部同樣在將V4作為公司內部員工使用的 Agentic Coding 模型。

這意味著，兩家公司都把程式碼能力視作模型價值的重要方向。

相似點還不止於此。這次V4的另一大特點，是原生支援1M上下文，並強化長鏈路推理能力。而長上下文、複雜任務處理，同樣是Kimi過去一年持續強化的標籤。

如果只看程式碼、長上下文、複雜任務這些表面能力邊界，Kimi與DeepSeek似乎正在越來越靠近，甚至可以說，兩家完全撞車。

但如果仔細拆開，會發現兩家公司走的其實是兩條完全不同的技術路線。

Kimi過去長期強調的，是線性注意力路線。它的核心思路，是讓模型在超長上下文、多步驟任務中，把計算成本控制在可接受範圍內，再疊加Agent系統、任務編排、多輪呼叫等能力，讓模型像一個可以持續工作的執行系統。

而DeepSeek V4這次在技術報告中強調，使用的是混合注意力架構（Hybrid Attention）：通過 CSA（Compressed Sparse Attention，壓縮稀疏注意力）與 HCA（Heavily Compressed Attention，重度壓縮注意力）交替配合，對歷史上下文進行分層壓縮和選擇性讀取，在保持百萬級上下文能力的同時，大幅降低推理成本。

報告資料顯示，在100萬token場景下，DeepSeek V4-Pro 的單token推理 FLOPs 降至上一代模型的27%，KV Cache佔用降至10%。

簡單來說就是，Kimi的思路，更像是把一個複雜任務拆成很多步驟，再組織多個智能體協作完成；DeepSeek的思路，則是先把底層存在的問題先一點點解決掉，把地基搭好，讓模型在底層計算結構上先變得更高效。

這兩者看起來是，一個是在任務層做加法，一個是在系統層做減法。

但如果按照這個邏輯來看，可以得到一個結論是，在面對同一項複雜任務時，Kimi往往會消耗更多token。

原因並不複雜。因為當模型開始承擔真實工作流程時，token消耗不再只是使用者輸入與最終輸出，還包括任務拆解、中間推理、多輪呼叫、工具返回結果、錯誤修正以及多個Agent之間的上下文同步。使用者只輸入一句話，後台可能已經完成了十幾輪運算。

當然，這並不意味著Kimi的技術路線有問題。尤其是在當下，AGI的技術路線並未收斂的當下，任何一種技術路線都有各自的優劣勢。

那麼，作為一家更強調商業化落地的公司，Kimi做的事情是最佳化使用者體驗，首先讓很多企業和個人使用者願意為Kimi付費。某種程度上，它已經接近“可交付的生產力工具”。如果一個模型多消耗一些token，卻替使用者節省了3小時工作時間，這筆帳未必不划算。

也就是說，Kimi追求的，是token被消耗後的產出效率；而DeepSeek追求的，則是token本身的計算效率。

這兩種選擇背後，非常鮮明地體現出兩家公司不同的底色。

DeepSeek背後的母公司幻方量化，本質是一家量化機構。量化交易天然強調兩件事：效率與收益率。任何策略都要計算投入產出比，任何系統都要追求速度、穩定性與資源利用率。在這種文化下成長出來的團隊，會很自然地關注大模型的效率問題。

這也解釋了為什麼DeepSeek總在做一些看起來沒那麼熱鬧、卻極其關鍵的事情，比如MoE、推理最佳化、注意力重構、算力利用率提升。

因為對幻方來說，大模型未必是一門獨立生意，但它首先需要是一套提升研究效率、分析效率與決策效率的基礎工具。

換句話說，梁文鋒也許並不關注DeepSeek能為他帶來多少收入。他有更長的時間尺度，也更能接受先做難而慢的事。

Kimi則不同。月之暗面從創立第一天開始，就是一家標準意義上的AI創業公司。它需要融資，需要增長，需要向市場證明模型能力最終可以轉化為真實業務。楊植麟當然有很強的AGI理想主義色彩，但Kimi必須同時面對商業化的現實問題。

這也決定了，Kimi會更積極地靠近使用者需求、程式碼需求、Agent需求和付費需求。它的模型迭代節奏、產品節奏、組織節奏，更像一家需要持續奔跑的創業公司。

所以，看起來都在做長上下文、程式碼模型和複雜任務，兩家公司卻在解決完全不同的問題。

這也是為什麼DeepSeek總顯得“不著急”。

02. 國產替代，仍在路上

在V4發佈前，外媒曾多次“預告”DeepSeek將完全切換至國產模型訓練，並逐步擺脫對輝達的依賴。

然而，從V4發佈的技術報告來看，這一消息未必是真的。

DeepSeek僅在報告中強調了，其已經驗證了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上驗證了 EP（專家平行）方案。但並沒有明確提到DeepSeek已經切換至華為昇騰晶片上做訓練，

更準確地說，它說明的是，DeepSeek已經在系統層面完成了跨平台適配，至少讓V4這類MoE模型能夠同時運行在輝達與昇騰兩套硬體架構之上。但這並不直接意味著，其核心訓練任務已經離開輝達。

換句話說，DeepSeek極有可能依然依賴於輝達晶片做訓練，而用國產晶片完成推理任務。

這其實也是當前行業更現實的路徑。

原因並不複雜。預訓練階段對晶片生態要求極高，涉及大規模平行訓練、通訊頻寬、編譯器成熟度、故障恢復能力以及長期穩定性。相比之下，推理環節對算力的要求更分散，也更適合率先完成國產替代。因此，許多公司採取的並不是“一步到位切換訓練底座”，而是先從推理側開始遷移。

有多位行業人士在虎嗅交談時表示，“如果真的徹底切換至國產晶片，V4可能不會這麼快到來。”

然而，比切換至國產晶片上訓練更值得關注的是，DeepSeek這次在工具鏈層面的變化。

過去，DeepSeek曾因深度使用 PTX 程式語言而受到關注。PTX可以理解為輝達GPU生態中的底層中間語言，接近彙編層，能夠極致搾取單卡性能，但天然繫結輝達體系，開發門檻高，可遷移性也有限。

而在V4報告中，DeepSeek不再強調PTX，而是提到了 DSL（Domain-Specific Language，領域專用語言），例如其採用 TileLang 這類面向AI算子最佳化的DSL，以平衡開發效率與運行效率。

兩者的區別在於：PTX是一種直接操作輝達機器的底層語言，追求極限性能，但強繫結輝達；DSL則更像是一層中間抽象，讓團隊在保持性能的同時，更快開發算子、更容易適配不同晶片平台。

這意味著，DeepSeek雖然未必已經完成國產晶片訓練替代，但它至少已經開始讓自己的模型不再強繫結輝達，未來有可能逐步切換到國產晶片上訓練。

03. 不做被期待的DeepSeek

DeepSeek並不打算成為外界期待中的那個DeepSeek。

過去一年，DeepSeek被行業賦予了太多角色。有人期待它再次複製R1時刻，發佈一款重新震動行業的頂尖模型；有人期待它成為中國大模型擺脫輝達依賴的象徵。

但V4的發佈證明，DeepSeek並沒有被打亂節奏。

它依然是一家圍繞著“效率”做模型的公司，例如，混合注意力架構、KV Cache壓縮、百萬上下文推理成本下降、專家平行最佳化、跨平台Kernel設計，這些內容並不算“性感”，但都非常重要。

但這些不算性感的工程化改進，正在逐步解決大模型目前依然存在的bottleneck。

從這個角度看，DeepSeek和其他基座模型公司已經不站在同一維度上了。當不少公司還在爭奪入口、爭奪使用者時，DeepSeek更關心的是，怎樣把單位智能的成本繼續壓低，怎樣讓同樣的能力消耗更少算力。

所以，“不誘於譽，不恐於誹，率道而行，端然正己”，放在V4結尾，與其說是一種姿態，不如說是向大眾表態——DeepSeek選擇繼續做那個更冷靜的DeepSeek。 (虎嗅APP)