DeepSeek過於樸素了

DeepSeek依然是那個不負眾望的DeepSeek

“不誘於譽,不恐於誹,率道而行,端然正己。”

這是4月24日,DeepSeek在發佈V4預覽版時寫在公眾號文章末尾的話。

放在當下的語境,來解讀這句話的意思是,無論外界如何期待、如何猜測,DeepSeek仍按自己的節奏走,不被讚譽裹挾,也不被情緒推著走。

甚至相比於其他幾家基座模型公司,DeepSeek顯得過於樸素了——不刻意刷榜、不考慮商業化、不最佳化使用者體驗,只是充當好一個“修路人”的角色。

時間撥回至R1發佈當天,行業迅速沸騰,而在往後的這459天裡,大家一邊期待著DeepSeek的新模型,一邊見證了智譜和MiniMax兩大國產模型紛紛登陸資本市場,兩家市值均一度衝破3000億元。

就在DeepSeek正式發佈V4後的幾分鐘,資本市場再次給出反饋。約上午11時05分,港股大模型類股快速震盪,智譜與MiniMax雙雙跳水,盤中一度分別跌超10%和12%。

這是過去一年行業最鮮明的變化之一:國產模型首次被資本市場定價,也讓DeepSeek被不斷投射為下一次行業變數。

與此同時,Kimi、Minimax、Qwen和智譜等模型頻頻登頂,但在此期間,DeepSeek卻一直悄無聲息。

而今天DeepSeek的新模型終於來了,但從這個新模型V4來看,它並不屬於大眾所理解的”行業頂尖“,至少這個“領先”不是榜單所定義的。

據 Artificial Analysis 資料,V4 Pro 在世界知識類 benchmark 中已躋身全球前列,僅次於 Gemini-Pro-3.1。綜合表現來看,DeepSeek V4 已領先多數開源模型,整體性能開始逼近頂級閉源模型。

也就是說,如果按照大家期待,V4應該會是再一次震驚行業的“頂尖”模型,但這不是DeepSeek給自己的定義。它給自己的定義一直都是追求性價比。

01. 和其他基模公司比,DeepSeek過於樸素

在幾家頭部大模型公司裡,DeepSeek一直有一種很特別的氣質:樸素。

這種樸素,不是指產品簡單或者技術激進與否,而是它很少像一家標準AI創業公司那樣,被融資節奏、商業化壓力和市場情緒推著走。某種程度上,它不急著證明自己能賺多少錢,因此反而更有空間去做自己真正想做的事。

虎嗅對比了幾大基座模型的技術路線後發現,和DeepSeek最相似的就是Kimi了。

兩家公司都帶有鮮明的技術理想主義色彩,也都曾憑藉模型能力在行業裡打出辨識度。就在V4發佈前兩天,Kimi剛剛推出K2.6,並稱其為發佈以來最好的程式碼模型。與此同時,DeepSeek在V4發佈文章中也提到,他們內部同樣在將V4作為公司內部員工使用的 Agentic Coding 模型。

這意味著,兩家公司都把程式碼能力視作模型價值的重要方向。

相似點還不止於此。這次V4的另一大特點,是原生支援1M上下文,並強化長鏈路推理能力。而長上下文、複雜任務處理,同樣是Kimi過去一年持續強化的標籤。

如果只看程式碼、長上下文、複雜任務這些表面能力邊界,Kimi與DeepSeek似乎正在越來越靠近,甚至可以說,兩家完全撞車。

但如果仔細拆開,會發現兩家公司走的其實是兩條完全不同的技術路線。

Kimi過去長期強調的,是線性注意力路線。它的核心思路,是讓模型在超長上下文、多步驟任務中,把計算成本控制在可接受範圍內,再疊加Agent系統、任務編排、多輪呼叫等能力,讓模型像一個可以持續工作的執行系統。

而DeepSeek V4這次在技術報告中強調,使用的是混合注意力架構(Hybrid Attention):通過 CSA(Compressed Sparse Attention,壓縮稀疏注意力)與 HCA(Heavily Compressed Attention,重度壓縮注意力)交替配合,對歷史上下文進行分層壓縮和選擇性讀取,在保持百萬級上下文能力的同時,大幅降低推理成本。

報告資料顯示,在100萬token場景下,DeepSeek V4-Pro 的單token推理 FLOPs 降至上一代模型的27%,KV Cache佔用降至10%。

簡單來說就是,Kimi的思路,更像是把一個複雜任務拆成很多步驟,再組織多個智能體協作完成;DeepSeek的思路,則是先把底層存在的問題先一點點解決掉,把地基搭好,讓模型在底層計算結構上先變得更高效。

這兩者看起來是,一個是在任務層做加法,一個是在系統層做減法。

但如果按照這個邏輯來看,可以得到一個結論是,在面對同一項複雜任務時,Kimi往往會消耗更多token。

原因並不複雜。因為當模型開始承擔真實工作流程時,token消耗不再只是使用者輸入與最終輸出,還包括任務拆解、中間推理、多輪呼叫、工具返回結果、錯誤修正以及多個Agent之間的上下文同步。使用者只輸入一句話,後台可能已經完成了十幾輪運算。

當然,這並不意味著Kimi的技術路線有問題。尤其是在當下,AGI的技術路線並未收斂的當下,任何一種技術路線都有各自的優劣勢。

那麼,作為一家更強調商業化落地的公司,Kimi做的事情是最佳化使用者體驗,首先讓很多企業和個人使用者願意為Kimi付費。某種程度上,它已經接近“可交付的生產力工具”。如果一個模型多消耗一些token,卻替使用者節省了3小時工作時間,這筆帳未必不划算。

也就是說,Kimi追求的,是token被消耗後的產出效率;而DeepSeek追求的,則是token本身的計算效率。

這兩種選擇背後,非常鮮明地體現出兩家公司不同的底色。

DeepSeek背後的母公司幻方量化,本質是一家量化機構。量化交易天然強調兩件事:效率與收益率。任何策略都要計算投入產出比,任何系統都要追求速度、穩定性與資源利用率。在這種文化下成長出來的團隊,會很自然地關注大模型的效率問題。

這也解釋了為什麼DeepSeek總在做一些看起來沒那麼熱鬧、卻極其關鍵的事情,比如MoE、推理最佳化、注意力重構、算力利用率提升。

因為對幻方來說,大模型未必是一門獨立生意,但它首先需要是一套提升研究效率、分析效率與決策效率的基礎工具。

換句話說,梁文鋒也許並不關注DeepSeek能為他帶來多少收入。他有更長的時間尺度,也更能接受先做難而慢的事。

Kimi則不同。月之暗面從創立第一天開始,就是一家標準意義上的AI創業公司。它需要融資,需要增長,需要向市場證明模型能力最終可以轉化為真實業務。楊植麟當然有很強的AGI理想主義色彩,但Kimi必須同時面對商業化的現實問題。

這也決定了,Kimi會更積極地靠近使用者需求、程式碼需求、Agent需求和付費需求。它的模型迭代節奏、產品節奏、組織節奏,更像一家需要持續奔跑的創業公司。

所以,看起來都在做長上下文、程式碼模型和複雜任務,兩家公司卻在解決完全不同的問題。

這也是為什麼DeepSeek總顯得“不著急”。

02. 國產替代,仍在路上

在V4發佈前,外媒曾多次“預告”DeepSeek將完全切換至國產模型訓練,並逐步擺脫對輝達的依賴。

然而,從V4發佈的技術報告來看,這一消息未必是真的。

DeepSeek僅在報告中強調了,其已經驗證了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平台上驗證了 EP(專家平行)方案。但並沒有明確提到DeepSeek已經切換至華為昇騰晶片上做訓練,

更準確地說,它說明的是,DeepSeek已經在系統層面完成了跨平台適配,至少讓V4這類MoE模型能夠同時運行在輝達與昇騰兩套硬體架構之上。但這並不直接意味著,其核心訓練任務已經離開輝達。

換句話說,DeepSeek極有可能依然依賴於輝達晶片做訓練,而用國產晶片完成推理任務。

這其實也是當前行業更現實的路徑。

原因並不複雜。預訓練階段對晶片生態要求極高,涉及大規模平行訓練、通訊頻寬、編譯器成熟度、故障恢復能力以及長期穩定性。相比之下,推理環節對算力的要求更分散,也更適合率先完成國產替代。因此,許多公司採取的並不是“一步到位切換訓練底座”,而是先從推理側開始遷移。

有多位行業人士在虎嗅交談時表示,“如果真的徹底切換至國產晶片,V4可能不會這麼快到來。”

然而,比切換至國產晶片上訓練更值得關注的是,DeepSeek這次在工具鏈層面的變化。

過去,DeepSeek曾因深度使用 PTX 程式語言而受到關注。PTX可以理解為輝達GPU生態中的底層中間語言,接近彙編層,能夠極致搾取單卡性能,但天然繫結輝達體系,開發門檻高,可遷移性也有限。

而在V4報告中,DeepSeek不再強調PTX,而是提到了 DSL(Domain-Specific Language,領域專用語言),例如其採用 TileLang 這類面向AI算子最佳化的DSL,以平衡開發效率與運行效率。

兩者的區別在於:PTX是一種直接操作輝達機器的底層語言,追求極限性能,但強繫結輝達;DSL則更像是一層中間抽象,讓團隊在保持性能的同時,更快開發算子、更容易適配不同晶片平台。

這意味著,DeepSeek雖然未必已經完成國產晶片訓練替代,但它至少已經開始讓自己的模型不再強繫結輝達,未來有可能逐步切換到國產晶片上訓練。

03. 不做被期待的DeepSeek

DeepSeek並不打算成為外界期待中的那個DeepSeek。

過去一年,DeepSeek被行業賦予了太多角色。有人期待它再次複製R1時刻,發佈一款重新震動行業的頂尖模型;有人期待它成為中國大模型擺脫輝達依賴的象徵。

但V4的發佈證明,DeepSeek並沒有被打亂節奏。

它依然是一家圍繞著“效率”做模型的公司,例如,混合注意力架構、KV Cache壓縮、百萬上下文推理成本下降、專家平行最佳化、跨平台Kernel設計,這些內容並不算“性感”,但都非常重要。

但這些不算性感的工程化改進,正在逐步解決大模型目前依然存在的bottleneck。

從這個角度看,DeepSeek和其他基座模型公司已經不站在同一維度上了。當不少公司還在爭奪入口、爭奪使用者時,DeepSeek更關心的是,怎樣把單位智能的成本繼續壓低,怎樣讓同樣的能力消耗更少算力。

所以,“不誘於譽,不恐於誹,率道而行,端然正己”,放在V4結尾,與其說是一種姿態,不如說是向大眾表態——DeepSeek選擇繼續做那個更冷靜的DeepSeek。 (虎嗅APP)