傳言了很久,今天終於來了。
DeepSeek正式發佈並開源DeepSeek V4預覽版,兩個版本:專家模式對應V4 Pro(1.6T參數,啟動49B),快速模式對應V4 Flash(284B參數,啟動13B)。
最大的亮點是,從今天起,DeepSeek所有官方服務的上下文長度,全部標配100萬token。
1M上下文意味著什麼
對開發者來說,意味著整個程式碼庫可以直接塞進去,不用再擔心被截斷,也不用費心分段喂給模型。
背後是DeepSeek自研的DSA稀疏注意力機制,在token維度做壓縮,實現了長上下文能力的同時,大幅降低了計算和視訊記憶體需求。用一句話概括:更長,但沒有更貴。
這是DeepSeek V4目前最無爭議的亮點。
性能到底怎麼樣?
官方的說法是"比肩頂級閉源模型",按照DeepSeek自己在報告裡的說法:
“使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。”
能在發佈文章裡主動寫出自己的差距,確實是非常DeepSeek的風格。
我把V4 Pro和Opus 4.6、Opus 4.7、GPT 4.5、GPT 5.5放在一起橫評,結論也基本印證了這一點:跟上一代國際旗艦相比難言追平,跟最新一代相比差距更加明顯。
有一個指標讓我意外:SWE-Bench Pro,DeepSeek V4隻拿到55.4分。
這個評測考察的是AI解決真實GitHub倉庫中複雜工程問題的能力——不是寫演算法題,而是讀懂一個陌生項目然後修Bug,是開發者最在乎的"真實戰鬥力"。
55.4分,不僅低於Opus 4.6的57.3和GPT 5.4的57.7,也低於國產的Kimi 2.6(58.6)和智譜GLM 5.1(58.4)。
這對於想把主力Coding模型換成DeepSeek V4的開發者來說,是一個需要認真考量的訊號。
世界知識方面也略低於預期。SimpleQA指標上,DeepSeek V4超越了大多數國內外模型,幻覺問題有明顯改善,但即使在中文場景下,仍然低於遙遙領先的Gemini 3.1 Pro。
如果你不能訪問Gemini,DeepSeek依然是最優選。但如果你能,這個差距值得注意。
國內開發者怎麼選?
國產三強:DeepSeek V4、Kimi 2.6、智譜GLM 5.1放在一起比,局面是這樣的:
- 純演算法題(LiveCodeBench):DeepSeek領先
- 真實工程項目(SWE):Kimi和GLM咬得很緊,Kimi略勝
價格上,DeepSeek V4 Pro輸入價格是Kimi的兩倍(12 vs 6),和GLM相比也貴了33%。性價比並不突出。
相比之下,Flash版本是例外,它價格打到地板,對預算敏感的開發者很有吸引力。
另外有兩個缺憾:DeepSeek V4依然沒有多模態能力;也沒有自己的Agent產品(類似Claude Code這樣的工具),這意味著在Agent落地場景,它缺少一個重要的工程化抓手。
不過有一個對開發者友好的細節:API同時支援OpenAI和Anthropic兩種介面格式,改一個model參數就能切換,遷移成本極低。
一個值得期待的變數
DeepSeek在發佈說明裡提到,目前Pro版本受限於高端算力,伺服器吞吐十分有限,預計下半年昇騰950超節點批次上市後,價格會大幅下調。
這也印證了此前的市場傳言:V4遲遲未發,是因為DeepSeek在死磕國產晶片。
如果這條路真的走通,對輝達來說將是比任何發佈會都更有殺傷力的消息。
最後
DeepSeek在官方推文結尾引了一句荀子:
不誘於譽,不恐於誹,率道而行,端然正己。
過去一年,DeepSeek經歷了巨大的讚譽,也經歷了"為什麼還不發"的漫長等待和各種猜測。這句話,像是一個回應,也像是一種自我交代。
不追熱點,不急著證明自己,死磕最難的事,這就是DeepSeek的狀態。
V4不是一個完美的答案,但它是DeepSeek按照自己節奏的一次求索。 (懂雲帝)
