DeepSeek-V4開源SOTA！總參數1.6T，最大開源模型；Flash版輸出僅0.28 美元/百萬token；與OpenClaw無縫整合

2026/04/25

•

千呼萬喚始出來，ChatGPT-5.5還剛發佈不久，國產之光DeepSeek-V4也終於露面了！

就在今天上午 11 點 24 分，DeepSeek 在 X 上官宣：DeepSeek-V4 預覽正式上線並開源！

這次預覽共有2個版本，總參數 1.6T 和啟動參數 49B 的DeepSeek-V4 Pro 和總參數 284B 和啟動參數 13B 的DeepSeek-V4 Flash。DeepSeek宣稱前者性能可與全球頂級閉源型號媲美，後者是快速、高效且經濟的選擇。

1.6T 的總參數，是目前最大的開源模型！

與此同時，其官網也發佈了 DeepSeek-V4 Flash 和 Pro 版本的定價表，輸入輸出 token 價格極低，Flash 版輸出僅 0.28 美元/百萬 token，遠低於主流競品。

X上網友都很興奮，紛紛刷屏：“鯨魚回來了”！

還有人做了一張梗圖，把V4 Pro放在一眾強大的閉源模型之中。不過 DeepSeek 的目標顯然也確實是成為開源人工智慧領域的領軍企業。

基準測試：開源SOTA

對於DeepSeek-V4-Pro，在Agentic編碼基準測試中，它達到了開源SOTA水平，Agentic能力顯著增強。

在世界知識豐富程度上，它在開源界難逢敵手，目前也就僅次於 Gemini-3.1-Pro 一點點。

在數學/STEM/程式設計領域，它超越了所有的現有開源模型，邏輯推理能力已經媲美頂級閉源模型。

對於DeepSeek-V4-Flash，它的推理能力接近V4-Pro，在在簡單的代理任務上表現與 V4-Pro 相當，但是參數更小，響應更快，API定價極具成本效益。

在X上，還有人發佈了V4在自有Vibe Code基準測試中表現如何。

結果顯示，V4不僅排名第一，而且把排名第二的（Kimi K2.6）遠遠甩在身後，甚至超過了像 Gemini 3.1 Pro 這樣的前沿閉源型號。

與Claude Code、OpenClaw 等無縫整合

在今年的Agentic潮流下，DeepSeek也針對Agent功能進行了專門的最佳化。V4已經與Claude Code、OpenClaw 和 OpenCode 等領先的 AI Agent無縫整合。同時，DeepSeek內部也已經推動Agent編碼工作。官方還展示了使用V4-Pro生成的PDF示例。

API也已上線！使用者可以保留 base_url，只需將模型更新為 deepseek-v4-pro 或 deepseek-v4-flash。同時兩種模型都相容 OpenAI/Anthropic API 格式，並支援 100 萬 token 上下文和最高 38.4 萬 token 輸出，並且都具備思考模式和工具呼叫等特性。

架構創新：新奇的注意力機制

DeepSeek-V4為什麼這麼強？因為它在模型架構上玩出了新花樣。

在架構創新方面，DeepSeek-V4 在 DeepSeek-V3 的基礎上引入了三項關鍵架構升級：流形約束超連接、混合注意力機制和DeepSeekMoE最佳化。

其中，最新奇的是，他們提出了基於token的壓縮和DSA（DeepSeek 稀疏注意力）的混合注意力機制。

混合注意力包括壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）兩種，二者會交替使用，這大幅降低了長文字場景下的計算 FLOPs 和 KV 快取佔用。

另外，在訓練方法上，通過 FP4 量化感知訓練 MoE 權重，減少了記憶體佔用並加速了計算，未來硬體支援後可進一步提升效率。

還有一個值得注意的細節是，V4模型中新增了 "Max"（最大推理努力）模式。它通過擴展推理 token 和增加思考預算，使模型在處理高難度程式碼和推理任務時達到了 SOTA 水平。

就這樣通過創新核心技術和最佳化訓練方法，DeepSeek-V4 在 1M token 上下文設定下，V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%，KV 快取大小僅為 10%。

換句話說，V4 達到了世界領先的長下文容量，並大幅降低了記憶體成本。

V4 讓“中國開源普惠路徑”越來越香

1M上下文意味著模型能一口氣讀完一本書、啃完整個程式碼庫。配合白菜價API，全球開發者都能玩轉頂級AI。世界正分裂成"西方閉源收費路徑和"中國開源普惠路徑”，而V4讓後者越來越香。

但 DeepSeek-V4 的意義遠不止“好用不貴”和研發出了更強的模型，更在於三個層面的證明：在技術層面上，他的存在意味著開源模型可以追上頂級閉源模型；在產業層面上，它意味著在國內已有算力條件下，依然可以支撐頂級模型的研發；在戰略層面上，它意味著中國AI已經走出了獨立且可擴展的路徑！ (51CTO技術堆疊)