千呼萬喚始出來,ChatGPT-5.5還剛發佈不久,國產之光DeepSeek-V4也終於露面了!
就在今天上午 11 點 24 分,DeepSeek 在 X 上官宣:DeepSeek-V4 預覽正式上線並開源!
這次預覽共有2個版本,總參數 1.6T 和啟動參數 49B 的DeepSeek-V4 Pro 和總參數 284B 和啟動參數 13B 的DeepSeek-V4 Flash。DeepSeek宣稱前者性能可與全球頂級閉源型號媲美,後者是快速、高效且經濟的選擇。
1.6T 的總參數,是目前最大的開源模型!
與此同時,其官網也發佈了 DeepSeek-V4 Flash 和 Pro 版本的定價表,輸入輸出 token 價格極低,Flash 版輸出僅 0.28 美元/百萬 token,遠低於主流競品。
X上網友都很興奮,紛紛刷屏:“鯨魚回來了”!
還有人做了一張梗圖,把V4 Pro放在一眾強大的閉源模型之中。不過 DeepSeek 的目標顯然也確實是成為開源人工智慧領域的領軍企業。
基準測試:開源SOTA
對於DeepSeek-V4-Pro,在Agentic編碼基準測試中,它達到了開源SOTA水平,Agentic能力顯著增強。
在世界知識豐富程度上,它在開源界難逢敵手,目前也就僅次於 Gemini-3.1-Pro 一點點。
在數學/STEM/程式設計領域,它超越了所有的現有開源模型,邏輯推理能力已經媲美頂級閉源模型。
對於DeepSeek-V4-Flash,它的推理能力接近V4-Pro,在在簡單的代理任務上表現與 V4-Pro 相當,但是參數更小,響應更快,API定價極具成本效益。
在X上,還有人發佈了V4在自有Vibe Code基準測試中表現如何。
結果顯示,V4不僅排名第一,而且把排名第二的(Kimi K2.6)遠遠甩在身後,甚至超過了像 Gemini 3.1 Pro 這樣的前沿閉源型號。
與Claude Code、OpenClaw 等無縫整合
在今年的Agentic潮流下,DeepSeek也針對Agent功能進行了專門的最佳化。V4已經與Claude Code、OpenClaw 和 OpenCode 等領先的 AI Agent無縫整合。同時,DeepSeek內部也已經推動Agent編碼工作。官方還展示了使用V4-Pro生成的PDF示例。
API也已上線!使用者可以保留 base_url,只需將模型更新為 deepseek-v4-pro 或 deepseek-v4-flash。同時兩種模型都相容 OpenAI/Anthropic API 格式,並支援 100 萬 token 上下文和最高 38.4 萬 token 輸出,並且都具備思考模式和工具呼叫等特性。
架構創新:新奇的注意力機制
DeepSeek-V4為什麼這麼強?因為它在模型架構上玩出了新花樣。
在架構創新方面,DeepSeek-V4 在 DeepSeek-V3 的基礎上引入了三項關鍵架構升級:流形約束超連接、混合注意力機制和DeepSeekMoE最佳化。
其中,最新奇的是,他們提出了基於token的壓縮和DSA(DeepSeek 稀疏注意力)的混合注意力機制。
混合注意力包括壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)兩種,二者會交替使用,這大幅降低了長文字場景下的計算 FLOPs 和 KV 快取佔用。
另外,在訓練方法上,通過 FP4 量化感知訓練 MoE 權重,減少了記憶體佔用並加速了計算,未來硬體支援後可進一步提升效率 。
還有一個值得注意的細節是,V4模型中新增了 "Max"(最大推理努力)模式。它通過擴展推理 token 和增加思考預算,使模型在處理高難度程式碼和推理任務時達到了 SOTA 水平。
就這樣通過創新核心技術和最佳化訓練方法,DeepSeek-V4 在 1M token 上下文設定下,V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 快取大小僅為 10%。
換句話說,V4 達到了世界領先的長下文容量,並大幅降低了記憶體成本。
V4 讓“中國開源普惠路徑”越來越香
1M上下文意味著模型能一口氣讀完一本書、啃完整個程式碼庫。配合白菜價API,全球開發者都能玩轉頂級AI。世界正分裂成"西方閉源收費路徑和"中國開源普惠路徑”,而V4讓後者越來越香。
但 DeepSeek-V4 的意義遠不止“好用不貴”和研發出了更強的模型,更在於三個層面的證明:在技術層面上,他的存在意味著開源模型可以追上頂級閉源模型;在產業層面上,它意味著在國內已有算力條件下,依然可以支撐頂級模型的研發;在戰略層面上,它意味著中國AI已經走出了獨立且可擴展的路徑! (51CTO技術堆疊)
