是夯爆了還是拉完了?Deepseek V4第一波測評來了(附排行榜)

DeepSeek V4 預覽版開源上線後,第一波來自第三方榜單的測評結果已經出爐。

多家測評顯示,DeepSeek V4性能尤其在程式碼任務上衝進開源第一梯隊,同時以“百萬級上下文+低價”把開發者側的使用門檻進一步壓低。

從第三方評測來看,評測平台 Arena.ai 在 X 上將V4 Pro(思考模式)定性為"相較DeepSeek V3.2的重大飛躍",在其程式碼競技場中列開源模型第3位、綜闔第14位;另一家測評方 Vals AI 則稱,V4在其Vibe Code Benchmark中以"壓倒性優勢"拿下開源權重模型榜首,擊敗Gemini 3.1 Pro等閉源模型,較上代V3.2實現約10倍性能躍升。

定價層面,V4-Flash輸出價格為每百萬token 0.28美元,較Claude Opus 4.7低逾99%;V4-Pro輸出價格為3.48美元,是同等級前沿模型中定價最低的選項之一。對比表格顯示,Flash 處於小模型區間最低檔,Pro 也處於“大模型前沿”區間低位。

圍繞實際體驗的討論開始分化。多位網友在 X 上稱其性價比“打穿”,而DeepSeek在自述材料中則保持克制,稱在知識與推理上接近閉源系統但仍有約3到6個月差距,同時提示“受限於高端算力”,Pro 服務吞吐有限,後續價格存在下調預期。

第三方測評:程式碼能力獨佔鰲頭,綜合排名緊追頂級

就在OpenAI GPT-5.5發佈不久後,DeepSeek-V4預覽版正式上線並同步開源,涵蓋參數總量1.6兆(啟動參數49B)的V4-Pro,以及參數總量2840億(啟動參數13B)的V4-Flash,兩款模型均支援100萬token超長上下文窗口,採用MIT開源協議。

模型評測平台Arena.ai在V4發佈當日宣佈,DeepSeek V4 Pro(思考模式)在其程式碼競技場中排名開源模型第3位,綜合排名第14位,並將此次發佈定性為"相較DeepSeek V3.2的重大飛躍"。Arena.ai同時測試了V4 Flash,兩款模型均支援100萬token上下文。

Vals AI的評測結果更具看點。該平台表示,DeepSeek V4在其Vibe Code Benchmark中"以壓倒性優勢"成為開源權重模型第一,不僅超越第2名Kimi K2.6,更擊敗Gemini 3.1 Pro等閉源前沿模型。

Vals AI特別強調,V4較V3.2實現了約10倍的性能躍升——"V3.2在該基準上僅得5分,這不是筆誤。"在Vals綜合指數排名中,V4以第2位收官,與榜首Kimi K2.6僅相差0.07%。

社區反應十分積極。在X平台上,使用者Sigrid Jin稱其帶來新的“shocking moment”,並提到“現在可以在家裡跑 gpt 5.4-ish 的模型”。他寫道:

"GPT-5.5,對不起,DeepSeek V4才是新的震撼時刻,它在程式碼競技場中擊敗了GPT-5.4高強度模式。"

使用者Ejaaz則稱:

"中國正在主導AI,他們已經追上來了。DeepSeek V4 Flash比Opus 4.7便宜99%,每百萬token僅需0.28美元,程式碼競技場排名第一,這不是筆誤。"

也有使用者表達保留意見,X使用者Michael Anti在試用後表示,V4 Flash的實際體驗未能超越此前已相當成熟的V3.2,認為對老使用者而言升級體驗令人失望。

官方自評:措辭克制,程式碼與Agent領域差距最小

DeepSeek對自身性能的評述保持了一貫的審慎風格。官方檔案顯示,在知識與推理任務上,V4-Pro已超越主流開源模型,接近Gemini等閉源系統,但與最先進的前沿模型仍存在約3至6個月的差距。在Agent和程式碼任務上,表現接近甚至部分超過Claude Sonnet。

內部使用資料方面,DeepSeek表示,V4已成為公司內部員工的Agentic Coding(智能體程式設計)主力模型,評測反饋顯示其使用體驗優於Claude Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但與Opus 4.6思考模式仍有一定差距。

在數學、STEM及競賽級程式碼評測中,V4-Pro超越目前已公開評測的所有開源模型,包括月之暗面的Kimi K2.6 Thinking和智譜GLM-5.1 Thinking,並取得比肩頂級閉源模型的成績。

博主Simon Willison在其測評文章中指出,V4-Pro(1.6兆參數)是目前已知最大的開源權重模型,超過Kimi K2.6(1.1兆)、GLM-5.1(7540億)以及DeepSeek V3.2(6850億),為有意本地部署的企業使用者提供了新的選項。

他還曬出了不同模型做出的鵜鶘圖例:

這是DeepSeek-V4-Flash的鵜鶘:

至於DeepSeek-V4-Pro:

價格體系:最低僅為競品1%,下半年仍有進一步降價空間

DeepSeek的定價策略是此次發佈中最受市場關注的部分。V4-Flash的輸入/輸出價格分別為每百萬token 0.14美元/0.28美元,低於OpenAI GPT-5.4 Nano(0.20美元/1.25美元)和Gemini 3.1 Flash-Lite(0.25美元/1.50美元),是目前小型模型中定價最低的選項。

V4-Pro的輸入/輸出價格為1.74美元/3.48美元,同樣低於Gemini 3.1 Pro(2美元/12美元)、GPT-5.4(2.50美元/15美元)、Claude Sonnet 4.6(3美元/15美元)和Claude Opus 4.7(5美元/25美元)。

博主Simon Willison彙總的價格對比資料顯示,V4-Pro是目前大型前沿模型中成本最低的選項,V4-Flash則是小型模型中成本最低的,甚至低於OpenAI的GPT-5.4 Nano。

DeepSeek將上述低價能力歸因於模型在超長上下文場景下的極致效率最佳化。官方資料顯示,在100萬token場景下,V4-Pro的單token推理算力僅為V3.2的27%,KV快取僅為10%;V4-Flash則分別低至10%和7%。

值得關注的是,DeepSeek在價格說明中附註稱,"受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,Pro的價格會大幅下調",暗示當前定價仍有進一步下調空間。

技術架構:混合注意力機制突破長上下文瓶頸,適配國產算力

DeepSeek-V4的核心技術創新在於首創的"CSA(壓縮稀疏注意力)+HCA(重度壓縮注意力)"混合注意力架構,旨在解決傳統注意力機制在超長上下文場景下呈平方級複雜度攀升、視訊記憶體與算力難以工程落地的行業痛點。

CSA將每4個token壓縮為一個資訊塊並通過稀疏檢索獲取最相關內容,在保留中段細節的同時大幅降低計算量;HCA則將海量資訊濃縮為框架級資訊塊,專注全域邏輯處理。

在此之外,V4還引入mHC流形約束超連接(升級傳統殘差連接,將訊號傳播約束在穩定流形上)以及Muon最佳化器(替代傳統AdamW,適配MoE大模型與低精度訓練)。官方資料顯示,全鏈路工程最佳化可實現推理加速最高接近2倍。

在國產算力適配方面,DeepSeek-V4在華為昇騰NPU平台上完成細粒度專家平行最佳化方案的全面驗證,在通用推理負載場景下可實現1.50至1.73倍的加速比。DeepSeek官方表示,V4是全球首個在國產算力底座上完成訓練與推理的兆參數級模型,但目前昇騰平台適配程式碼暫未對外開源,屬於閉源最佳化。

此外,寒武紀已通過vLLM推理框架完成對V4-Flash和V4-Pro的適配,相關程式碼已開源至GitHub社區。 (華爾街見聞)