DeepSeek-V4上線：使用華為晶片訓練，性能比Gemini差3-6個月，價格優勢明顯

2026/04/25

•

DeepSeek V4，來了！

OpenAI GPT 5.5 前腳剛發佈，DeepSeek就亮出了“真傢伙”。

就在剛剛，DeepSeek-V4的預覽版本正式上線並同步開源。

據官方介紹，DeepSeek-V4擁有百萬字超長上下文，在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本：

更具產業里程碑意義的是，DeepSeek-V4 從模型設計之初就深度適配國產算力，在華為昇騰晶片生態實測跑通，成為全球首個在國產算力底座上完成訓練與推理的萬億參數級模型，打破對海外晶片與框架的長期依賴。

官方實測資料顯示，DeepSeek-V4-Pro性能比肩頂級閉源模型。

Agent（智能體）能力方面，相比前代模型，DeepSeek-V4-Pro的能力顯著增強。在 Agentic Coding 評測中，V4-Pro 已達到當前開源模型最佳水平，並在其他 Agent 相關評測中同樣表現優異。

DeepSeek介紹，目前 DeepSeek-V4 已成為公司內部員工使用的 Agentic Coding 模型，據評測反饋使用體驗優於 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，但仍與Opus 4.6 思考模式存在一定差距。

DeepSeek給出的結論相對克制。在知識與推理任務上，其性能已經超過主流開源模型，並接近Gemini等閉源系統，但仍存在約3到6個月差距。在 agent和程式碼任務上，其表現接近甚至部分超過Claude Sonnet。

此外，在數學、STEM、競賽型程式碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型（包括月之暗面的K2.6 Thinking、智譜GLM-5.1 Thinking等），取得了比肩世界頂級閉源模型的優異成績。

相較之下，DeepSeek-V4-Flash主打性價比，能夠提供更加快捷、經濟的 API 服務。在 Agent 測評中，DeepSeek-V4-Flash 在簡單任務上與 DeepSeek-V4-Pro 旗鼓相當，但在高難度任務上仍有差距。

據悉，V4-Pro 與 V4-Flash 最大上下文長度為 1M，均同時支援非思考模式與思考模式，其中思考模式支援 reasoning_effort 參數設定思考強度（high/max）。對於複雜的 Agent 場景建議使用思考模式，並設定強度為 max。使用價格如下：

DeepSeek表示，“受限於高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批次上市後，Pro的價格會大幅下調。”

再看看國際友商價格對比，可見DeepSeek的實惠：

大模型處理超長文字的最大痛點，從來不是 “能不能裝下”，而是跑不動、記不住、算不起。隨著傳統注意力機制呈平方級複雜度攀升，百萬Token場景下視訊記憶體與算力直接 “爆炸”，幾乎無法工程落地。

DeepSeek-V4 的發佈，標誌著大模型正式走出 “參數競賽”，進入效率優先下一代賽道。

從一口氣審計全量程式碼庫、一次性解析千頁合同，到全程記住長時間會議、串聯多輪複雜智能體任務，V4讓AI 真正具備“完整理解、長期記憶、深度推理”的能力，同時把使用成本大幅下拉。

這一切得益於DeepSeek業內首創“CSA （壓縮稀疏注意力） + HCA （重度壓縮注意力）”的混合架構。用一套“分級壓縮 + 分級檢索”思路，把效率拉到極致。這一新方法顯著減少了計算複雜度，提升了長上下文處理的效率。

具體來看，CSA像給長文字做重點精讀。先把每 4 個Token壓縮成一個資訊塊，再用稀疏檢索只挑最相關的內容，既保留中段細節，又大幅削減計算量，兼顧精準與效率。HCA像給長文字做大綱速讀，把海量資訊濃縮成框架級塊，專門負責全域邏輯。

官方資料顯示：1M Token場景下，V4-Pro 僅需 V3.2 的 27% 推理算力、10% KV 快取；Flash 版更是低至 10% 算力、7% 快取。

除了混合注意力，V4 還帶來三項關鍵技術革新，構成完整效率革命：

mHC 流形約束超連接：升級傳統殘差連接，把訊號傳播約束在穩定流形上，深層不衰減、訓練不炸數值。

Muon 最佳化器：替代傳統 AdamW，收斂更快、訓練更穩，完美適配 MoE 大模型與低精度訓練，解決大批次長上下文訓練的抖動難題。

全鏈路工程優化：專家平行細粒度通訊重疊、TileLang 核心開發、FP4 量化感知訓練、異構 KV 快取管理，從計算、通訊、儲存全方位降本提速，推理加速最高近2倍。

最受大家關心的，是V4這次是否成功全面適配國產算力？

報告指出，DeepSeek-V4在輝達 GPU 與華為昇騰 NPU 兩大硬體平台上，對細粒度 EP 最佳化方案完成了全面驗證。相較於性能優異的非融合基線方案，該方案在通用推理負載場景下可實現1.50~1.73 倍的加速比。

有業內觀點指出，這代表已經完成華為昇騰平台的適配和實測落地。但目前對外開放原始碼的只有輝達GPU版本，昇騰適配程式碼未開源，屬於閉源適配最佳化。

值得一提的是，寒武紀在軟硬一體生態中，已經完成基於 vLLM 推理框架完成對 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的適配，適配程式碼已開源到 GitHub 社區。

剩下的，就等DeepSeek-V4的實用表現了。還有DeepSeek的首輪融資最終花落誰家，也還是個謎題。

“不誘於譽，不恐於誹，率道而行，端然正己。”

DeepSeek官方在文章最後表示，他們將始終秉持長期主義的原則理念，在嘗試與思考中踏實前行，努力向實現 AGI 的目標不斷靠近。” (搜狐科技)