講真，DeepSeek V4+Claude Code 就是中國最強 Agent

2026/04/25

•

DeepSeek V4（預覽版）終於在四月底來了！

眾望所歸啊。

去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長，原因很簡單——換卡了，V4 的整個訓練框架都切到了昇騰。

要知道，DeepSeek 的深度思考模式，絕對是當時的大模型第一梯隊，甚至是引領者。

從 V3 到 V4，這一步真不容易（我接觸到不少小夥伴都不抱期待了）。不管怎麼說，總算是來了。

不誘於譽，不恐於誹，率道而行，端然正己。

V4 端上來了，V4.1 就快了，威武，哦不，V5 肯定要不了這麼久。

注意，V4 這次是全量上線，不需要排隊等資格，直接改 API 裡的 model 參數就可以用。

Pro 版改成 deepseek-v4-pro，flash 版改成 deepseek-v4-flash，deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。

定價方面，pro 比較貴，但 flash 一如既往地親民。在沒有 Coding Plan 的情況下，pro 完成一次開發，價格能接受，但略貴。

別的廢話我就不多說了，直接開測。

咱就不去寫什麼 demo 了，直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。

01、Claude Code + DeepSeek V4

講真，Claude Code+DeepSeek V4 就是國產最強 Agent。

切換模型很簡單，我自己寫了個工具 PaiSwitch，銷售點一點，Claude Code 的底層模型就切到了 DeepSeek V4 Pro。

切換底層模型後，重新打開一個終端，輸入 /claude 啟動。

可以用 /status 確認下配置是否生效。

提示詞：派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式，我想改成多窗口——能開新對話，舊對話直接歸檔。

V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。

要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調，都列得明明白白。

我全程盯著 token 消耗。

讀了那麼多程式碼，加上輸出計畫的量，一塊多。

然後開始幹活。V4 規劃了五個任務，先攻後端，再弄前端。

後端改了 7 個檔案，前端 5 個，前後大概 15 分鐘。

編譯直接過了，有錯誤自己也修了。

然後我讓它自己用 CDP 連到 Chrome 跑測試。

提示詞：你自己能否 cdp 我的 Chrome 測試一下：http://localhost:9527/#/chat

點點按鈕，驗證功能。

測出問題自己修。

修完繼續測歸檔功能。

最後我還讓它最佳化了一下佈局。

從頭到尾，Pro 一共花了 10 塊左右。

能接受。

當然了，有一說一，前端審美這塊確實還比較糙。佈局能用但說不上優雅。

功能方面是沒出一點問題。

一個好的模型，配上 Claude Code 這種頂級 Harness 架構，能幹的事情就很多了。

Claude Code之所以牛X，就是因為。

它不只是把你的提示詞轉發給模型，還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型，就能直觀地看出模型之間的差距在那。

10 塊錢完成一個完整的功能開發，從程式碼到測試到修 bug，這個成本不算貴。

但也不便宜，注意上圖中的小子，下半年卡升級後，pro的加個會大幅下調。

很期待下一個版本。

02、派聰明 RAG 接入 DeepSeek V4

由於我們派聰明RAG做了模型管理。

所以我第一時間，也是把 Pro 和 Flash 接上去體驗了一下。

問了一模一樣的問題：「派聰明是什麼？」

Flash 的回答是這樣的：

派聰明是一個企業級的 RAG（檢索增強生成）知識庫項目，最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分（不含檢索增強），後來獨立發展並沿用“派聰明”名稱，旨在延續正宗的皇家血脈。

Pro 的回答是這樣的：

派聰明是一個企業級 RAG（檢索增強生成）知識庫系統，基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組（不含檢索增強），後獨立發展並沿用“派聰明”名稱，旨在延續項目的正統性。系統核心能力包括：文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環，它有效解決知識分散與更新滯後問題，避免大模型“幻覺”，可應用於客服、培訓、合規審查等場景。派聰明完全開源（MIT 協議），教學託管在技術派平台，支援企業私有化部署與二次擴展。

一個簡略，一個詳細。

畢竟 Pro 啟動參數 49B，Flash 只有 13B，差了將近 4 倍。

但重點不在誰答得長。

RAG 場景裡，檢索質量才是天花板，模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短，但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容（Self-RAG、JWT+RBAC、SSE 流式推送），其實全都是從知識庫裡檢索出來的原始文件內容，它只是組織得更完整。

換句話說，如果你的知識庫文件質量高、分塊合理，Flash 完全夠用。

03、DeepSeek V4 值得聊的一點

傳統 Transformer 的注意力機制，每個 token 要和前面所有 token 都算一遍相似度。

上下文能從 10 萬拉到 100 萬，這是長上下文一直跑不起來的根本原因。

DeepSeek 的解法是把注意力拆成兩種，交替堆疊起來用。

第一種叫 CSA，全名 Compressed Sparse Attention，壓縮稀疏注意力。

它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要，然後用 Lightning Indexer 快速估算相關性，讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。

DeepSeek V4 pro繪圖

第二種叫 HCA，全名 Heavily Compressed Attention，重度壓縮注意力。

每 128 個 token 才合併成一條，但不做稀疏選擇，所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野，保證模型不會丟了對整段文字的把控。

再加一個 128 token 的滑動窗口管局部依賴。

也就是說，CSA 負責精細化檢索，HCA 負責全域審視，滑動窗口管好眼前。

可以這樣理解這個設計：

讀一本 1000 頁的書，傳統注意力是把每一頁和前面所有頁都對比一遍，翻到第 1000 頁的時候要同時記住前 999 頁的細節，腦容量直接爆炸。

CSA 的做法是把每 4 頁貼一張便簽紙，唯寫摘要，然後看到某一頁時只去翻最相關的 1024 張便簽紙。

HCA 的做法更絕——每 128 頁才貼一張便簽紙，但所有便簽紙都看一眼。再加上手裡的那一頁（滑動窗口），局部細節、中程邏輯、全域脈絡都有了，但腦容量得消耗只有原來的十分之一。

04、DeepSeek 真的很克制

最讓我意外的是 DeepSeek 官方這次的措辭。

公告裡是這樣寫的：

使用體驗優於 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式，但仍與 Opus 4.6 思考模式存在一定差距。

沒有「吊打」，沒有「碾壓」，沒有「遙遙領先」。

在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下，這種「我們確實還差一截」的表態真的很真誠。

「不誘於譽，不恐於誹，率道而行，端然正己。」

V4 不是一個完美的模型。

就我自己的使用體感下來看，前端這塊的處理我認為還是有很大進步空間的。

這種實心的線條來佈局，有點回到返璞歸真的。😄

下一版不急，按你的節奏來。 (沉默王二)