講真,DeepSeek V4+Claude Code 就是中國最強 Agent

DeepSeek V4(預覽版)終於在四月底來了!

眾望所歸啊。

去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。

要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。

從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。

不誘於譽,不恐於誹,率道而行,端然正己

V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。

注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。

Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flashdeepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。

定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。

別的廢話我就不多說了,直接開測。

咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。

01、Claude Code + DeepSeek V4

講真,Claude Code+DeepSeek V4 就是國產最強 Agent。

切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。

切換底層模型後,重新打開一個終端,輸入 /claude 啟動。

可以用 /status 確認下配置是否生效。

提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。

V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。

要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。

我全程盯著 token 消耗。

讀了那麼多程式碼,加上輸出計畫的量,一塊多。

然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。

後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。

編譯直接過了,有錯誤自己也修了。

然後我讓它自己用 CDP 連到 Chrome 跑測試。

提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat

點點按鈕,驗證功能。

測出問題自己修。

修完繼續測歸檔功能。

最後我還讓它最佳化了一下佈局。

從頭到尾,Pro 一共花了 10 塊左右。

能接受。

當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。

功能方面是沒出一點問題。

一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。

Claude Code之所以牛X,就是因為。

它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。

10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。

但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。

很期待下一個版本。

02、派聰明 RAG 接入 DeepSeek V4

由於我們派聰明RAG做了模型管理。

所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。

問了一模一樣的問題:「派聰明是什麼?」

Flash 的回答是這樣的:

派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。

Pro 的回答是這樣的:

派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。

一個簡略,一個詳細。

畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。

但重點不在誰答得長。

RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。

換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。

03、DeepSeek V4 值得聊的一點

傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。

上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。

DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。

第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。

它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。

DeepSeek V4 pro繪圖

第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。

每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。

再加一個 128 token 的滑動窗口管局部依賴。

也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。

可以這樣理解這個設計:

讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。

CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。

HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。

04、DeepSeek 真的很克制

最讓我意外的是 DeepSeek 官方這次的措辭。

公告裡是這樣寫的:

使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。

在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。

不誘於譽,不恐於誹,率道而行,端然正己。

V4 不是一個完美的模型。

就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。

這種實心的線條來佈局,有點回到返璞歸真的。😄

下一版不急,按你的節奏來。 (沉默王二)