DeepSeek V4(預覽版)終於在四月底來了!
眾望所歸啊。
去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。
要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。
從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。
不誘於譽,不恐於誹,率道而行,端然正己。
V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。
注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。
Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。
定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。
別的廢話我就不多說了,直接開測。
咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。
01、Claude Code + DeepSeek V4
講真,Claude Code+DeepSeek V4 就是國產最強 Agent。
切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。
切換底層模型後,重新打開一個終端,輸入 /claude 啟動。
可以用 /status 確認下配置是否生效。
提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。
V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。
要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。
我全程盯著 token 消耗。
讀了那麼多程式碼,加上輸出計畫的量,一塊多。
然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。
後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。
編譯直接過了,有錯誤自己也修了。
然後我讓它自己用 CDP 連到 Chrome 跑測試。
提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat
點點按鈕,驗證功能。
測出問題自己修。
修完繼續測歸檔功能。
最後我還讓它最佳化了一下佈局。
從頭到尾,Pro 一共花了 10 塊左右。
能接受。
當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。
功能方面是沒出一點問題。
一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。
Claude Code之所以牛X,就是因為。
它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。
10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。
但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。
很期待下一個版本。
02、派聰明 RAG 接入 DeepSeek V4
由於我們派聰明RAG做了模型管理。
所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。
問了一模一樣的問題:「派聰明是什麼?」
Flash 的回答是這樣的:
派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。
Pro 的回答是這樣的:
派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。
一個簡略,一個詳細。
畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。
但重點不在誰答得長。
RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。
換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。
03、DeepSeek V4 值得聊的一點
傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。
上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。
DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。
第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。
它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。
DeepSeek V4 pro繪圖
第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。
每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。
再加一個 128 token 的滑動窗口管局部依賴。
也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。
可以這樣理解這個設計:
讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。
CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。
HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。
04、DeepSeek 真的很克制
最讓我意外的是 DeepSeek 官方這次的措辭。
公告裡是這樣寫的:
使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。
沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。
在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。
「不誘於譽,不恐於誹,率道而行,端然正己。」
V4 不是一個完美的模型。
就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。
這種實心的線條來佈局,有點回到返璞歸真的。😄
下一版不急,按你的節奏來。 (沉默王二)
