#預覽版
DeepSeek又當“價格屠夫”,但這次“屠”的不僅是價格
本文為《Token經濟學》系列第六篇。Token正重塑AI時代的價值坐標,DeepSeek V4預覽版發佈,又一次成為了“價格屠夫”,但是帶來了token定價的新的命題。同樣數量的Token,在不同系統中的實際成本可相差一個數量級,大模型正在走向系統級定價。DeepSeek V4預覽版終於發佈,又一次把大模型的價格打了下來,這很符合DeepSeek的“特性”。V4-Flash定價輸入1元、輸出2元/百萬tokens,快取命中後輸入僅0.2元;V4-Pro定價輸入12元、輸出24元/百萬tokens,快取命中輸入1元,發佈時給出限時75折,截至5月5日。兩款模型均原生支援百萬tokens上下文。這周末,DeepSeek-V4-Pro 繼續開啟限時優惠,把價格打到2.5折,快取命中率的輸入價格再打1折。一位AI工程師半開玩笑地說,“周末過後,DeepSeek-V4-Pro離免費只差0.025元”。目前距離2024年那一輪以DeepSeek V2為起點的價格戰,已經過去了整整兩年。這兩年,大模型的推理成本出現了指數級的下降,在考慮快取命中等因素後的有效成本口徑下,累計降幅甚至達百倍。但今天,把價格打下來的意義比之前更為重要。AI已經切換到以長程複雜任務為主的Agent範式,一次任務背後是幾十次、上百次模型呼叫。在這個行業語境下,DeepSeek V4預覽版的發佈,同時也伴隨著兩個值得劃重點的資訊。一是百萬上下文成為兩款模型原生標配;二是強調了快取價格,折上摺。疊加標準輸入輸出價格壓到了同規格模型的梯度下沿,目標是把Agent完成一次任務的總帳單壓到最有競爭力。圖片由AI生成01 Token已經有了新的價格體系回看2024年的降價,本質上是把大模型從“昂貴實驗”拉進“可用工具”。當時,依靠架構創新帶來的推理效率提升,模型呼叫價格從GPT-4時代每百萬token 10至30美元的區間,快速壓縮到1美元量級。圖:過去兩年token價格指數級下降這是一種典型的“絕對價格下探”:開發者可以低成本呼叫大模型,應用層開始真正被打開。但在那個階段,價格仍然對應“單次呼叫成本”,token被視為統一計價單位,呼叫次數與成本基本線性相關。兩年後的DeepSeek V4,價格結構本身也發生了改變。隨著快取(cache)機制進入主流計費體系,token開始被拆分為“新計算”和“重複計算”兩類成本。在高快取命中率的場景中,同樣的輸入價格可以下降到原來的十分之一甚至更低。價格從一個靜態標價,變成一個與系統設計強相關的變數。圖:token被拆成“新計算”和“重複計算”如果只看標價,V4依然延續了DeepSeek一貫的低價策略。在國內市場,阿里通義、智譜GLM、月之暗面Kimi等同檔模型的定價大致在輸入1—4元、輸出4—12元區間,而V4-Flash輸入1元、輸出2元,處在行業平均價的1/3到1/4。Pro版本12元/24元與旗艦模型接近,但百萬級上下文是默認能力而非加價選項。放到全球範圍,對比更加明顯,價格大致僅為部分競品的十分之一到五十分之一。比如GPT-5.5官網價格為:輸入 5 美元 / 百萬 token,快取輸入(cached input) 0.5 美元 / 百萬 token,輸出 30 美元 / 百萬 token。Claude Opus 4.7延續 Opus 4.6 的價格體系,大致為輸入 5 美元 / 百萬 token,輸出 25 美元 / 百萬 token。雖然海外旗艦模型在能力上限、生態成熟度、token利用率等方面並不完全可比,價格並非唯一維度。但在同一組Agent任務中,呼叫成本的差距會直接影響商業可行性。海外廠商也承受著定價壓力:Sam Altman曾公開承認ChatGPT Pro訂閱處於虧損狀態,Dario Amodei也警告行業存在“過度激進定價”。一定程度上,價格背後系統性包含了算力供給、研發攤銷和市場策略。這也是為什麼這一次的價格優勢更有意義。在2024年,行業解決的是“能不能用”;在今天的Agentic AI範式下,更核心的問題是“能不能規模化運行”。一個Agent任務往往包含幾十到上百次模型呼叫,大量輸入來自system prompt、工具schema和歷史記憶,這些內容高度可復用,也恰恰是成本最容易“膨脹”的部分。DeepSeek V4重點壓縮的,正是這一塊“重複計算”的成本。圖:DeepSeek V4把“成本”變成了一個可以被工程最佳化的變數。左側是能力對齊,右側是成本斷崖。在百萬上下文下,推理算力和快取佔用大幅下降,使得長程任務不再以指數級成本增長。這也是本輪價格戰背後的真正驅動力。從自身產品的具體價格演進來看,這種變化也有跡可循。上一代V3.2的輸入價格為2元(未命中快取)、0.2元(命中快取),輸出3元;而V4-Flash將輸入降至1元,輸出降至2元,最直接的變化是“未命中輸入價格腰斬”。在多輪呼叫的Agent場景中,累計輸入成本往往佔大頭,這一調整的槓桿效應遠大於表面降價。Pro版本輸入12元、輸出24元的定價表面看比Flash貴了一個數量級,但DeepSeek在技術報告中寫道,“Pro版本受高端算力產能約束,預計下半年昇騰950超節點批次上市並部署後,Pro的價格會大幅下調”。可以理解為,Pro現在的價格反映的是供給瓶頸,不是真實成本。兩款模型的定位也很清晰:Flash面向高並行、低延遲的批次任務,Pro承擔複雜Agent流程、長鏈路程式碼生成和深度推理。從技術報告看,DeepSeek 已開始用真實研發任務評估 V4 的 code agent 能力,並在內部評估中將其直接對標Claude系列。02 “價格屠夫”的背後DeepSeek如何做到了把價格打下來?傳統注意力機制處理長文字時,計算量隨序列長度的平方增長,比如1M tokens的計算量是128K的64倍。這就是過去“百萬上下文”很難真正商用的原因,KV cache的視訊記憶體佔用會隨序列長度線性堆疊,跑滿1M要麼砍掉並行量、要麼加幾倍機器,帳面上完全不划算。這也是為什麼海外廠商普遍採取“默認短窗口、長窗口加價”的策略,Anthropic甚至直接把200K以上單獨做成一檔收費,價格翻倍。圖:DeepSeek V4 的CSA(壓縮稀疏注意力)通過先壓縮KV快取、再用Top-k選擇關鍵上下文,只計算最重要的資訊,從而在長文字場景下大幅降低算力與快取開銷。簡單理解V4的解法,是把“壓縮”和“稀疏”疊加。先把每m個token的KV快取壓成一個壓縮條目(CSA壓縮率4,HCA壓縮率128),再讓每個query只關注其中top-k個關鍵條目做注意力計算。前一步可以降視訊記憶體,後一步降算力,同時攻克兩個瓶頸。圖:DeepSeek V4 的HCA(重壓縮注意力)通過將更長序列的KV快取極限壓縮為少量表示,在保留局部窗口資訊的同時進一步減少計算與儲存開銷,是支撐百萬級上下文成本下降的關鍵路徑。技術報告顯示:1M上下文下,V4-Pro的單token推理FLOPs僅為V3.2的27%,KV cache佔用僅為10%;V4-Flash更激進,FLOPs為V3.2的10%,KV cache為7%。再疊加FP4量化感知訓練、Muon最佳化器、自研mega-kernel MegaMoE等基礎設施層最佳化,V4把成本從訓練到推理整條鏈路都最佳化壓縮了一遍。低價是架構成本的自然結果。國內大模型公司的一位核心成員告訴騰訊科技:“國內大模型的API定價(包括他們自己),主要還是看成本能力。還沒有那家不計成本地‘卷價格’。所以,從技術底層做到的成本優勢就極為重要。”阿里雲智能CTO周靖人也曾強調:“每一次降價都是一個非常嚴肅的過程,要從整個產業發展、開發者、企業使用者的反饋等各方面進行權衡,不是價格戰。”03 為什麼這次“降價”更重要?從需求端來看,在當下系統性把“價格打下來”更為迫切。Deloitte最新一份Token Economics報告裡舉了AT&T的例子:這家公司在引入Agent系統後,單日Token消耗從80億漲到了270億。Stevens理工的一份分析指出,Agent系統在多輪對話中存在“二次方Token增長”陷阱:到第10輪時,單次呼叫的Token量可能達到第1輪的7倍。模型價格決定一個Agent能不能在商業上跑通。CIO雜誌在三周前的報導裡引用了AI解決方案公司Addo AI的CEO Ayesha Khanna的判斷“如果你跑一個持續性Agent對接前沿模型API,高Token消耗、長上下文、多步推理、重輸出,經濟性會迅速惡化。某些情況下,單任務成本會比讓一個人做這件事還貴。”這是Agent商業化目前最現實的瓶頸,技術能跑通,帳算不過來。回顧V4這次的幾個動作,幾乎全部對準行業這個瓶頸:百萬上下文做成默認能力,讓Agent不必再為長上下文支付溢價;快取命中輸入價壓到行業最低水位,匹配Agent場景裡反覆使用相同系統提示的特點。技術報告裡還特別提到,V4在工具呼叫場景下完整保留全部reasoning content(V3.2會在每個新使用者消息開始時丟棄),這也是為了適配Agent的多輪呼叫需求。04 V4能把整個Agentic AI的成本線拉低嗎?最終,還有一個重要問題,V4能不能把整個Agentic AI行業的成本線壓下去?這次可能情況也複雜得多。首先看其他廠商是否跟進。V4這一輪如果引發類似的同步降價,行業整體成本曲線才會真正下移。但這一次如上文分析,模型的價格更由成本結構決定,模型廠商的毛利率短期內沒有壓縮空間,跟進的空間比較有限。二是高端算力的供給。也如DeepSeek在技術報告中所說,V4-Pro目前的服務吞吐有限。Pro的低價能不能穩定供給,取決於昇騰950超節點等國產算力下半年的批次部署進度,以及DeepSeek在跨硬體平台上的工程化進展。技術報告第3.1節明確寫道,DeepSeek在輝達GPU和華為昇騰NPU兩個平台上均驗證了細粒度專家平行方案,這也是DeepSeek首次將昇騰與輝達並列寫入硬體驗證清單,也是嘗試把推理路徑從單一硬體依賴中解耦出來。這件事如果真的被驗證有效,長期對國內大模型產業的價值更大。三是Agent場景的Token結構能否被進一步最佳化。當下的Agent很消耗token,其中相當一部分Token浪費來源於Agent架構本身。在模型降價之外,Agent本身怎麼用Token又是另一回事。即便V4把單價壓到了地板,糟糕的Agent設計還是有可能會讓帳單失控。這也是當下大熱的Harness系統的意義。Deepseek V4預覽版確實是在價目表上把價格打了下來,把百萬上下文可以做成默認能力,輸出價格可以做到一美元以下/百萬tokens量級,並且這件事是有架構基礎、不依賴補貼的。但是這一次,全行業把成本打下來並不是那麼簡單,面對了一個更複雜的系統性命題。 (騰訊科技)