#預覽版 | 熱門關鍵字 | 鉅亨號

本文為《Token經濟學》系列第六篇。Token正重塑AI時代的價值坐標，DeepSeek V4預覽版發佈，又一次成為了“價格屠夫”，但是帶來了token定價的新的命題。同樣數量的Token，在不同系統中的實際成本可相差一個數量級，大模型正在走向系統級定價。DeepSeek V4預覽版終於發佈，又一次把大模型的價格打了下來，這很符合DeepSeek的“特性”。V4-Flash定價輸入1元、輸出2元/百萬tokens，快取命中後輸入僅0.2元；V4-Pro定價輸入12元、輸出24元/百萬tokens，快取命中輸入1元，發佈時給出限時75折，截至5月5日。兩款模型均原生支援百萬tokens上下文。這周末，DeepSeek-V4-Pro 繼續開啟限時優惠，把價格打到2.5折，快取命中率的輸入價格再打1折。一位AI工程師半開玩笑地說，“周末過後，DeepSeek-V4-Pro離免費只差0.025元”。目前距離2024年那一輪以DeepSeek V2為起點的價格戰，已經過去了整整兩年。這兩年，大模型的推理成本出現了指數級的下降，在考慮快取命中等因素後的有效成本口徑下，累計降幅甚至達百倍。但今天，把價格打下來的意義比之前更為重要。AI已經切換到以長程複雜任務為主的Agent範式，一次任務背後是幾十次、上百次模型呼叫。在這個行業語境下，DeepSeek V4預覽版的發佈，同時也伴隨著兩個值得劃重點的資訊。一是百萬上下文成為兩款模型原生標配；二是強調了快取價格，折上摺。疊加標準輸入輸出價格壓到了同規格模型的梯度下沿，目標是把Agent完成一次任務的總帳單壓到最有競爭力。圖片由AI生成01 Token已經有了新的價格體系回看2024年的降價，本質上是把大模型從“昂貴實驗”拉進“可用工具”。當時，依靠架構創新帶來的推理效率提升，模型呼叫價格從GPT-4時代每百萬token 10至30美元的區間，快速壓縮到1美元量級。圖：過去兩年token價格指數級下降這是一種典型的“絕對價格下探”：開發者可以低成本呼叫大模型，應用層開始真正被打開。但在那個階段，價格仍然對應“單次呼叫成本”，token被視為統一計價單位，呼叫次數與成本基本線性相關。兩年後的DeepSeek V4，價格結構本身也發生了改變。隨著快取（cache）機制進入主流計費體系，token開始被拆分為“新計算”和“重複計算”兩類成本。在高快取命中率的場景中，同樣的輸入價格可以下降到原來的十分之一甚至更低。價格從一個靜態標價，變成一個與系統設計強相關的變數。圖：token被拆成“新計算”和“重複計算”如果只看標價，V4依然延續了DeepSeek一貫的低價策略。在國內市場，阿里通義、智譜GLM、月之暗面Kimi等同檔模型的定價大致在輸入1—4元、輸出4—12元區間，而V4-Flash輸入1元、輸出2元，處在行業平均價的1/3到1/4。Pro版本12元/24元與旗艦模型接近，但百萬級上下文是默認能力而非加價選項。放到全球範圍，對比更加明顯，價格大致僅為部分競品的十分之一到五十分之一。比如GPT-5.5官網價格為：輸入 5 美元 / 百萬 token，快取輸入（cached input） 0.5 美元 / 百萬 token，輸出 30 美元 / 百萬 token。Claude Opus 4.7延續 Opus 4.6 的價格體系，大致為輸入 5 美元 / 百萬 token，輸出 25 美元 / 百萬 token。雖然海外旗艦模型在能力上限、生態成熟度、token利用率等方面並不完全可比，價格並非唯一維度。但在同一組Agent任務中，呼叫成本的差距會直接影響商業可行性。海外廠商也承受著定價壓力：Sam Altman曾公開承認ChatGPT Pro訂閱處於虧損狀態，Dario Amodei也警告行業存在“過度激進定價”。一定程度上，價格背後系統性包含了算力供給、研發攤銷和市場策略。這也是為什麼這一次的價格優勢更有意義。在2024年，行業解決的是“能不能用”；在今天的Agentic AI範式下，更核心的問題是“能不能規模化運行”。一個Agent任務往往包含幾十到上百次模型呼叫，大量輸入來自system prompt、工具schema和歷史記憶，這些內容高度可復用，也恰恰是成本最容易“膨脹”的部分。DeepSeek V4重點壓縮的，正是這一塊“重複計算”的成本。圖：DeepSeek V4把“成本”變成了一個可以被工程最佳化的變數。左側是能力對齊，右側是成本斷崖。在百萬上下文下，推理算力和快取佔用大幅下降，使得長程任務不再以指數級成本增長。這也是本輪價格戰背後的真正驅動力。從自身產品的具體價格演進來看，這種變化也有跡可循。上一代V3.2的輸入價格為2元（未命中快取）、0.2元（命中快取），輸出3元；而V4-Flash將輸入降至1元，輸出降至2元，最直接的變化是“未命中輸入價格腰斬”。在多輪呼叫的Agent場景中，累計輸入成本往往佔大頭，這一調整的槓桿效應遠大於表面降價。Pro版本輸入12元、輸出24元的定價表面看比Flash貴了一個數量級，但DeepSeek在技術報告中寫道，“Pro版本受高端算力產能約束，預計下半年昇騰950超節點批次上市並部署後，Pro的價格會大幅下調”。可以理解為，Pro現在的價格反映的是供給瓶頸，不是真實成本。兩款模型的定位也很清晰：Flash面向高並行、低延遲的批次任務，Pro承擔複雜Agent流程、長鏈路程式碼生成和深度推理。從技術報告看，DeepSeek 已開始用真實研發任務評估 V4 的 code agent 能力，並在內部評估中將其直接對標Claude系列。02 “價格屠夫”的背後DeepSeek如何做到了把價格打下來？傳統注意力機制處理長文字時，計算量隨序列長度的平方增長，比如1M tokens的計算量是128K的64倍。這就是過去“百萬上下文”很難真正商用的原因，KV cache的視訊記憶體佔用會隨序列長度線性堆疊，跑滿1M要麼砍掉並行量、要麼加幾倍機器，帳面上完全不划算。這也是為什麼海外廠商普遍採取“默認短窗口、長窗口加價”的策略，Anthropic甚至直接把200K以上單獨做成一檔收費，價格翻倍。圖：DeepSeek V4 的CSA（壓縮稀疏注意力）通過先壓縮KV快取、再用Top-k選擇關鍵上下文，只計算最重要的資訊，從而在長文字場景下大幅降低算力與快取開銷。簡單理解V4的解法，是把“壓縮”和“稀疏”疊加。先把每m個token的KV快取壓成一個壓縮條目（CSA壓縮率4，HCA壓縮率128），再讓每個query只關注其中top-k個關鍵條目做注意力計算。前一步可以降視訊記憶體，後一步降算力，同時攻克兩個瓶頸。圖：DeepSeek V4 的HCA（重壓縮注意力）通過將更長序列的KV快取極限壓縮為少量表示，在保留局部窗口資訊的同時進一步減少計算與儲存開銷，是支撐百萬級上下文成本下降的關鍵路徑。技術報告顯示：1M上下文下，V4-Pro的單token推理FLOPs僅為V3.2的27%，KV cache佔用僅為10%；V4-Flash更激進，FLOPs為V3.2的10%，KV cache為7%。再疊加FP4量化感知訓練、Muon最佳化器、自研mega-kernel MegaMoE等基礎設施層最佳化，V4把成本從訓練到推理整條鏈路都最佳化壓縮了一遍。低價是架構成本的自然結果。國內大模型公司的一位核心成員告訴騰訊科技：“國內大模型的API定價（包括他們自己），主要還是看成本能力。還沒有那家不計成本地‘卷價格’。所以，從技術底層做到的成本優勢就極為重要。”阿里雲智能CTO周靖人也曾強調：“每一次降價都是一個非常嚴肅的過程，要從整個產業發展、開發者、企業使用者的反饋等各方面進行權衡，不是價格戰。”03 為什麼這次“降價”更重要？從需求端來看，在當下系統性把“價格打下來”更為迫切。Deloitte最新一份Token Economics報告裡舉了AT&T的例子：這家公司在引入Agent系統後，單日Token消耗從80億漲到了270億。Stevens理工的一份分析指出，Agent系統在多輪對話中存在“二次方Token增長”陷阱：到第10輪時，單次呼叫的Token量可能達到第1輪的7倍。模型價格決定一個Agent能不能在商業上跑通。CIO雜誌在三周前的報導裡引用了AI解決方案公司Addo AI的CEO Ayesha Khanna的判斷“如果你跑一個持續性Agent對接前沿模型API，高Token消耗、長上下文、多步推理、重輸出，經濟性會迅速惡化。某些情況下，單任務成本會比讓一個人做這件事還貴。”這是Agent商業化目前最現實的瓶頸，技術能跑通，帳算不過來。回顧V4這次的幾個動作，幾乎全部對準行業這個瓶頸：百萬上下文做成默認能力，讓Agent不必再為長上下文支付溢價；快取命中輸入價壓到行業最低水位，匹配Agent場景裡反覆使用相同系統提示的特點。技術報告裡還特別提到，V4在工具呼叫場景下完整保留全部reasoning content（V3.2會在每個新使用者消息開始時丟棄），這也是為了適配Agent的多輪呼叫需求。04 V4能把整個Agentic AI的成本線拉低嗎？最終，還有一個重要問題，V4能不能把整個Agentic AI行業的成本線壓下去？這次可能情況也複雜得多。首先看其他廠商是否跟進。V4這一輪如果引發類似的同步降價，行業整體成本曲線才會真正下移。但這一次如上文分析，模型的價格更由成本結構決定，模型廠商的毛利率短期內沒有壓縮空間，跟進的空間比較有限。二是高端算力的供給。也如DeepSeek在技術報告中所說，V4-Pro目前的服務吞吐有限。Pro的低價能不能穩定供給，取決於昇騰950超節點等國產算力下半年的批次部署進度，以及DeepSeek在跨硬體平台上的工程化進展。技術報告第3.1節明確寫道，DeepSeek在輝達GPU和華為昇騰NPU兩個平台上均驗證了細粒度專家平行方案，這也是DeepSeek首次將昇騰與輝達並列寫入硬體驗證清單，也是嘗試把推理路徑從單一硬體依賴中解耦出來。這件事如果真的被驗證有效，長期對國內大模型產業的價值更大。三是Agent場景的Token結構能否被進一步最佳化。當下的Agent很消耗token，其中相當一部分Token浪費來源於Agent架構本身。在模型降價之外，Agent本身怎麼用Token又是另一回事。即便V4把單價壓到了地板，糟糕的Agent設計還是有可能會讓帳單失控。這也是當下大熱的Harness系統的意義。Deepseek V4預覽版確實是在價目表上把價格打了下來，把百萬上下文可以做成默認能力，輸出價格可以做到一美元以下/百萬tokens量級，並且這件事是有架構基礎、不依賴補貼的。但是這一次，全行業把成本打下來並不是那麼簡單，面對了一個更複雜的系統性命題。 (騰訊科技)