你以為雲平台用的 DeepSeek 和官方一樣?模型一樣,快取差 10 倍。差別在那?在硬碟裡。

同一個模型,帳單差了 10 倍

我最近實測了一組資料:同樣用 DeepSeek V4 Pro,打了 1500W Token,官方平台帳單 2.43 元。換到阿里百煉,同樣的輸入輸出,同樣打了 2.5 折,帳單 25 到 35 塊。十倍的差距。

我一開始以為是折扣力度不同,後來仔細對比才發現,差距出在一個地方:快取讀取價。官方平台 0.025 每百萬 Token,雲平台 0.25。整整 10 倍。

秘密在硬碟快取

為什麼官方能做到這麼低?因為它把 KV Cache 放在了硬碟上。

這個操作聽起來簡單,其實技術門檻很高。

一般大模型推理的快取全靠 HBM,也就是視訊記憶體。HBM 的特點是快但貴,容量也有限。所以大部分平台的快取只能存很短的上下文,過幾分鐘就過期了。

DeepSeek 不一樣。從 V2 版本開始,它做了 MLA(多頭潛在注意力),把 KV Cache 的維度大幅壓縮。到了 V4,又加了 Token 維度壓縮和 DSA 稀疏注意力,進一步把快取資料量砍到原來的幾分之一。

資料量小了,傳輸頻寬和儲存需求跟著降。降到什麼程度呢?低到可以把快取放在普通硬碟上,而不是昂貴的 HBM。

硬碟便宜,所以快取價格低。而且硬碟容量大,快取持續時間也長,幾個小時到幾天不等。這意味著如果你的請求和之前的請求有相同的前綴,DeepSeek 能直接從硬碟讀快取,省掉大量重複計算。

這就是 2.43 元和 35 元之間的差距。

雲廠商為什麼做不到?

不是技術不行,是架構選擇不同。阿里百煉、騰訊雲這些平台是通用推理框架,要同時適配幾十種模型——Llama、Qwen、Mistral、DeepSeek 全都跑在同一套基礎設施上。這套架構的優勢是靈活,劣勢是沒法為某一個模型做深度最佳化。

DeepSeek 官方平台只跑自家模型,KV Cache 壓縮、硬碟快取、前綴復用,全鏈路都是為自己量身定做的。這就像定製西裝和成衣的區別,合體程度天然不一樣。

而且不只是價格,DeepSeek 官方 API 的響應速度普遍也比第三方平台快。專屬最佳化帶來的收益是價格和速度的雙重優勢。

怎麼選?

如果你的業務重度依賴 DeepSeek 模型,直接用官方平台,別繞道雲廠商。更便宜,更快,快取時間也更長。

當然,如果你需要多模型切換、私有化部署或者企業級 SLA 保障,雲平台的價值不在於價格,而在於生態和服務。這是兩回事。

但單論性價比,官方平台目前沒有對手。 (向上資訊流)