繼DeepSeek宣佈永久降價後,又一家國產大模型宣佈降價了。
5月27日凌晨,小米宣佈MiMo-V2.5系列API永久降價,最高降幅達99%,且不再區分輸入長度。
同時對Token Plan計費體系進行最佳化,同樣的套餐價格,用量提升至原來的5-8倍。
所有已訂閱Token Plan且在有效期內的使用者,從今天0點起全部重設按照新計費規則執行。
小米創始人雷軍,隨後在微博也轉發了這條降價消息。
01. 國產模型降成白菜價對比國外模型價格優勢明顯
公告顯示,MiMo-V2.5-Pro調價後,輸入快取命中價格降至0.025元/百萬tokens,輸入未命中快取3元/百萬tokens,輸出6元/百萬tokens。
它跟幾天前DeepSeek-V4-Pro宣佈降價後的價格剛好一致。
自今年年以來,國內頭部大模型廠商已掀起一輪持續、全面的降價潮,價格堪稱“白菜價”。
按照每百萬tokens的單價,Kimi-k2.6快取命中輸入價1.1元,快取未命中輸入價6.5元,輸出價27元。
其他模型價格具體如下圖:
而對比海外主流模型,國產大模型的價格優勢堪稱碾壓級。
MiMo-V2.5-Pro的輸入價格僅為Claude-opus-4.7的三十六分之一,輸出價格更是達到九十分之一。
在這樣巨大的價格差下,一些外國碼農都受不了,反向代購中國大模型。
02. 硬體和雲在暴漲,token在暴跌利潤到底從那來?
極具反差的是,當國內模型token降價的同時,底層的硬體、雲算力成本卻在持續暴漲。
全球AI算力、雲服務、硬體裝置全面進入漲價周期,徹底終結了雲端運算二十年“只降不升”的行業慣例。
國內阿里雲、騰訊雲、百度智能雲三大頭部廠商,先後上調AI算力產品價格,漲幅區間5%-34%。
同時,高性能儲存、算力租賃、伺服器整機價格同步上漲,輝達H100 GPU年租賃價格漲幅近40%,部分騰訊雲AI算力服務漲幅更是高達400%,海外AWS、Google雲同步跟進漲價,全球AI底層算力成本全面走高。
按理說,上游成本上漲必然帶動下游模型漲價,但國產大模型卻反向降價,它們的利潤都從那裡來?
答案藏在推理效率裡。
大模型API的成本結構正在發生質變。過去,成本大頭是模型訓練和參數儲存;現在,隨著模型開源、蒸餾技術成熟,訓練成本被攤薄,真正的戰場轉移到了推理環節:如何讓每一次API呼叫的算力消耗更低、吞吐更高、延遲更短。
尤其是在長上下文、Agent、多輪對話場景下,真正的吞金獸是KV Cache。
可以把它理解為模型推理時對上下文的“記憶”。上下文越長,快取就越龐大,吃掉的視訊記憶體也越恐怖。很多長上下文模型定價高昂,本質上不是因為“更聰明”,而是快取成本居高不下。
小米這次的技術攻堅,正是衝著這個痛點去的。
DeepSeek V4系列之所以敢定價0.025元,也是因為在推理框架、快取系統和叢集調度上做了深度最佳化。
硬體貴了,但單位token消耗的算力下降得更快。
另外,薄利多銷的邏輯在這裡依然有效。模型降價後,開發者不再吝嗇呼叫量,Agent框架、多輪對話、長文件分析的消耗量會指數級增長。
03. 中美大模型之戰誰是贏家
於是到這裡就會產生一個問題:
當中國大模型價格只是美國的頂尖模型十分之一,而功能卻能達到百分之八九十,那麼這場模型大戰,中國憑什麼輸?
過去兩年裡,業界普遍有一種擔憂:中國在基礎模型能力上始終落後OpenAI和Anthropic半步,從GPT-4到Claude 3.5再到GPT-5.5,每次發佈都在拉大差距。這種焦慮是真實的。
但價格帶來的強勁競爭力,也是客觀的。
企業在採購AI服務時,決策公式從來不是選最強的,而是選性價比最高的;當token便宜到忽略不計時,開發者不用再精打細算,可以大膽進行設計,從而催生出獨有的應用生態。
國產大模型廠商正在把大模型做成新時代的水電煤:便宜、穩定、隨取隨用。
按照商業發展的規律,最後贏的,往往不是技術最強的那個,而是讓技術變得最便宜、最普及的那個。
中國大模型顯然已經走在了這條路上。 (AI科技銳評)
