突發，小米降價99%，成價格屠夫！

2026/05/30

•

繼DeepSeek宣佈永久降價後，又一家國產大模型宣佈降價了。

5月27日凌晨，小米宣佈MiMo-V2.5系列API永久降價，最高降幅達99%，且不再區分輸入長度。

同時對Token Plan計費體系進行最佳化，同樣的套餐價格，用量提升至原來的5-8倍。

所有已訂閱Token Plan且在有效期內的使用者，從今天0點起全部重設按照新計費規則執行。

小米創始人雷軍，隨後在微博也轉發了這條降價消息。

公告顯示，MiMo-V2.5-Pro調價後，輸入快取命中價格降至0.025元/百萬tokens，輸入未命中快取3元/百萬tokens，輸出6元/百萬tokens。

它跟幾天前DeepSeek-V4-Pro宣佈降價後的價格剛好一致。

自今年年以來，國內頭部大模型廠商已掀起一輪持續、全面的降價潮，價格堪稱“白菜價”。

按照每百萬tokens的單價，Kimi-k2.6快取命中輸入價1.1元，快取未命中輸入價6.5元，輸出價27元。

其他模型價格具體如下圖：

而對比海外主流模型，國產大模型的價格優勢堪稱碾壓級。

MiMo-V2.5-Pro的輸入價格僅為Claude-opus-4.7的三十六分之一，輸出價格更是達到九十分之一。

在這樣巨大的價格差下，一些外國碼農都受不了，反向代購中國大模型。

極具反差的是，當國內模型token降價的同時，底層的硬體、雲算力成本卻在持續暴漲。

全球AI算力、雲服務、硬體裝置全面進入漲價周期，徹底終結了雲端運算二十年“只降不升”的行業慣例。

國內阿里雲、騰訊雲、百度智能雲三大頭部廠商，先後上調AI算力產品價格，漲幅區間5%-34%。

同時，高性能儲存、算力租賃、伺服器整機價格同步上漲，輝達H100 GPU年租賃價格漲幅近40%，部分騰訊雲AI算力服務漲幅更是高達400%，海外AWS、Google雲同步跟進漲價，全球AI底層算力成本全面走高。

按理說，上游成本上漲必然帶動下游模型漲價，但國產大模型卻反向降價，它們的利潤都從那裡來？

答案藏在推理效率裡。

大模型API的成本結構正在發生質變。過去，成本大頭是模型訓練和參數儲存；現在，隨著模型開源、蒸餾技術成熟，訓練成本被攤薄，真正的戰場轉移到了推理環節：如何讓每一次API呼叫的算力消耗更低、吞吐更高、延遲更短。

尤其是在長上下文、Agent、多輪對話場景下，真正的吞金獸是KV Cache。

可以把它理解為模型推理時對上下文的“記憶”。上下文越長，快取就越龐大，吃掉的視訊記憶體也越恐怖。很多長上下文模型定價高昂，本質上不是因為“更聰明”，而是快取成本居高不下。

小米這次的技術攻堅，正是衝著這個痛點去的。

DeepSeek V4系列之所以敢定價0.025元，也是因為在推理框架、快取系統和叢集調度上做了深度最佳化。

硬體貴了，但單位token消耗的算力下降得更快。

另外，薄利多銷的邏輯在這裡依然有效。模型降價後，開發者不再吝嗇呼叫量，Agent框架、多輪對話、長文件分析的消耗量會指數級增長。

於是到這裡就會產生一個問題：

當中國大模型價格只是美國的頂尖模型十分之一，而功能卻能達到百分之八九十，那麼這場模型大戰，中國憑什麼輸？

過去兩年裡，業界普遍有一種擔憂：中國在基礎模型能力上始終落後OpenAI和Anthropic半步，從GPT-4到Claude 3.5再到GPT-5.5，每次發佈都在拉大差距。這種焦慮是真實的。

但價格帶來的強勁競爭力，也是客觀的。

企業在採購AI服務時，決策公式從來不是選最強的，而是選性價比最高的；當token便宜到忽略不計時，開發者不用再精打細算，可以大膽進行設計，從而催生出獨有的應用生態。

國產大模型廠商正在把大模型做成新時代的水電煤：便宜、穩定、隨取隨用。

按照商業發展的規律，最後贏的，往往不是技術最強的那個，而是讓技術變得最便宜、最普及的那個。

中國大模型顯然已經走在了這條路上。 (AI科技銳評)