突發,小米降價99%,成價格屠夫!

繼DeepSeek宣佈永久降價後,又一家國產大模型宣佈降價了。

5月27日凌晨,小米宣佈MiMo-V2.5系列API永久降價,最高降幅達99%,且不再區分輸入長度。

同時對Token Plan計費體系進行最佳化,同樣的套餐價格,用量提升至原來的5-8倍。

所有已訂閱Token Plan且在有效期內的使用者,從今天0點起全部重設按照新計費規則執行。

小米創始人雷軍,隨後在微博也轉發了這條降價消息。

01. 國產模型降成白菜價對比國外模型價格優勢明顯

公告顯示,MiMo-V2.5-Pro調價後,輸入快取命中價格降至0.025元/百萬tokens,輸入未命中快取3元/百萬tokens,輸出6元/百萬tokens。

它跟幾天前DeepSeek-V4-Pro宣佈降價後的價格剛好一致。

自今年年以來,國內頭部大模型廠商已掀起一輪持續、全面的降價潮,價格堪稱“白菜價”。

按照每百萬tokens的單價,Kimi-k2.6快取命中輸入價1.1元,快取未命中輸入價6.5元,輸出價27元。

其他模型價格具體如下圖:

而對比海外主流模型,國產大模型的價格優勢堪稱碾壓級。

MiMo-V2.5-Pro的輸入價格僅為Claude-opus-4.7的三十六分之一,輸出價格更是達到九十分之一。

在這樣巨大的價格差下,一些外國碼農都受不了,反向代購中國大模型。

02. 硬體和雲在暴漲,token在暴跌利潤到底從那來?

極具反差的是,當國內模型token降價的同時,底層的硬體、雲算力成本卻在持續暴漲。

全球AI算力、雲服務、硬體裝置全面進入漲價周期,徹底終結了雲端運算二十年“只降不升”的行業慣例。

國內阿里雲、騰訊雲、百度智能雲三大頭部廠商,先後上調AI算力產品價格,漲幅區間5%-34%。

同時,高性能儲存、算力租賃、伺服器整機價格同步上漲,輝達H100 GPU年租賃價格漲幅近40%,部分騰訊雲AI算力服務漲幅更是高達400%,海外AWS、Google雲同步跟進漲價,全球AI底層算力成本全面走高。

按理說,上游成本上漲必然帶動下游模型漲價,但國產大模型卻反向降價,它們的利潤都從那裡來?

答案藏在推理效率裡。

大模型API的成本結構正在發生質變。過去,成本大頭是模型訓練和參數儲存;現在,隨著模型開源、蒸餾技術成熟,訓練成本被攤薄,真正的戰場轉移到了推理環節:如何讓每一次API呼叫的算力消耗更低、吞吐更高、延遲更短。

尤其是在長上下文、Agent、多輪對話場景下,真正的吞金獸是KV Cache。

可以把它理解為模型推理時對上下文的“記憶”。上下文越長,快取就越龐大,吃掉的視訊記憶體也越恐怖。很多長上下文模型定價高昂,本質上不是因為“更聰明”,而是快取成本居高不下。

小米這次的技術攻堅,正是衝著這個痛點去的。

DeepSeek V4系列之所以敢定價0.025元,也是因為在推理框架、快取系統和叢集調度上做了深度最佳化。

硬體貴了,但單位token消耗的算力下降得更快。

另外,薄利多銷的邏輯在這裡依然有效。模型降價後,開發者不再吝嗇呼叫量,Agent框架、多輪對話、長文件分析的消耗量會指數級增長。

03. 中美大模型之戰誰是贏家

於是到這裡就會產生一個問題:

當中國大模型價格只是美國的頂尖模型十分之一,而功能卻能達到百分之八九十,那麼這場模型大戰,中國憑什麼輸?

過去兩年裡,業界普遍有一種擔憂:中國在基礎模型能力上始終落後OpenAI和Anthropic半步,從GPT-4到Claude 3.5再到GPT-5.5,每次發佈都在拉大差距。這種焦慮是真實的。

但價格帶來的強勁競爭力,也是客觀的。

企業在採購AI服務時,決策公式從來不是選最強的,而是選性價比最高的;當token便宜到忽略不計時,開發者不用再精打細算,可以大膽進行設計,從而催生出獨有的應用生態。

國產大模型廠商正在把大模型做成新時代的水電煤:便宜、穩定、隨取隨用。

按照商業發展的規律,最後贏的,往往不是技術最強的那個,而是讓技術變得最便宜、最普及的那個。

中國大模型顯然已經走在了這條路上。 (AI科技銳評)