來自MiniMax M2.5的震撼：小尺寸幾乎打平opus4.6，巨便宜，巨能幹活，速度巨快

2026/02/13

•

MiniMax M2.5 正式發佈了，可以說這是一個相當優秀的國產模型，國產模型每一家都有自己的聚焦，MiniMax在進行的是極致最佳化，沒有過多花哨的技術實驗，專注於推出的是一款極其方便部署，價格具實惠，能幹活，性能對標世界頂尖的模型，咱也不尬吹，資料好看不代表真實體驗就好，但至少M2.5的確是在向真實生產環境可用和體驗在努力

我先放兩張圖大家感受一下

MiniMax的進化，看一下MiniMax M系列的來時路：

尺寸對比，這就有意思了，感覺具有極高的可用性，非常適合家庭實驗室部署,據說推理服務提供商或許能在這個模型上挖掘出驚人的每秒token生成速度

我們來看看MiniMax M 2.5 做到了什麼以及如何做到的

MiniMax M 2.5做到了什麼

首先看硬指標，它在各項SOTA性能上表現搶眼：MiniMax 測試了Agent工作流程中最重要的三項基準測試：SWE-Bench（它能否真正修復真實程式碼庫中的真實錯誤）、BrowseComp（能否搜尋網路並找到正確的資訊）和 BFCL（能否可靠地呼叫工具）。測試結果分別為 80.2%、76.3% 和 76.8%

針對複雜任務，M2.5進行了執行效率的最佳化，速度提升了37%，速度提升聽起來似乎只是錦上添花，但當你運行一個Agent循環，模型在每個任務中呼叫自身 50 次以上時，速度的提升就顯得至關重要了

每秒100token運行，每小時成本僅需1美元，這讓長周期Agent的無限擴展在經濟上成為了可能。

具體來看，M2.5在以下幾個維度實現了突破。

像架構師一樣思考的程式碼能力

在程式設計評估中，M2.5相比前代產品有了顯著提升，達到了SOTA水平，尤其是在多語言程式設計任務中表現突出。

與以往最大的不同在於，M2.5展現出了軟體架構師的思維與規劃能力。在訓練過程中，模型湧現出了編寫規格說明書的傾向：在敲下第一行程式碼前，它會主動從資深架構師的視角出發，對項目的功能、結構和UI設計進行拆解與規劃。

在超過20萬個真實世界環境中，針對Go、Rust、Python、Java等10多種程式語言進行了訓練。這使得M2.5的能力遠超簡單的程式碼修復，而是覆蓋了複雜系統的完整開發生命周期：從0到1的系統設計與環境搭建，到1到10的開發，再到後續的功能迭代、程式碼審查和系統測試。

它能處理跨Web、Android、iOS和Windows的全端項目，涵蓋伺服器端API、業務邏輯和資料庫，而不僅僅是前端網頁的演示。

在更複雜的VIBE-Pro基準測試中，M2.5的表現與Opus 4.5持平。

在SWE-Bench Verified評估集的Droid和OpenCode不同程式碼代理框架下，M2.5的得分分別為79.7和76.1，均超越了Opus 4.6。

更精準的搜尋與工具呼叫

為了應對更複雜的任務，高效的工具呼叫和搜尋能力是必選項。

在BrowseComp和Wide Search等基準測試中，M2.5均取得了業界領先的成績。即便面對不熟悉的腳手架環境，它的表現也更加穩定。

針對現實中專業人士不僅僅是使用搜尋引擎，而是需要在資訊密集的網頁中進行深度探索的特點，MiniMax建構了RISE評估體系。結果顯示，M2.5在真實場景下的專家級搜尋任務中表現優異。

更重要的是決策效率的提升。相比前代M2.1，M2.5在解決同類任務時使用的輪次減少了約20%。這意味著模型不再僅僅是找對答案，而是在用更高效的路徑進行推理。

真正的辦公場景交付

M2.5在訓練之初就確立了產出可交付成果的目標。

通過與金融、法律和社會科學領域的資深專家深度合作，將行業隱性知識注入模型訓練流程。這使得M2.5在Word、PowerPoint和Excel金融建模等高價值工作場景中能力顯著提升。

在內部建構的Cowork Agent評估框架GDPval-MM中，通過對交付物質量和代理軌跡專業性的雙重評估，M2.5在與主流模型的對比中取得了59.0%的平均勝率。

極致的效率與成本控制

現實世界充滿各種deadline，速度即正義，現在模型都太貴了，我們急需要一款能打的便宜的模型

M2.5的原生服務速度達到每秒100 token，幾乎是其他前沿模型的兩倍。加上強化學習對高效推理的激勵，其在複雜任務上的時間節省效果明顯。

以運行SWE-Bench Verified為例，M2.5完成每個任務平均消耗352萬token，端到端執行階段間從31.3分鐘縮短至22.8分鐘，速度提升37%。這一速度與Claude Opus 4.6相當，但單任務總成本僅為後者的十分之一。

為了實現智能不僅強大而且便宜到無需計費的願景，M2.5推出了兩個版本：

M2.5-Lightning：穩定吞吐量每秒100 token，每百萬輸入token 0.3美元，輸出2.4美元。

M2.5：吞吐量每秒50 token，價格減半。

這意味著，以每秒100 token的速度連續運行一小時僅需1美元。如果以每秒50 token運行，價格降至0.3美元。換算下來，只需1萬美元，就可以讓4個M2.5實例連續運行一整年。

從去年10月下旬至今，M2系列經歷了三次迭代，改進速度超出了預期，特別是在SWE-Bench Verified基準上，進步速度明顯快於Claude、GPT和Gemini系列。

MiniMax M 2.5如何做到的

這一切進步的核心驅動力來自於強化學習的規模化。

MiniMax將公司內部的任務和工作空間轉化為RL訓練環境，目前已有數十萬個此類環境。

為了支援這種規模的訓練，團隊自研了代理原生RL框架Forge。該框架引入中間層，將底層訓練推理引擎與代理完全解耦，支援任意代理整合，並最佳化了模型在不同腳手架和工具間的泛化能力。通過最佳化非同步調度策略和樹狀結構的樣本合併策略，訓練速度提升了約40倍。

在演算法層面，沿用了CISPO演算法以確保MoE模型在大規模訓練中的穩定性，並引入過程獎勵機制來解決長上下文中的信用分配難題。

M2.5的實戰演練

目前，M2.5已全面部署在MiniMax Agent中。

通過將核心資訊處理能力提煉為標準化的Office技能，當處理Word格式化、PPT編輯和Excel計算等任務時，Agent會自動載入相應技能。使用者還可以結合特定領域的行業SOP與Office技能，建構針對特定場景的專家。

例如在行業研究中，Agent可以嚴格遵循成熟的研究框架SOP，配合Word技能，自動抓取資料、梳理邏輯並輸出格式規範的研究報告，而非簡單的文字堆砌。

在MiniMax公司內部，M2.5已經承擔了日常營運中30%的任務，覆蓋研發、產品、銷售、HR和財務等部門。在編碼場景中，M2.5生成的程式碼更是佔到了新提交程式碼量的80%。 (AI寒武紀)

科技

來自MiniMax M2.5的震撼 ：小尺寸幾乎打平opus4.6，巨便宜，巨能幹活，速度巨快

MiniMax M 2.5做到了什麼

MiniMax M 2.5如何做到的

M2.5的實戰演練

來自MiniMax M2.5的震撼：小尺寸幾乎打平opus4.6，巨便宜，巨能幹活，速度巨快