MiniMax M2.5 正式發佈了,可以說這是一個相當優秀的國產模型,國產模型每一家都有自己的聚焦,MiniMax在進行的是極致最佳化,沒有過多花哨的技術實驗,專注於推出的是一款極其方便部署,價格具實惠,能幹活,性能對標世界頂尖的模型,咱也不尬吹,資料好看不代表真實體驗就好,但至少M2.5的確是在向真實生產環境可用和體驗在努力
我先放兩張圖大家感受一下
MiniMax的進化,看一下MiniMax M系列的來時路:
尺寸對比,這就有意思了,感覺具有極高的可用性,非常適合家庭實驗室部署,據說推理服務提供商或許能在這個模型上挖掘出驚人的每秒token生成速度
我們來看看MiniMax M 2.5 做到了什麼以及如何做到的
首先看硬指標,它在各項SOTA性能上表現搶眼:MiniMax 測試了Agent工作流程中最重要的三項基準測試:SWE-Bench(它能否真正修復真實程式碼庫中的真實錯誤)、BrowseComp(能否搜尋網路並找到正確的資訊)和 BFCL(能否可靠地呼叫工具)。測試結果分別為 80.2%、76.3% 和 76.8%
針對複雜任務,M2.5進行了執行效率的最佳化,速度提升了37%,速度提升聽起來似乎只是錦上添花,但當你運行一個Agent循環,模型在每個任務中呼叫自身 50 次以上時,速度的提升就顯得至關重要了
每秒100token運行,每小時成本僅需1美元,這讓長周期Agent的無限擴展在經濟上成為了可能。
具體來看,M2.5在以下幾個維度實現了突破。
像架構師一樣思考的程式碼能力
在程式設計評估中,M2.5相比前代產品有了顯著提升,達到了SOTA水平,尤其是在多語言程式設計任務中表現突出。
與以往最大的不同在於,M2.5展現出了軟體架構師的思維與規劃能力。在訓練過程中,模型湧現出了編寫規格說明書的傾向:在敲下第一行程式碼前,它會主動從資深架構師的視角出發,對項目的功能、結構和UI設計進行拆解與規劃。
在超過20萬個真實世界環境中,針對Go、Rust、Python、Java等10多種程式語言進行了訓練。這使得M2.5的能力遠超簡單的程式碼修復,而是覆蓋了複雜系統的完整開發生命周期:從0到1的系統設計與環境搭建,到1到10的開發,再到後續的功能迭代、程式碼審查和系統測試。
它能處理跨Web、Android、iOS和Windows的全端項目,涵蓋伺服器端API、業務邏輯和資料庫,而不僅僅是前端網頁的演示。
在更複雜的VIBE-Pro基準測試中,M2.5的表現與Opus 4.5持平。
在SWE-Bench Verified評估集的Droid和OpenCode不同程式碼代理框架下,M2.5的得分分別為79.7和76.1,均超越了Opus 4.6。
更精準的搜尋與工具呼叫
為了應對更複雜的任務,高效的工具呼叫和搜尋能力是必選項。
在BrowseComp和Wide Search等基準測試中,M2.5均取得了業界領先的成績。即便面對不熟悉的腳手架環境,它的表現也更加穩定。
針對現實中專業人士不僅僅是使用搜尋引擎,而是需要在資訊密集的網頁中進行深度探索的特點,MiniMax建構了RISE評估體系。結果顯示,M2.5在真實場景下的專家級搜尋任務中表現優異。
更重要的是決策效率的提升。相比前代M2.1,M2.5在解決同類任務時使用的輪次減少了約20%。這意味著模型不再僅僅是找對答案,而是在用更高效的路徑進行推理。
真正的辦公場景交付
M2.5在訓練之初就確立了產出可交付成果的目標。
通過與金融、法律和社會科學領域的資深專家深度合作,將行業隱性知識注入模型訓練流程。這使得M2.5在Word、PowerPoint和Excel金融建模等高價值工作場景中能力顯著提升。
在內部建構的Cowork Agent評估框架GDPval-MM中,通過對交付物質量和代理軌跡專業性的雙重評估,M2.5在與主流模型的對比中取得了59.0%的平均勝率。
極致的效率與成本控制
現實世界充滿各種deadline,速度即正義,現在模型都太貴了,我們急需要一款能打的便宜的模型
M2.5的原生服務速度達到每秒100 token,幾乎是其他前沿模型的兩倍。加上強化學習對高效推理的激勵,其在複雜任務上的時間節省效果明顯。
以運行SWE-Bench Verified為例,M2.5完成每個任務平均消耗352萬token,端到端執行階段間從31.3分鐘縮短至22.8分鐘,速度提升37%。這一速度與Claude Opus 4.6相當,但單任務總成本僅為後者的十分之一。
為了實現智能不僅強大而且便宜到無需計費的願景,M2.5推出了兩個版本:
M2.5-Lightning:穩定吞吐量每秒100 token,每百萬輸入token 0.3美元,輸出2.4美元。
M2.5:吞吐量每秒50 token,價格減半。
這意味著,以每秒100 token的速度連續運行一小時僅需1美元。如果以每秒50 token運行,價格降至0.3美元。換算下來,只需1萬美元,就可以讓4個M2.5實例連續運行一整年。
從去年10月下旬至今,M2系列經歷了三次迭代,改進速度超出了預期,特別是在SWE-Bench Verified基準上,進步速度明顯快於Claude、GPT和Gemini系列。
這一切進步的核心驅動力來自於強化學習的規模化。
MiniMax將公司內部的任務和工作空間轉化為RL訓練環境,目前已有數十萬個此類環境。
為了支援這種規模的訓練,團隊自研了代理原生RL框架Forge。該框架引入中間層,將底層訓練推理引擎與代理完全解耦,支援任意代理整合,並最佳化了模型在不同腳手架和工具間的泛化能力。通過最佳化非同步調度策略和樹狀結構的樣本合併策略,訓練速度提升了約40倍。
在演算法層面,沿用了CISPO演算法以確保MoE模型在大規模訓練中的穩定性,並引入過程獎勵機制來解決長上下文中的信用分配難題。
目前,M2.5已全面部署在MiniMax Agent中。
通過將核心資訊處理能力提煉為標準化的Office技能,當處理Word格式化、PPT編輯和Excel計算等任務時,Agent會自動載入相應技能。使用者還可以結合特定領域的行業SOP與Office技能,建構針對特定場景的專家。
例如在行業研究中,Agent可以嚴格遵循成熟的研究框架SOP,配合Word技能,自動抓取資料、梳理邏輯並輸出格式規範的研究報告,而非簡單的文字堆砌。
在MiniMax公司內部,M2.5已經承擔了日常營運中30%的任務,覆蓋研發、產品、銷售、HR和財務等部門。在編碼場景中,M2.5生成的程式碼更是佔到了新提交程式碼量的80%。 (AI寒武紀)