MiniMax發佈M2.5模型:1美元運行1小時,價格僅為GPT-5的1/20,性能比肩Claude Opus

M2.5模型實現性能與成本的雙重突破。價格僅為GPT-5等主流模型的1/10至1/20。性能比肩Claude Opus,在多語言程式設計測試Multi-SWE-Bench奪冠,任務完成速度較上代提升37%。採用原生Agent強化學習框架,內部已有30%任務由AI自主完成,程式設計場景程式碼生成佔比達80%。

MiniMax推出了其最新迭代的M2.5系列模型,在保持行業領先性能的同時,大幅降低了推理成本,試圖解決複雜Agent應用在經濟上不可行的痛點,並宣稱其在程式設計、工具呼叫及辦公場景中已達到或刷新了行業SOTA(當前最佳)水平。

2月13日,MiniMax公佈的資料顯示,M2.5展現了顯著的價格優勢。在每秒輸出50個token的版本下,其價格僅為Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20。

在每秒輸出100個token的高速運行環境下,M2.5連續工作一小時的成本僅需1美元,若降至50 token/秒,成本進一步下探至0.3美元。這意味著1萬美元的預算足以支撐4個Agent連續工作一年,極大地降低了建構和營運大規模Agent叢集的門檻。

在性能維度,M2.5在核心程式設計測試中表現強勁,並在多語言任務Multi-SWE-Bench上取得第一,整體水平比肩Claude Opus系列。同時,模型最佳化了對複雜任務的拆解能力,在SWE-Bench Verified測試中,完成任務的速度較上一代M2.1提升了37%,端到端執行階段間縮短至22.8分鐘,與Claude Opus 4.6持平

目前,MiniMax內部業務已率先驗證了該模型的能力。資料顯示,其內部30%的整體任務已由M2.5自主完成,覆蓋研發、產品、銷售等核心職能。特別是在程式設計場景中,M2.5生成的程式碼已佔據新提交程式碼的80%,顯示出該模型在真實生產環境中的高滲透率和可用性。

01. 擊穿成本底線:無限運行Agent的經濟可行性

M2.5的設計初衷是消除運行複雜Agent的成本約束。MiniMax通過最佳化推理速度和token效率實現了這一目標。模型提供100 TPS(每秒傳輸事務處理量)的推理速度,約為當前主流模型的兩倍。

除了單純的算力成本降低,M2.5通過更高效的任務拆解和決策邏輯,減少了完成任務所需的token總量。

在SWE-Bench Verified評測中,M2.5平均每個任務消耗3.52M token,低於M2.1的3.72M。

速度與效率的雙重提升,使得企業在經濟上幾乎可以無限制地建構和營運Agent,將競爭焦點從成本轉移至模型能力的迭代速度上。

02. 程式設計能力進階:像架構師一樣思考與建構

在程式設計領域,M2.5不僅關注程式碼生成,更強調系統設計能力。模型演化出了原生的Spec(規格說明書)行為,能夠以架構師視角在編碼前主動拆解功能、結構和UI設計。

該模型在超過10種程式語言(包括GO、C++、Rust、Python等)和數十萬個真實環境中進行了訓練。

測試顯示,M2.5能勝任從系統設計(0-1)、開發(1-10)到功能迭代(10-90)及最終程式碼審查(90-100)的全流程。

為了驗證其在不同開發環境下的泛化性,MiniMax在Droid和OpenCode等程式設計腳手架上進行了測試。

結果顯示,M2.5在Droid上的通過率為79.7,在OpenCode上為76.1,均優於上一代模型及Claude Opus 4.6。

03. 複雜任務處理:更高效的搜尋與專業交付

在搜尋和工具呼叫方面,M2.5展示了更高的決策成熟度,不再單純追求“做對”,而是尋求以更精簡的路徑解決問題。

在BrowseComp、Wide Search和RISE等多項任務中,M2.5相較於前代節省了約20%的輪次消耗,以更優的token效率逼近結果。

針對辦公場景,MiniMax通過與金融、法律等領域資深從業者合作,將行業隱性知識融入模型訓練。

在內部建構的Cowork Agent評測框架(GDPval-MM)中,M2.5在與主流模型的兩兩對比中取得了59.0%的平均勝率,能夠輸出符合行業標準的Word研報、PPT及複雜的Excel財務模型,而非簡單的文字生成。

04. 技術底座:原生Agent RL框架驅動線性提升

M2.5性能提升的核心驅動力來自於大規模強化學習(RL)。

MiniMax採用了名為Forge的原生Agent RL框架,通過引入中間層解耦了底層訓推引擎與Agent,支援任意腳手架的接入。

在演算法層面,MiniMax沿用了CISPO演算法以保障MoE模型在大規模訓練中的穩定性,並針對Agent長上下文帶來的信用分配難題,引入了過程獎勵機制(Process Reward)。

此外,工程團隊最佳化了非同步調度策略和樹狀合併訓練樣本策略,實現了約40倍的訓練加速,驗證了模型能力隨算力和任務數增加呈現近線性提升的趨勢。

目前,M2.5已在MiniMax Agent、API及Coding Plan中全量上線,其模型權重也將在HuggingFace開源,支援本地部署。 (硬AI)


有人買來試過嗎?
我沒拿來玩openclaw, 有問一些一般性的問題,確實不太行。不過拿來寫程式,還行。但是.... 因為只能搭配cline/openrouter,所以token耗很兇。如此算來,不一定比一般訂閱的划算,所以可能還是會訂閱一家,用超過的搭配這套。可能這樣最省
我買了 minimax starter 的年約,跑 openclaw,坦白說,根本浪費錢幻覺率很高,圖片無法正常辨識,要求要繁體回覆,一樣動不動就又跳出簡體回覆中間也常常有一些小錯誤看到這種報導文章,只能說無言