性能超DeepSeek-V3.2!中國大模型又開源了,限時免費用

100億啟動參數!MiniMax開源新模型M2,全球開源模型綜闔第一。

智東西10月27日報導,剛剛,MiniMax發佈並開源MiniMax-M2,一款為Max可視化程式設計和智能體工作流建構的輕量級模型。

▲MiniMax-M2在Hugging Face的開源介面截圖

MiniMax-M2聚焦智能體的效率提升,是一款總參數達2300億個的MoE(混合專家)模型,其中活躍參數達100億個,兼顧程式設計和智能體任務以及通用智能。

在權威基準測評中,MiniMax-M2的測試成績趕超Gemini 2.5 Pro、DeepSeek-V3.2等領先模型,接近GPT-5(thinking)模型性能,據稱可提供匹敵這些模型的端到端工具使用性能,同時部署和擴展更便捷

▲MiniMax-M2的基準測試概況

具體來看,MiniMax-M2有以下幾大亮點:

1、智能提升。根據知名分析機構Artificial Analysis的基準測試,MiniMax-M2在數學、科學、指令遵循、程式設計和智能體工具使用方面展現出具競爭力的通用智能。其綜合得分在全球開源模型中排名第一。

2、高級程式設計。MiniMax-M2專為端到端開發人員工作流程而設計,擅長多檔案編輯、編碼-運行-修復循環以及測試驗證修復。在Terminal-Bench和(Multi-)SWE-Bench風格的任務中展現了其在跨語言終端、IDE和CI中的實用有效性。

3、智能體性能。MiniMax-M2能夠規劃並執行跨Shell、瀏覽器、檢索和程式碼運行器的複雜、長周期工具鏈。在類似BrowseComp的評估中,它能夠持續定位難以發現的漏洞來源,保持證據的可追溯性,並優雅地從不穩定的步驟中恢復。

4、高效設計。MiniMax-M2擁有100億個啟動參數,可為互動式智能體和批次採樣提供更低的延遲、更低的成本和更高的吞吐量,這與向高度可部署的模型轉變契合,這些模型在程式設計和智能體任務中仍然表現出色。

以下更全面的評估測試了端到端程式設計和智能體工具的使用情況,涉及編輯真實的程式碼庫、執行命令、瀏覽網頁以及交付實用的解決方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。

▲MiniMax-M2的基準測試具體情況

Artificial Analysis統計的基準測試如下,MiniMax-M2在LiveCodeBench(LCB)、IFBench、AA Intelligence等多項測試中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等頂尖模型。

▲Artificial Analysis基準測試具體情況

目前,使用者可以在MiniMax Agent上體驗MiniMax-M2,在限定時間內免費用

▲MiniMax Agent限免使用

體驗地址:
https://agent.minimax.io/

智東西第一時間對MiniMax-M2進行了體驗,當輸入提示詞:“模擬一個旋轉六邊形內彈跳球。”MiniMax-M2能夠成功實現這一物理模擬,且提供了比較直觀的小球軌跡效果及參數控製麵板設計。這期間等待數分鐘,主要是其呼叫智能體對基本控制功能、面板參數偵錯、高級功能、網站顯示等進行了數次的測試偵錯。

▲MiniMax Agent生成的小球實驗模擬

體驗案例連結:
https://en6x2um63xa4.space.minimaxi.com/

當我把題目難度提高,輸入提示詞:“模擬一個旋轉六邊形內彈跳球,有兩個球體積相同,球a的質量是球b的2倍。”只見MiniMax-M2模擬的小球衝出了六邊形,與預期有一些出入,不過整個網站可調參數和呈現內容變得更加豐富。或許這一題目對一個輕量級模型來說還是有難度。

▲MiniMax Agent生成的小球實驗模擬

體驗案例連結:
https://bwr3exu4k4ph.space.minimaxi.com/

另外,MiniMax-M2 API已在MiniMax開放平台上線,同樣限時免費。MiniMax-M2模型權重現已開源,允許本地部署和使用。

API地址:
https://platform.minimax.io/docs/guides/text-generation

模型權重開源地址:
https://huggingface.co/MiniMaxAI/MiniMax-M2 (智東西)