#數學推理
MiniMax-M1 重磅開源!超越DeepSeek R1,媲美Gemini 2.5 Pro和Claude 4 Opus
MiniMax 深夜開源了訓練成本只要53萬美元的開源模型M1,輸出長度達到8萬Token!MiniMax 放出了一顆重磅炸彈——MiniMax-M1,這是全球首個開放原始碼的大規模混合注意力推理模型。這個模型最炸裂的地方在那?100萬Token的輸入,8萬Token的輸出,這個上下文窗口長度直接刷新了開源模型的紀錄。更離譜的是,M1 的訓練成本只要53.47萬美元!要知道,現在訓練一個大模型動輒就是幾千萬美元起步,MiniMax這波操作屬實是把成本打到了地板上。性能碾壓一眾大佬看看官方放出的跑分資料,MiniMax-M1在多個維度上的表現都相當炸裂。在數學推理任務AIME 2024上,MiniMax-M1-80K拿到了86.0分,雖然比不上DeepSeek-R1-0528的91.4分,但已經超過了Claude 4 Opus的76.0分。更牛的是在程式設計任務上,LiveCodeBench的測試中,MiniMax-M1拿到了65.0分,直接把DeepSeek-R1原版的55.9分甩在身後。擁有13.6萬粉絲的AI研究員Aran Komatsuzaki(@arankomatsuzaki)興奮評價稱:MiniMax-M1是一款開源大型語言模型,具備46億活躍參數,展現出幾乎達到最新技術水平的推理和自主智能代理能力。研究員Wenhu Chen(@WenhuChen) 表示:該模型表現優異但發佈低調,顯示了該模型在多項指標上的強勁實力。開源社區炸鍋了消息一出,整個AI圈都沸騰了。Hugging Face的訓練LLM工程師elie(@eliebakouch)激動地回應:走起來了 😍Hugging Face的首席"get-shit-done"官Vaibhav (VB) Srivastav(@reach_vb)更是連發多條推文:太強了!!你們太牛了!而且還是Apache許可證,愛了愛了Minimax M1 456B支援百萬上下文,性能優於DeepSeek R1和Qwen 235B。AI 研究員Florian S(@airesearch12)看到LiveCodeBench的成績後直接驚呼:臥槽,這真的太強了!你告訴我一個開源模型在LiveCodeBench上打敗了Opus 4?!vLLM團隊(@vllm_project)神速響應:vLLM團隊確認已在Day 1支援該模型的推理運行,並行布了相關適配補丁。獨立開發者Johnny(@j4redux)感嘆:1百萬上下文窗口 + 4萬輸出在tau bench retail上超越了gemini 2.5 pro——太瘋狂了!技術細節:混合架構的魔力翻看技術報告,MiniMax-M1的成功離不開幾個關鍵創新。首先是混合專家(MoE)架構結合閃電注意力機制。模型總參數量456億,但每個Token啟動的參數隻有45.9億,這種設計既保證了性能又控制了計算成本。更重要的是他們提出的CISPO演算法——一種新穎的強化學習演算法,通過裁剪重要性採樣權重而非Token更新,顯著提升了訓練效率。Google DeepMind研究員rohan anil(@arohan)從技術角度深入分析:根據近期論文的分析,推理時間的核心限制是KV(key-value)記憶訪問。該訪問成本與生成長度呈二次關係。MiniMax-M1包含10個完整的Attention層,其KV維度為128×8×2=2048,而對比模型R1的KV維度為576。這種混合架構設計讓MiniMax-M1在處理10萬Token生成任務時,計算量只有DeepSeek R1的25%。矽谷開發者valn1x(@valn1x)爆料:這比o1的訓練效率高了15000-20000倍。這是實際數字。Chubby♨️(@kimmonismus)總結道:天那!該模型支援世界上最長的上下文窗口:可處理100萬令牌的輸入和8萬令牌的輸出。採用強化學習訓練,訓練成本僅為53.47萬美元,效率領先。實戰案例展示興奮的網友們紛紛上手,貢獻了無數的 M1 實操case(都不用我上手了)——可以看到了M1 模型的真正實力。UI元件生成只需一個提示詞,M1就能即時建構帶有canvas動畫粒子背景的HTML頁面:互動式應用開發讓M1建立一個打字速度測試應用,它生成了一個乾淨、功能完善的Web應用,可以即時追蹤WPM(每分鐘字數):可視化工具建立帶有canvas動畫粒子背景的HTML頁面,粒子能夠平滑移動並在接近時連接:遊戲開發M1還能建立迷宮生成器和路徑尋找可視化工具,隨機生成迷宮並逐步可視化A*演算法求解過程:部署指南MiniMax提供了兩個版本供選擇:1. MiniMax-M1-80k版本(8萬Token思考預算):from transformers import AutoTokenizer, AutoModelForCausalLM# 載入模型和分詞器model_name = "MiniMaxAI/MiniMax-M1-80k"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)# 使用模型進行推理inputs = tokenizer("你的輸入文字", return_tensors="pt")outputs = model.generate(**inputs, max_length=80000)response = tokenizer.decode(outputs[0])2. MiniMax-M1-40k版本(輕量版,4萬Token思考預算):model_name = "MiniMaxAI/MiniMax-M1-40k"# 其餘程式碼與上面相同AI 專家Alexandre Strube(@alexandre_ganso) 則關心硬體要求,:推薦的推理硬體,我猜測需要8x GH200 144GB,還是96GB的就夠了?而手快的Novita AI(@novita_labs) 則已經第一時間提供了API 服務:Minimax-M1已在Novita上線!世界首個開放原始碼的大規模混合注意力推理模型!💰0.55/0.55/2.2 per 1M tokens (輸入/輸出)展望前銀行軟體工程師Lincoln 🇿🇦(@Presidentlin)的評論道出了很多人的心聲:歡迎回到開源陣營 💙北歐AI研究院(@nordicinst)評價:MiniMax-M1是一款開源人工智慧模型,具備高達1,000,000個令牌的上下文處理能力,同時採用了一種超高效的強化學習技術。該模型旨在為北歐地區的AI創新者提供強大且經濟的解決方案。MiniMax這次的開源舉動,收穫了全球網友的全面認可,也展示了其在AI領域的全面實力。(不過我想說的是,你們除了棒、好、酷、牛之外,就不會點其他的了嗎?……作為成立於2021年的中國AI公司,除了這次開放原始碼的M1模型,MiniMax還擁有Hailuo AI視訊生成平台、月活近3000萬的Talkie AI角色扮演平台,以及服務全球4萬多家企業的API平台。MiniMax-M1的發佈,不僅展示了中國AI公司在大模型技術上的突破,更重要的是為全球開源社區注入了新活力。53萬美元訓練出一個性能如此強悍的模型,這個成就讓整個AI界重新思考大模型發展的方向。這標誌著開源領域在長上下文理解和高效強化學習訓練方面取得的重要進展,也預示著國產開源模型正在國際舞台上發揮越來越重要的影響力。而這,還只是 5 天發佈的Day 1。 (AGI Hunt)
小米首個推理大模型突然開源!股價上漲近5%
性能超OpenAI o1-mini,26頁技術報告公開。智東西4月30日報導,今日,小米開源其首個推理大模型Xiaomi MiMo。其中經強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上均表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。MiMo是新成立不久的小米大模型Core團隊的初步嘗試,4款MiMo-7B模型(基礎模型、SFT模型、基於基礎模型訓練的強化學習模型、基於SFT模型訓練的強化學習模型)均開源至Hugging Face。程式碼庫採用Apache2.0許可證授權。開源地址:https://huggingface.co/XiaomiMiMo小米大模型Core團隊已公開MiMo的26頁技術報告。技術報告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf受此消息提振,截至午間休市,小米集團今日股價上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。01.預訓練+後訓練,聯動提升推理能力MiMo系列模型從零開始訓練,其推理能力的提升由預訓練和後訓練階段中資料和演算法等多層面的創新聯合驅動,包括:預訓練:核心是讓模型見過更多推理模式資料:著重挖掘富推理語料,併合成約200B tokens推理資料。訓練:採用三階段資料混合策略,逐步提升訓練難度,MiMo-7B-Base在約25T tokens上進行預訓練;受DeepSeek-V3啟發,將多token預測作為額外的訓練目標,以增強模型性能並加速推理。▲使用MiMo-7B實現多token預測:在預訓練期間使用單個MTP層,推理階段可使用多個MTP層以獲得額外的加速後訓練:核心是高效穩定的強化學習演算法和框架演算法:提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling 策略,以穩定強化學習訓練。資料:精選了13萬道數學和程式碼題作為強化學習訓練資料,可供基於規則的驗證器進行驗證。每道題都經過仔細的清理和難度評估,以確保質量。僅採用基於規則的精準率獎勵機制,以避免潛在的獎勵駭客攻擊。框架:設計了Seamless Rollout系統,整合了連續部署、非同步獎勵計算和提前終止功能,以最大限度地減少GPU空閒時間,使得強化學習訓練加速2.29倍,驗證加速1.96倍。▲MiMo-7B-RL Seamless Rollout引擎概覽02. 7B強化學習模型,性能超過阿里32B模型和OpenAI o1-mini小米大模型Core團隊將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規模相當的開源基礎模型進行了比較,所有模型評估都共享相同的評估設定。結果如圖所示,MiMo-7B-Base在所有基準和評估的k值取得了高於其他對比模型的pass@k分數。隨著k增加,MiMo-7B-Base與其他模型的分數差距穩步拉大,特別是在LiveCodeBench上。在評估語言推理模型的BBH基準測試上,MiMo-7B-Base的分數為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準測試結果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現。在閱讀理解基準測試DROP上,該模型的表現優於其他對比模型。在程式碼和數學推理任務中,MiMo-7B-Base的多項分數超過Llama-3.1-8B、Gemma-2-9B。MiMo-7B-Base在支援的32K上下文長度內實現了近乎完美的NIAH檢索性能,並在需要長上下文推理的任務中表現出色,多數情況下分數都超過了Qwen2.5-7B。這些結果驗證了其在預訓練期間將多樣化資料與高品質推理模式相結合的策略的有效性。▲RULER上的長上下文理解結果MiMo-7B-RL在多項通用基準測試接近或超過擁有32B參數規模的QwQ-32B Preview模型,數學和程式碼性能更是全面領先。在數學基準測試AIME 2025測試、程式碼基準測試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。MiMo-7B系列4款大模型的多項數學和程式碼測試對比如下:03. 結語:今年大模型的三大熱潮,小米MiMo一舉覆蓋今年,在DeepSeek爆紅後,開源和推理迅速成為大模型領域的熱門風向。如今低調許久的小米也正式加入這一戰局。作為國產手機頭部企業之一,小米這次開放原始碼的四款模型參數規模只有7B,小到可以滿足在端側裝置上本地運行的需求,貼合了大模型的另一大趨勢——從卷參數規模轉向追求經濟高效。通過在預訓練和後訓練過程中的多項創新聯動,MiMo-7B-Base在數學、程式碼和通用任務上都展現了出色的推理能力。這項研究可以為開發更強大的推理模型提供參考。 (智東西)