4月30日上午,小米透過官方公眾號「Xiaomi MiMo」宣佈開源其首個推理大模型Xiaomi MiMo。從模型研發到開源落地,全程未透露任何風聲。
更引人注目的是,這次開放原始碼的MiMo-7B模型僅用70億參數規模,便在數學推理和代碼生成兩大核心任務中超越OpenAI閉源模型o1-mini及阿里Qwen的32B參數版本QwQ-32B-Preview。
在這次開源事件前,業內曾傳出小米大模型團隊引進關鍵人物的消息。根據多家媒體報導,前DeepSeek核心開發者羅福莉於2024年底加入小米,主導大模型研發。羅福莉碩士畢業於北京大學計算語言學專業,曾在阿里巴巴達摩院任職,因在國際頂會發表8篇論文而走紅。
多位小米內部人士向重點君證實,羅福莉確認已經加入小米。 “在雷軍辦公室外看到過她幾次。”
這是否為MiMo的誕生埋下伏筆?羅福莉前東家DeepSeek,正是推理模型最極致的玩家。小米官方雖未正面回應,但行業觀察人士普遍認為,頂尖人才的加入加速了小米在推理大模型領域的突破。
Xiaomi MiMo大模型的所有技術細節都已經公開,重點君剛讀完技術報告,給大家劃一下重點:
一、先說彩蛋。這份技術報告結尾核心貢獻者中未出現羅福莉,唯一有一位單獨用了代稱「CiCi 」。重點君認為,這位「CiCi 」很可能就是羅福莉。畢竟這麼重要的技術報告,除非有特別的原因,否則核心研究人員都願意署真名。
(以上推斷僅代表個人觀點,未經小米官方證實)
二、論文重點。《MiMo-7B技術報告》提出:
1 、MiMo-7B是一款專為複雜推理任務設計的大型語言模型,通過優化預訓練和後續訓練(強化學習)策略,顯著提升小模型(7B參數)在數學、代碼和通用推理任務上的性能,甚至超越部分32B規模的模型。
2、核心結論:
預訓練階段的高品質推理資料是模型潛力的基礎。
RL訓練中需平衡數學與程式碼任務的獎勵機制,避免語言混合問題。
輕量級SFT(僅對齊輸出格式)效果有限,需結合深層調整。
3.關鍵技術貢獻
預訓練優化
資料增強:優化資料預處理流程,保留數學公式和程式碼片段;結合高品質自然文字與合成推理資料(如STEM內容產生的分析和解題過程)。
三階段資料混合策略:逐步增加數學與程式碼資料的比例(最終佔70%),並擴展上下文長度至32K。
多令牌預測(MTP):引入平行預測未來多令牌的機制,提升推理速度(透過推測解碼加速產生)。
後續強化學習(RL)優化
資料品質:使用13萬可驗證的數學和程式設計問題,透過嚴格過濾保留高難度任務(如測試通過率低於90%的問題)。
獎勵機制:提出測試難度驅動的程式碼獎勵,依測試案例的通過率分層分配獎勵,緩解稀疏獎勵問題。
動態取樣與重採樣:動態過濾簡單問題,並通過10%機率重採樣穩定訓練。
基礎設施:開發Seamless Rollout Engine,整合非同步獎勵計算與連續取樣,訓練速度提升2.29倍,驗證速度提升1.96倍。
4.模型架構與訓練細節
架構:基於Transformer,整合Grouped-Query Attention、RoPE位置編碼和SwiGLU啟動函數。
訓練參數:預訓練25兆標記,分三階段調整學習率與批次大小;RL階段使用GRPO演算法,支援32K長上下文產生。
5.實驗結果
MiMo-7B-Base (預訓練模型)
在BBH(語言推理)得分75.2,顯著優於同類7B模型(如Qwen2.5-7B)。
數學推理(AIME 2024)得分32.9,代碼產生(LiveCodeBench v5)得分32.9,均大幅領先同規模模型。
MiMo-7B-RL (強化學習調優模型)
數學:AIME 2025得分55.4,超越OpenAI o1-mini(50.7)。
代碼:LiveCodeBench v6得分49.3,優於QwQ-32B-Preview(39.1)。
通用能力:在MMLU-Pro等基準測試中保持競爭力。
如果大家感興趣的,可以查看技術報告原文:
https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
目前MiMo-7B 已開源4個型號至HuggingFace:https://huggingface.co/XiaomiMiMo
從模型開源到終端落地,小米正試圖建構「晶片-演算法-裝置」的全端AI生態。 MiMo誕生,正是這場戰役的第一聲號角。
最後,為小米和雷總在AI領域的技術進展點贊。永遠相信美好的事情即將發生。 (劃重點KeyPoints)