#MiMo
大模型新選手入場!小米拋出首個開源推理大模MiMo,超越o1-mini和阿里QwQ-32B
小米發力大模型國內大模型發展進入後半段的當下,正式殺進來一位新選手,這回是愛跨界的小米,選擇走開源技術路線。今天,小米旗下公眾號官宣推出首個推理大模型Xiaomi  MiMo-7B,引發外界關注,據悉,這是一款專為推理任務而生的大語言模型,由新成立不久的“小米大模型Core團隊”開發。MiMo-7B在預訓練和後訓練階段均進行了最佳化,小米大模型團隊給出的評估表示,MiMo-7B基礎模型擁有不錯的推理潛力,經過最終強化學習調整後的模型MiMo-7B-RL在數學、程式碼和通用推理任務上表現突出,超越了OpenAI的o1-mini模型以及阿里Qwen系列中更大規模的推理模型。既造手機又造車,既佈局IoT生活家電又搞機器人的小米堪稱科技公司中的“跨界王”,在2024年小米集團收入3659億元創歷史新高,選擇當下進軍AGI、發力AI大模型可謂“糧草”充足,或將給大模型賽道帶來新一輪市場攪動。小米的輕量模式創新根據MiMo-7B論文介紹,小米大模型團隊認為強化學習訓練的推理模型的有效性依賴於基礎模型的內在推理潛力,為了充分釋放語言模型的推理潛力,不僅要專注於後訓練階段,還必須致力於為推理量身定製的預訓練策略。在預訓練階段,小米大模型團隊改進了資料預處理流程,並採用了三階段資料混合策略,以增強基礎模型的推理潛力,MiMo-7B基礎模型在25億個詞元上進行了預訓練,還增加了多詞元預測目標,以提升效能並加快推理速度。在後訓練階段,則精心整理了一個包含13萬個可驗證的數學和程式設計問題的資料集用於強化學習,整合了一種由測試難度驅動的程式碼獎勵機制,以緩解稀疏獎勵問題,並採用了策略性的資料重採樣方法來穩定訓練過程。在強化學習(RL)基礎設施方面,小米團隊開發了一個無縫採樣引擎,整合了連續採樣、非同步獎勵計算以及提前終止機制,從而將GPU的閒置時間降至最低,實現了訓練速度提升2.29倍,驗證速度提升1.96倍。並且在vLLM(一種高效的語言模型推理庫)中支援多詞元預測(MTP),增強了強化學習系統中推理引擎的穩健性。首批開源了四個模:MiMo-7B基礎模型的表現優於約70億參數的當前最優(SoTA)開源模型;MiMo-7B-RL-Zero在數學和程式碼任務上超越了320億參數基礎模型的強化學習訓練性能;MiMo-7B-RL取得了出色的推理性能;以及一個MiMo-7B監督模型。小米大模型團隊在推文中表示,2025年雖看似是大模型逐夢的後半程,但堅信AGI的征途仍漫長,所以將從務實創新出發,勇敢探索未知,用思考突破智能邊界,用創造回應每一次好奇,同時還順帶提了一下團隊正在招募技術人才的需求。中國包攬AI開源梯隊目前,中國開源大模型已經包攬全球開源模型陣營的第一梯隊。入局的開源選手有阿里Qwen、DeepSeek、騰訊混元、智譜AI、崑崙萬維、階躍星辰、百川智能以及即將開放原始碼的百度等等,競爭非常激烈,技術角逐也呈現出多樣化特點,涵蓋模型訓練最佳化、多模態融合、低成本能等多個重要領域,目前下半場,下半場。美國頂尖AI大模型陣營有Google、OpenAI、Anthropic、XAI、Meta等,國內有阿里、騰訊、百度、字節跳動、DeepSeek等對。先前,在開源賽道領跑的是AI圈黑馬DeepSeek,在2024年12月推出開源模型DeepSeek-V3,創新自研MoE模型,訓練成本僅557.6萬美元,在性能上超越眾多開源模型,比肩OpenAI頂級閉源模型GPT-4o,一經發佈DeepSeek趁熱打鐵在2025年1月20日推出R1推理模型,在數學、程式碼、自然語言推理等領域實力與OpenAI o1正式版性能相當,且完全開源,直接奠定了市場地位,最近傳聞R2模型呼之慾出。發展開源模型最為迅猛的阿里依靠Qwen系列模型迅速趕超上了DeepSeek和Meta。日前,新發佈的Qwen3模型正式登頂成為開源大模型性能之王,並增強了對MCP的支援,官方給出的性能報告顯示已全面超越DeepSeek-R1和OpenAI o1,採用MoE架構,總參數235B,橫掃了各大基準,,此外,官方稱Qwen系列全球衍生模型數量已突破10萬,橫掃了各大基準,,此外,官方稱Qwen系列全球衍生模型數量已突破10萬,美國鼎3億模型。騰訊新推出的推理模型Hunyuan -1性能也比較出眾,在一系列基準測試中資料領先,但目前並未有該模型開放原始碼的資訊,不過Hunyuan團隊在AI技術開源方面一直有積極行動,此前已開源多個圖生視訊模型及全新3D生成模型,未來T1也存在開源可能性。最新消息稱,騰訊對其混元大模型研發體系進行了全面重構,圍繞算力、演算法和資料三大核心類股,內部組織了兩大部門,分別是大語言模型部和多模態模型部,負責探索大語言模型和多模態大模型的前沿技術,持續加碼研發投入。All in AI的百度曾官宣文心大模型4.5系列會於6月30日起正式開源,在剛剛過去的Create2025百度AI開發者大會上,文心大模型4.5 Turbo亮相,其多模態能力優於GPT-4o,文字能力與DeepSeek-V3最新版持平,優於GPT-4.5。百度的另一個優勢還在於算力硬體方面自研崑崙AI晶片,走的路徑有點和Google打造TPU相仿,Google第七代TPU “Ironwood”在算力、能耗、成本等方面展現出了更多優勢,真正創新自研AI晶片的前期投入會在未來長線AI競爭中展現出更多綜合優勢。其餘的「AI六小虎」如智譜AI、階躍星辰、MiniMax、月之暗面(Kimi)、零一萬物和百川智慧等都在大模型商業化層面積極探索,展現出不同的開源技術特色。例如,智譜近期開源了32B /9B系列GLM模型,涵蓋基座、推理、沉思模型等,其推理模型GLM-Z1-32B-0414性能可媲美DeepSeek-R1,其推理速度可達200 Tokens/秒,據說國內商業模型中速度之最。階躍星辰近期連續發佈了開源圖像編輯模型Step1X-Edit、 圖生視訊模型——Step-Video-TI2V等等,在AI圖像、視訊方向找到自身的細分技術特色和優勢。kimi近期開源了通用音訊基礎模型Kimi-Audio,支援語音識別、音訊理解、音訊轉文字、語音對話等多種任務,在十多個音訊基準測試中實現了最先進的(SOTA) 性能。開源讓中國AI模型的在全球範圍內實現了前所未有的影響力,但紛紛開源之後的商業化終局會是怎樣的變得捉摸不定。小米的再次開源進擊整體來看,小米作為AI大模型賽道的新晉選手選擇的入局時間非常巧妙。當下AI市場已經走過了前期盲目投入和不確定的試水探路階段,上一輪市場洗牌進入尾聲,且開源AI技術創新力量正處於上升期,海量AI Agent應用正處於大爆發前夜,商業應用正在日趨成熟。就資本實力而言,小米是遠超AI六小虎等創業公司的存在,且有著手機、智能汽車、IoT與生活消費產品、網際網路服務等主幹業務作為持續收入支撐,資料場景十分豐富,用於研發的投入充沛,可能會快速發力追趕與第一梯隊各大廠看齊。開源模型賽道不僅PK開放性,也較量綜合性能的領先性,多模態能力,以及性價比,無論是阿里還是百度,都會在推出新模型時把OpenAI和Deep Seek分別拉出來吊打一下。一直以性價比著稱的小米想要在當下AI大模型賽道吃得開也並不容易,就目前推出的MiMo-7B來看,雖然技術創新可圈可點,但距離最先進的水平還有一段路要走,而且,想要實現較高的開源影響力也需要有足夠爆點的技術創新改進才行。去年11月,小米被傳出內部成立了AI平台部發力AI大模型,由張鐸擔任負責人,雷軍曾稱他為小米的技術“大神”,張鐸曾在2016年至2021年期間在小米負責開源工作的規劃與推進,2021年離開小米後曾入職神策資料擔任開發者和首席架構師,205年再度。Apache HBase是一個開放原始碼的、分佈式的、面向列的非關係型資料庫,張鐸曾在Apache軟體基金會旗下近7000個Committer中總貢獻數量排到了全球第三,並帶領小米團隊成為HBase全球社區最活躍、力量最強的技術隊伍之一。去年12月,小米被爆出著手搭建了自己的GPU萬卡叢集,如今時隔5個月推出MiMo-7B模型,可見其內部對於模型研發推進速度的重視。隨著小米的加入,AI大模型下半場的競爭,可能會比上半場更有意思。 (頭部科技)
小米首個推理大模型突然開源!股價上漲近5%
性能超OpenAI o1-mini,26頁技術報告公開。智東西4月30日報導,今日,小米開源其首個推理大模型Xiaomi MiMo。其中經強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上均表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。MiMo是新成立不久的小米大模型Core團隊的初步嘗試,4款MiMo-7B模型(基礎模型、SFT模型、基於基礎模型訓練的強化學習模型、基於SFT模型訓練的強化學習模型)均開源至Hugging Face。程式碼庫採用Apache2.0許可證授權。開源地址:https://huggingface.co/XiaomiMiMo小米大模型Core團隊已公開MiMo的26頁技術報告。技術報告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf受此消息提振,截至午間休市,小米集團今日股價上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。01.預訓練+後訓練,聯動提升推理能力MiMo系列模型從零開始訓練,其推理能力的提升由預訓練和後訓練階段中資料和演算法等多層面的創新聯合驅動,包括:預訓練:核心是讓模型見過更多推理模式資料:著重挖掘富推理語料,併合成約200B tokens推理資料。訓練:採用三階段資料混合策略,逐步提升訓練難度,MiMo-7B-Base在約25T tokens上進行預訓練;受DeepSeek-V3啟發,將多token預測作為額外的訓練目標,以增強模型性能並加速推理。▲使用MiMo-7B實現多token預測:在預訓練期間使用單個MTP層,推理階段可使用多個MTP層以獲得額外的加速後訓練:核心是高效穩定的強化學習演算法和框架演算法:提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling 策略,以穩定強化學習訓練。資料:精選了13萬道數學和程式碼題作為強化學習訓練資料,可供基於規則的驗證器進行驗證。每道題都經過仔細的清理和難度評估,以確保質量。僅採用基於規則的精準率獎勵機制,以避免潛在的獎勵駭客攻擊。框架:設計了Seamless Rollout系統,整合了連續部署、非同步獎勵計算和提前終止功能,以最大限度地減少GPU空閒時間,使得強化學習訓練加速2.29倍,驗證加速1.96倍。▲MiMo-7B-RL Seamless Rollout引擎概覽02. 7B強化學習模型,性能超過阿里32B模型和OpenAI o1-mini小米大模型Core團隊將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規模相當的開源基礎模型進行了比較,所有模型評估都共享相同的評估設定。結果如圖所示,MiMo-7B-Base在所有基準和評估的k值取得了高於其他對比模型的pass@k分數。隨著k增加,MiMo-7B-Base與其他模型的分數差距穩步拉大,特別是在LiveCodeBench上。在評估語言推理模型的BBH基準測試上,MiMo-7B-Base的分數為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準測試結果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現。在閱讀理解基準測試DROP上,該模型的表現優於其他對比模型。在程式碼和數學推理任務中,MiMo-7B-Base的多項分數超過Llama-3.1-8B、Gemma-2-9B。MiMo-7B-Base在支援的32K上下文長度內實現了近乎完美的NIAH檢索性能,並在需要長上下文推理的任務中表現出色,多數情況下分數都超過了Qwen2.5-7B。這些結果驗證了其在預訓練期間將多樣化資料與高品質推理模式相結合的策略的有效性。▲RULER上的長上下文理解結果MiMo-7B-RL在多項通用基準測試接近或超過擁有32B參數規模的QwQ-32B Preview模型,數學和程式碼性能更是全面領先。在數學基準測試AIME 2025測試、程式碼基準測試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。MiMo-7B系列4款大模型的多項數學和程式碼測試對比如下:03. 結語:今年大模型的三大熱潮,小米MiMo一舉覆蓋今年,在DeepSeek爆紅後,開源和推理迅速成為大模型領域的熱門風向。如今低調許久的小米也正式加入這一戰局。作為國產手機頭部企業之一,小米這次開放原始碼的四款模型參數規模只有7B,小到可以滿足在端側裝置上本地運行的需求,貼合了大模型的另一大趨勢——從卷參數規模轉向追求經濟高效。通過在預訓練和後訓練過程中的多項創新聯動,MiMo-7B-Base在數學、程式碼和通用任務上都展現了出色的推理能力。這項研究可以為開發更強大的推理模型提供參考。 (智東西)