好戲才剛剛開始。
大模型領域,也被小米攪動得天翻地覆。
近日,小米宣佈,其首個推理大模型Xiaomi MiMo開源。
值得注意的是,其中經過強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分不僅超過了OpenAI的閉源推理模型o1-mini,還打敗了對手阿里Qwen2-Pwreview-32B-Pwreview。
在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上都表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。
目前,MiMo-7B 已在Hugging Face 平台開源4 個模型版本,分別是:
·MiMo-7B-Base:預訓練模型
·MiMo-7B-SFT:監督微調模型
·MiMo-7B-Base-Zero:基於MiMo-7B-Base直接強化學習的模型
·MiMo-7B-RL:基於MiMo-7B-SFT強化學習的模型
同時,技術報告也同步上線GitHub,向開發者與研究者全面開放。
預訓練階段,模型整體資料量為25T Tokens,核心是讓模型見過更多推理模式。預訓練分為漸進式三階段:
第一階段以常識性推理為主,主要如涉及數學應用題、基礎程式碼片段;
第二階段引入多步驟邏輯鏈條,如組合數學問題、動態規劃演算法,為了不影響模型通用能力,混入部分通用資料,比例為7:3。
第三階段要為了提升模型解決複雜任務的能力,聚焦於國際競賽級難題,例如AIME 2024-2025中的奧賽題目,和創造性寫作資料,並將上下文長度從8192擴展到32768。
「分階爬坡」的策略有效避免了模型在早期陷入局部最優解,同時透過逐步提升思維負荷強化神經網路的泛化能力。
後訓練階段,MiMo實現「小參數越級挑戰」的關鍵。團隊建構高品質強化學習(RL)資料集,包含13萬道經過嚴格清洗與難度標註的數學題和程式設計題。每個題目均配備基於規則的驗證器,確保獎勵訊號的客觀性與可復現性,從而規避了傳統RLHF(人類反饋強化學習)中主觀偏好導致的模型偏差。
框架層面的突破則體現在Seamless Rollout系統的設計。該系統將策略部署、非同步獎勵計算與提前終止功能整合於統一架構,並通過動態調度GPU資源,強化學習訓練速度提升2.29倍,驗證效率加速1.96倍。
那麼,我們來聊一聊,小米這種開放姿態,對於其本身戰略定位和大模型行業來說,有什麼意義。
一方面,將MiMo與早期開放原始碼的Vela物聯網系統、米家智慧家庭協議深度繫結,小米企圖建構的「模型-硬體-場景」三位一體的開放生態便會越來越清晰。
例如,基於MiMo開發的語音助手,開發者可直接連接小米智慧家庭裝置。或者,借助車載推理引擎,無縫對接小米汽車OS系統。
作為一家產品銷量可觀的智慧型裝置公司,小米開放了核心AI模型,意味著,或許不久的將來,更多的智慧終端將被納入其技術軌道。對友商來說,壓力確實不小。
另一方面,僅僅其以7B的參數規模,就超越了阿里32B模型和OpenAI閉源產品的成績,可以說,直接顛覆了行業對「參數規模決定性能」的固有認知。
並且,此次開源,開發者無需支付高昂API費用即可呼叫模型,使用門檻大大降低。當然,使用者規模的擴大,意味著更多的使用資料,反過來也會進一步反哺小米大模型的開發。
當然,股票市場對於小米這次動作的反應也十分樂觀和迅速。截至午間休市,小米集團今日股價直接上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。
值得注意的是,這次開放原始碼的MiMo,是來自全新成立不久的「小米大模型Core 團隊」的初步嘗試。
先前,曾有報導稱小米創始人雷軍以千萬年薪挖角AI 天才少女羅福莉,後者曾在DeepSeek 任職研究員,並參與DeepSeek-V2 等大模型研發工作。
如今交出這樣一份答案卷,可以說,讓公眾對小米大模型的未來,不禁有了更多想像的空間。
從手機、到家電、再到汽車,小米拿到入場券的時間都不算早,但這個企業,總能依靠獨特的打法實現後來居上。
例如,2011年,雷軍帶著小米手機殺進市場時,蘋果、三星已封神多年,也許沒人相信小米能攪動風雲。
但就在三年後的2014年,小米通過極致性價比與技術堆料策略,一舉登頂中國市場份額第一。
而就在前兩天,小米手機再次以出貨量1,330萬台,市場份額18.6%的成績,登頂中國區銷量榜。
為此,沉默多天的雷軍也現身發文慶祝。
再例如,2021年,小米宣佈造車,此時「蔚小理」的名聲已經在國內市場打響。但很顯然小米造車的銷量再次出乎意料。
2024年,小米SU7上市24小時內大訂訂單突破8.8萬台,全年交車量達13.6萬輛,遠超原廠目標。
最後,到現今的小米大模型,其實,與不少友商網路大廠相比,小米進軍的時間並不長。
2023年4月,雷軍親自宣佈,小米將成立大模型團隊,並且,雷軍明確提出“不搞軍備競賽”,專注輕量化與端側部署。
同年8月,小米首次發表了自研大模型MiLM-6B(64億參數),並在中文評測榜單C-EVAL和CMMLU中,一舉奪得同參數量級第一的成績。
模型採用「巨量資料+大任務+大參數」的範式,透過自研的ScaledAdam最佳化器與Eden學習率調度器提升訓練效率,同時依託小米生態80%的自有資料(包括3TB產品業務資料)進行深度最佳化。
第二年5月,MiLM正式透過澎湃OS系統和小愛同學實現了消費端的落地應用。小米手機端的AI圖片編輯、平板端的自動生成會議紀要、電視端的影視問答等,都有它的協同參與。
小米第二代模型MiLM2,是在2024年11月發佈的,此次迭代不僅擴充了訓練資料的規模,也在訓練策略與微調機制上進行了打磨。
這次更新的成績也很吸睛,參數範圍擴展至0.3B-30B,推理速度提升了34%,量化損失降低了78%。
可以說,大模型的發展歷程,實質是小米在AI 2.0時代對「規模擴張」與「價值創造」的重新平衡,透過將開源生態、雲邊協同與通用能力三大要素深度融合,重新書寫中國科技企業參與全球AI競賽的新敘事。
當然,在這場小米大模型的開源狂歡過後,小米的前路也許並不輕鬆。
一方面,從技術角度來看,小米模型目前僅支援文字輸入,與強勁的對手OpenAI相比,在多模態能力和應用場景拓展上還存在一定差距。
與此同時,目前7B模型雖然適配端側晶片,但隨著多模態能力的擴展,未來小米可能面臨在模型複雜度與硬體相容性間權衡的難題。
不過,小米技術團隊似乎已經意識到這一點。據其開源技術報告披露,下一代MiMo模型將引入動態多模態融合模組,透過跨模態注意力機制整合文字、圖像甚至感測器資料。
另一方面,外部競爭對手正逐步加快開發的處理程序,火藥味越來越濃。友商科技頭部企業,如阿里巴巴、騰訊、華為、字節跳動等,你追我趕。
例如,就在前兩天,百度在Create2025AI開發者大會上,也發表了兩款開源大模型:文心大模型4.5 Turbo及深度思考模型X1 Turbo。百度大模型的實力也確實「不一般」。
甚至,2025年來,全球基礎模型數量已經突破了500個,而純文字模型的效能差距逐漸縮小。因此,留給小米的壓力不小。
但無論如何,MiMo的開源已為中國AI發展提供新範式,至少,它證明技術突破未必需要千億參數的軍備競賽,並且,生態共贏遠比閉源壟斷更俱生命力。
在大模型領域,小米究竟能掀起怎樣的浪潮,或許時間會給出答案,讓我們拭目以待。(科技頭版)