#MiMo
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
金句媲美雷軍!羅福莉首次站台小米演講,揭秘MiMo大模型和背後團隊
羅福莉首次演講有點“小緊張”,但金句很爆。羅福莉加入小米後的首次公開演講,來了!智東西12月17日北京現場報導,剛剛,小米舉辦了年度“人車家全生態”合作夥伴大會,現場人頭攢動座無虛席,展區不少展台都已被圍觀人群擠滿,討論熱度頗高。小米創始人兼CEO雷軍此次並未來到現場,小米集團合夥人、集團總裁盧偉冰率先登台演講,今天第三位演講的是當前備受關注的原DeepSeek核心成員、被業內稱為“天才少女”的羅福莉,她現在的職位是小米MiMo大模型負責人。羅福莉在演講過程中雖然稍顯緊張,但她拋出的海量金句卻句句令人印象深刻:AI正以非線性的方式重演人類大腦6億年的進化史;語言是人類思維和物理世界在符號空間的“投影”;下一代智能體系統不是一個“語言模擬器”,而是一個真正理解我們世界、並與之共存的“智能體”;相比生物演化的穩固根基,AI的發展是“空中樓閣”;AI進化的下個起點,一定是有一個能跟物理世界互動的模型;算力和資料也並非最終的護城河,真正的護城河,是科學的研究文化與方法,是將未知問題結合模型最佳化轉化為可用產品的能力;開放原始碼的價值本質上是一種分佈式的技術加速主義;開源是實現AGI的普惠化,是確保所有人類的智慧共同進化的唯一路徑;在演講中,羅福莉首次明確解讀了小米打造Agent語言基座模型的三個核心方向,解讀了新模型背後的多項關鍵技術突破。對小米如何通向AGI,羅福莉也明確了小米的路徑。除了AI大禮包,今天會上,盧偉冰也分享了小米整體業務的諸多亮點。盧偉冰說,2025年是小米“大發展”的一年,今年前三季度,小米收入同比增長32.5%,超過了3400億元,經調整利潤同比增長73.5%,其中手機銷量中國市場1-10月排名第二。未來五年,小米集團研發投入預計將超過2000億元,2026年預計研發投入在400億左右。小米人車家生態究竟包括什麼?盧偉冰這次給出詳細拆解:產品包括個人裝置、出行裝置、家庭裝置;核心技術包括晶片、OS、AI;智能製造包括手機、汽車、大家電工廠;什麼是小米當前聚焦的核心,一目瞭然。在大家最關心的AI方面,小米自研MiMo系列大模型家族赫然呈現:推理大模型、視覺推理大模型、原生端到端音訊生成模型、端側視覺語言大模型、具身大模型。一個月前的11月12日,羅福莉在朋友圈正式官宣加入小米Xiaomi MiMo團隊。就在昨晚,小米剛剛發佈了最新的MiMo大模型MiMo-V2-Flash,性能媲美DeepSeek-V3.2,這也是羅福莉加入後MiMo團隊亮出的首個新成果。01. 羅福莉首次解讀:小米大模型三個重點方向算力和資料並非最終護城河羅福莉一上台就回到了“6億年前”,她說,AI正以非線性的方式重演人類大腦6億年的進化史。為什麼大模型“智能”起源於語言?在羅福莉看來,語言是人類思維和物理世界在符號空間的“投影”,而大模型成功解碼了人類思維在文字空間的投影。小米從“語言”出發,建構了面向Agent時代的語言基座模型MiMo-V2-Flash。在小米看來,超強的程式碼和工具呼叫能力是Agent溝通的高效“語言”,圍繞極致推理效率設計的模型結構是“高頻寬”的Agent協作的關鍵,全新後訓練範式則能夠保證高效穩定的擴展強化學習訓練。這三個方面是小米聚焦的重點。羅福莉特別提到,MiMo-V2-Flash模型並不大,但在程式碼和Agent測評基準測試中已經達到全球開源模型TOP2。MiMo-V2-Flash的推理效率是其突出優勢,在全球大致相同水位的頂尖模型速度和成本象限裡,MiMo-V2-Flash實現了低成本和高速度優勢。具體來看,小米圍繞極致推理效率來設計模型結構,採用了Hybrid SWA架構,固定KV Cache,增強長文推理,此外,團隊採用3層MTP推理加速平行Token驗證,實現推理速度2-2.6倍的提升。在全新後訓練範式方面,團隊採用了Dense&Token-Level的強化學習。當前MiMo-V2-Flash已經初步具備了模擬世界的能力,比如通過HTML寫作業系統、模擬太陽系、畫一顆聖誕樹。今天發佈會現場,羅福莉宣佈MiMo-V2-Flash發佈即開源,模型權重、技術報告都開源,API限時免費。對於未來的Agent發展,羅福莉提到,下一代智能體系統,不是一個“語言模擬器”,而是一個真正理解我們世界、並與之共存的“智能體”。Agent執行從“回答問題”到“完成任務”,具有記憶、推理、自主規劃、決策、執行的能力。Omni感知統一多模態感知,為AI理解物理世界打下基礎,嵌入眼鏡等智能終端、融入日常工作流。在通往AGI的路上,羅福莉團隊希望補全缺失的演化拼圖,單純Scaling UP參數量不夠,他們要讓LLM回到“演化課堂”,補上它跳過的關鍵學習步驟。簡單來說,他們非常看重AI與真實世界的互動,強調多模態。羅福莉特別提到,相比生物演化的穩固根基,AI的發展有些像“空中樓閣”。在她看來,AI進化的下個起點,一定是有一個能跟物理世界互動的模型。AI不僅要看懂畫面,還要理解背後的物理規律;AI不僅要推理文字,而是理解世界的運作邏輯。羅福莉說,這一觀點並非共識,行業中也有不少人認為語言就可以實現最終的AGI,比如Ilya。在她看來,算力和資料也並非最終的護城河,真正的護城河,是科學的研究文化與方法,是將未知問題結合模型最佳化轉化為可用產品的能力。羅福莉現場也開啟了“招聘會”,她提到,小米大模型Core團隊是研究、產品與工程深度耦合的年輕團隊,“小而美”卻充滿創業精神,他們極度好奇、追求真理。羅福莉提到,在她剛剛開始研究時,開源模型與頂尖模型的代差有三年,而今天這一差距已經縮短到了“數月”。他們相信開放原始碼的價值,開放原始碼的價值本質上是一種分佈式的技術的加速的主義。在羅福莉看來,開源是實現AGI的普惠化,是確保所有人類的智慧共同進化的唯一路徑。未來,從資料的極致壓縮,到演算法的範式創新,再到與物理空間的深度連結,小米與全球AI共同定義未來。95後羅福莉本科就讀於北京師範大學電腦專業,碩士畢業於北京大學計算語言學研究所計算語言學專業。她曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO,並推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發。集諸多光環於一身,來到小米的羅福莉,其動向一直是業內關注的焦點。02. 結語:猛攻Agent基座模型小米人車家生態全力衝刺AIAI,顯然是整場小米生態大會圍繞的核心關鍵詞。面向AI未來,小米的機會點顯然不止於AI手機,手機、PC、穿戴、IoT、汽車,小米人車家全生態均能與AI深度融合,小米在大模型方面的AI基礎能力提升則進一步加速了這一處理程序。盧偉冰近日曾提到,小米AI大模型業務過去投入持續增長,“AI與現實世界深度融合”已被列為小米未來十年核心戰略。顯然,面對AI這場硬仗,小米已經做好準備All in,“兵馬和糧草”都在加碼籌備。 (智東西)
小米突然發佈新模型:媲美 DeepSeek-V3.2,把手機的性價比捲到 AI
開源模型再次迎來一位重磅選手,就在剛剛,小米正式發佈並開源新模型 MiMo-V2-Flash。MiMo-V2-Flash 總參數 3090 億,活躍參數 150 億,採用專家混合架構 (MoE),性能還能和 DeepSeek-V3.2、Kimi-K2 這些頭部開源模型掰掰手腕。此外,MiMo-V2-Flash 採用 MIT 開源協議,基礎版權重也已經在 Hugging Face 上發佈。當然,除去「開源」這一標籤,新模型真正的殺手鐧在於架構設計上的激進創新,把推理速度拉到了 150 tokens/秒,成本壓到了每百萬 token 輸入 0.1 美元、輸出 0.3 美元,主打一個超絕性價比。此外 ,根據官方體驗頁面資訊,MiMo-V2-Flash 還支援深度思考和聯網搜尋功能,既能對話聊天,也能在需要即時資料、最新動態或資料核對的場景裡派上用場。附上 AI Studio 體驗地址:http://aistudio.xiaomimimo.com開源模型新標竿,MiMo-V2-Flash 跑分全線開花先來看看 MiMo-V2-Flash 的跑分。基準測試成績顯示,AIME 2025 數學競賽和 GPQA-Diamond 科學知識測試中,MiMo-V2-Flash 都排在開源模型前兩名。程式設計能力更是亮眼,SWE-bench Verified 得分 73.4%,超越所有開源模型,直逼 GPT-5-High。而這個測試是讓 AI 去修真實世界的軟體 bug,73.4% 的成功率也意味著它能搞定大部分實際程式設計問題。在多語言程式設計基準測試 SWE-Bench Multilingual 裡,MiMo-V2-Flash 的解決率為 71.7%。轉看智能體任務,MiMo-V2-Flash 在τ²-Bench 分類得分中,通訊類 95.3 分,零售類 79.5 分,航空類 66.0 分,BrowseComp 搜尋代理得分 45.4,啟用上下文管理後直接飆到 58.3。這些資料說明,MiMo-V2-Flash 不僅會寫程式碼,還能真正理解複雜任務邏輯,執行多輪智能體互動。更重要的是,寫作質量也接近頂級閉源模型,這意味著 MiMo-V2-Flash 不只是個工具,還能當個靠譜的日常助手。MiMo-V2-Flash 在保持長文字性能的同時,還降低了成本,究其原因,離不開兩項核心技術創新。混合滑動窗口注意力機制:傳統大模型處理長文字時,全域注意力機制會導致計算量二次爆炸,儲存中間結果的 KV 快取也跟著飆升。小米這次採用了 5 比 1 的激進比例,5 層滑動窗口注意力搭配 1 層全域注意力交替使用,滑動窗口只看 128 個 token。這種設計讓 KV 快取儲存量直接減少了近 6 倍,但長文字能力卻沒打折扣,最長支援 256k 上下文窗口。且模型即使在這麼激進的窗口設定下,照樣能穩住長文字性能。對此,羅福莉在社交平台上特別指出一個反直覺的發現:窗口大小 128 是「最佳甜點值」。實驗證明,盲目擴大窗口(如增至 512)反而會導致性能下降。同時她強調,在實施該機制時,sink values 是維持性能的關鍵,絕不可省略。另一個黑科技是輕量級多 Token 預測 (MTP)。傳統模型生成文字時一次只能吐一個 token,就像打字員一個字一個字敲。MiMo-V2-Flash 通過原生整合的 MTP 模組,能平行預測多個 token,一次性猜出接下來好幾個 token。實測平均能接受 2.8 到 3.6 個 token,推理速度直接提升 2 到 2.6 倍,不僅在推理時管用,訓練階段也能加速採樣,減少 GPU 空轉,屬於一箭雙鵰。羅福莉提到,在三層 MTP 設定下,他們觀察到平均接受長度超過 3,編碼任務速度提升約 2.5 倍。它有效解決了小批次 On-Policy 強化學習中「長尾樣本」帶來的 GPU 空閒時間浪費問題。啥叫長尾樣本?就是那些特別難、特別慢的任務,拖著其他任務一起等,GPU 就在那乾瞪眼。MTP 把這個問題給解了,極大提高了效率。不過羅福莉也坦誠,這次因為時間緊迫沒能把 MTP 完整整合進 RL 訓練循環,但它與該流程高度契合。小米已經把三層 MTP 開源了,方便大家在自己的項目中使用與開發。算力只用 1/50,性能如何不打折?預訓練階段,新模型使用 FP8 混合精度,在 27 兆 token 資料上完成訓練,原生支援 32k 序列長度。FP8 混合精度是一種壓縮數值表示的技術,能在保持精度的同時減少視訊記憶體佔用和加速訓練。這種訓練方式在業界並不常見,需要對底層框架進行深度最佳化。而在後訓練階段,小米整了個大活,提出了多教師線上策略蒸餾 (MOPD)。傳統的監督微調加強化學習管線,不僅訓練不穩定,算力消耗還賊高。MOPD 的思路是讓學生模型在自己的策略分佈上採樣,然後由多個專家教師在每個 token 位置提供密集的獎勵訊號。通俗點說就是,學生模型自己寫作業,老師在每個字上都給評分,不用等寫完整篇才打分。這樣一來,學生模型能快速從教師那裡學到精髓,而且訓練過程穩定得多。最誇張的是效率提升,MOPD 只需要傳統方法 1/50 的算力,就能讓學生模型達到教師性能峰值。這意味著小米能用更少的資源,更快地迭代模型。而且 MOPD 支援靈活接入新教師,學生模型成長後還能反過來當教師,形成「教與學」的閉環自我進化。今天的學生,明天的老師,後天又能教出更強的學生,套娃玩法屬實有點東西。用羅福莉的話來說,他們借鑑 Thinking Machine 的 On-Policy Distillation 方法,將多個強化學習模型進行融合,結果帶來了驚人的效率提升。這為建構一個自我強化循環系統奠定了基礎,學生模型可以逐步進化,最終成為更強的教師模型。在智能體強化學習擴展上,小米 MiMo-V2-Flash 研究團隊基於真實 GitHub issue 建構了超過 10 萬個可驗證任務,自動化流水線跑在 Kubernetes 叢集上,並行能開 10000 多個 Pod,環境部署成功率 70%。針對網頁開發任務,還專門搞了個多模態驗證器,通過錄製視訊而非靜態截圖來驗證程式碼執行結果,直接減少視覺幻覺,確保功能正確。對於開發者而言,MiMo-V2-Flash 能與 Claude Code、Cursor、Cline 等主流開發環境無縫配合,256k 的超長上下文窗口支援數百輪智能體互動與工具呼叫。256k 是什麼概念? 大概相當於一本中等篇幅的小說,或者幾十頁技術文件。這意味著開發者可以把 MiMo-V2-Flash 直接融入現有工作流,不需要額外適配,拿來就用。小米還把所有推理程式碼貢獻給了 SGLang,並在 LMSYS 部落格分享了推理最佳化經驗。技術報告公開了完整模型細節,模型權重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 許可協議發佈。這種全面開放原始碼的態度,在國內大廠裡屬實少見。目前 MiMo-V2-Flash 已經在 API Platform 限時免費開放,開發者可以直接上手體驗。小米的 AI 野心,不止於手機助手MiMo-V2-Flash 的發佈,標誌著小米在 AI 賽道上的全面發力。羅福莉在社交平台上透露了更多資訊,「MiMo-V2-Flash 已正式上線。這只是我們 AGI 路線圖上的第二步。」第二步就已經這麼猛了,那後面還有啥大招?想想就有點期待。當然,小米在技術報告中也坦誠,MiMo-V2-Flash 與最強的閉源模型相比仍有差距。但他們的計畫很明確,通過擴大模型規模與訓練算力來縮小差距,同時繼續探索更穩健、更高效的智能體架構。MOPD 框架下教師模型與學生模型的迭代共進化,也為未來的能力提升留足了空間。把視角拉高來看,背後是小米對整個 AI 生態的一次戰略押注。手機、IoT、汽車,小米的硬體生態需要一個強大的 AI 底座,MiMo-V2-Flash 顯然就是小米為全硬體生態準備的那塊基石。就像十四年前小米手機用 1999 元重新定義了旗艦機的價格標準,如今 MiMo-V2-Flash 正在用白菜價的成本、73.4% 的 SWE-Bench 得分,重新定義開源大模型的性能標準。這一次,屬於開源模型的「小米時刻」真的來了。 (APPSO)
大模型新選手入場!小米拋出首個開源推理大模MiMo,超越o1-mini和阿里QwQ-32B
小米發力大模型國內大模型發展進入後半段的當下,正式殺進來一位新選手,這回是愛跨界的小米,選擇走開源技術路線。今天,小米旗下公眾號官宣推出首個推理大模型Xiaomi  MiMo-7B,引發外界關注,據悉,這是一款專為推理任務而生的大語言模型,由新成立不久的“小米大模型Core團隊”開發。MiMo-7B在預訓練和後訓練階段均進行了最佳化,小米大模型團隊給出的評估表示,MiMo-7B基礎模型擁有不錯的推理潛力,經過最終強化學習調整後的模型MiMo-7B-RL在數學、程式碼和通用推理任務上表現突出,超越了OpenAI的o1-mini模型以及阿里Qwen系列中更大規模的推理模型。既造手機又造車,既佈局IoT生活家電又搞機器人的小米堪稱科技公司中的“跨界王”,在2024年小米集團收入3659億元創歷史新高,選擇當下進軍AGI、發力AI大模型可謂“糧草”充足,或將給大模型賽道帶來新一輪市場攪動。小米的輕量模式創新根據MiMo-7B論文介紹,小米大模型團隊認為強化學習訓練的推理模型的有效性依賴於基礎模型的內在推理潛力,為了充分釋放語言模型的推理潛力,不僅要專注於後訓練階段,還必須致力於為推理量身定製的預訓練策略。在預訓練階段,小米大模型團隊改進了資料預處理流程,並採用了三階段資料混合策略,以增強基礎模型的推理潛力,MiMo-7B基礎模型在25億個詞元上進行了預訓練,還增加了多詞元預測目標,以提升效能並加快推理速度。在後訓練階段,則精心整理了一個包含13萬個可驗證的數學和程式設計問題的資料集用於強化學習,整合了一種由測試難度驅動的程式碼獎勵機制,以緩解稀疏獎勵問題,並採用了策略性的資料重採樣方法來穩定訓練過程。在強化學習(RL)基礎設施方面,小米團隊開發了一個無縫採樣引擎,整合了連續採樣、非同步獎勵計算以及提前終止機制,從而將GPU的閒置時間降至最低,實現了訓練速度提升2.29倍,驗證速度提升1.96倍。並且在vLLM(一種高效的語言模型推理庫)中支援多詞元預測(MTP),增強了強化學習系統中推理引擎的穩健性。首批開源了四個模:MiMo-7B基礎模型的表現優於約70億參數的當前最優(SoTA)開源模型;MiMo-7B-RL-Zero在數學和程式碼任務上超越了320億參數基礎模型的強化學習訓練性能;MiMo-7B-RL取得了出色的推理性能;以及一個MiMo-7B監督模型。小米大模型團隊在推文中表示,2025年雖看似是大模型逐夢的後半程,但堅信AGI的征途仍漫長,所以將從務實創新出發,勇敢探索未知,用思考突破智能邊界,用創造回應每一次好奇,同時還順帶提了一下團隊正在招募技術人才的需求。中國包攬AI開源梯隊目前,中國開源大模型已經包攬全球開源模型陣營的第一梯隊。入局的開源選手有阿里Qwen、DeepSeek、騰訊混元、智譜AI、崑崙萬維、階躍星辰、百川智能以及即將開放原始碼的百度等等,競爭非常激烈,技術角逐也呈現出多樣化特點,涵蓋模型訓練最佳化、多模態融合、低成本能等多個重要領域,目前下半場,下半場。美國頂尖AI大模型陣營有Google、OpenAI、Anthropic、XAI、Meta等,國內有阿里、騰訊、百度、字節跳動、DeepSeek等對。先前,在開源賽道領跑的是AI圈黑馬DeepSeek,在2024年12月推出開源模型DeepSeek-V3,創新自研MoE模型,訓練成本僅557.6萬美元,在性能上超越眾多開源模型,比肩OpenAI頂級閉源模型GPT-4o,一經發佈DeepSeek趁熱打鐵在2025年1月20日推出R1推理模型,在數學、程式碼、自然語言推理等領域實力與OpenAI o1正式版性能相當,且完全開源,直接奠定了市場地位,最近傳聞R2模型呼之慾出。發展開源模型最為迅猛的阿里依靠Qwen系列模型迅速趕超上了DeepSeek和Meta。日前,新發佈的Qwen3模型正式登頂成為開源大模型性能之王,並增強了對MCP的支援,官方給出的性能報告顯示已全面超越DeepSeek-R1和OpenAI o1,採用MoE架構,總參數235B,橫掃了各大基準,,此外,官方稱Qwen系列全球衍生模型數量已突破10萬,橫掃了各大基準,,此外,官方稱Qwen系列全球衍生模型數量已突破10萬,美國鼎3億模型。騰訊新推出的推理模型Hunyuan -1性能也比較出眾,在一系列基準測試中資料領先,但目前並未有該模型開放原始碼的資訊,不過Hunyuan團隊在AI技術開源方面一直有積極行動,此前已開源多個圖生視訊模型及全新3D生成模型,未來T1也存在開源可能性。最新消息稱,騰訊對其混元大模型研發體系進行了全面重構,圍繞算力、演算法和資料三大核心類股,內部組織了兩大部門,分別是大語言模型部和多模態模型部,負責探索大語言模型和多模態大模型的前沿技術,持續加碼研發投入。All in AI的百度曾官宣文心大模型4.5系列會於6月30日起正式開源,在剛剛過去的Create2025百度AI開發者大會上,文心大模型4.5 Turbo亮相,其多模態能力優於GPT-4o,文字能力與DeepSeek-V3最新版持平,優於GPT-4.5。百度的另一個優勢還在於算力硬體方面自研崑崙AI晶片,走的路徑有點和Google打造TPU相仿,Google第七代TPU “Ironwood”在算力、能耗、成本等方面展現出了更多優勢,真正創新自研AI晶片的前期投入會在未來長線AI競爭中展現出更多綜合優勢。其餘的「AI六小虎」如智譜AI、階躍星辰、MiniMax、月之暗面(Kimi)、零一萬物和百川智慧等都在大模型商業化層面積極探索,展現出不同的開源技術特色。例如,智譜近期開源了32B /9B系列GLM模型,涵蓋基座、推理、沉思模型等,其推理模型GLM-Z1-32B-0414性能可媲美DeepSeek-R1,其推理速度可達200 Tokens/秒,據說國內商業模型中速度之最。階躍星辰近期連續發佈了開源圖像編輯模型Step1X-Edit、 圖生視訊模型——Step-Video-TI2V等等,在AI圖像、視訊方向找到自身的細分技術特色和優勢。kimi近期開源了通用音訊基礎模型Kimi-Audio,支援語音識別、音訊理解、音訊轉文字、語音對話等多種任務,在十多個音訊基準測試中實現了最先進的(SOTA) 性能。開源讓中國AI模型的在全球範圍內實現了前所未有的影響力,但紛紛開源之後的商業化終局會是怎樣的變得捉摸不定。小米的再次開源進擊整體來看,小米作為AI大模型賽道的新晉選手選擇的入局時間非常巧妙。當下AI市場已經走過了前期盲目投入和不確定的試水探路階段,上一輪市場洗牌進入尾聲,且開源AI技術創新力量正處於上升期,海量AI Agent應用正處於大爆發前夜,商業應用正在日趨成熟。就資本實力而言,小米是遠超AI六小虎等創業公司的存在,且有著手機、智能汽車、IoT與生活消費產品、網際網路服務等主幹業務作為持續收入支撐,資料場景十分豐富,用於研發的投入充沛,可能會快速發力追趕與第一梯隊各大廠看齊。開源模型賽道不僅PK開放性,也較量綜合性能的領先性,多模態能力,以及性價比,無論是阿里還是百度,都會在推出新模型時把OpenAI和Deep Seek分別拉出來吊打一下。一直以性價比著稱的小米想要在當下AI大模型賽道吃得開也並不容易,就目前推出的MiMo-7B來看,雖然技術創新可圈可點,但距離最先進的水平還有一段路要走,而且,想要實現較高的開源影響力也需要有足夠爆點的技術創新改進才行。去年11月,小米被傳出內部成立了AI平台部發力AI大模型,由張鐸擔任負責人,雷軍曾稱他為小米的技術“大神”,張鐸曾在2016年至2021年期間在小米負責開源工作的規劃與推進,2021年離開小米後曾入職神策資料擔任開發者和首席架構師,205年再度。Apache HBase是一個開放原始碼的、分佈式的、面向列的非關係型資料庫,張鐸曾在Apache軟體基金會旗下近7000個Committer中總貢獻數量排到了全球第三,並帶領小米團隊成為HBase全球社區最活躍、力量最強的技術隊伍之一。去年12月,小米被爆出著手搭建了自己的GPU萬卡叢集,如今時隔5個月推出MiMo-7B模型,可見其內部對於模型研發推進速度的重視。隨著小米的加入,AI大模型下半場的競爭,可能會比上半場更有意思。 (頭部科技)
小米首個推理大模型突然開源!股價上漲近5%
性能超OpenAI o1-mini,26頁技術報告公開。智東西4月30日報導,今日,小米開源其首個推理大模型Xiaomi MiMo。其中經強化學習訓練形成的MiMo-7B-RL模型,在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。在相同強化學習訓練資料情況下,MiMo-7B-RL在數學和程式碼推理任務上均表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。MiMo是新成立不久的小米大模型Core團隊的初步嘗試,4款MiMo-7B模型(基礎模型、SFT模型、基於基礎模型訓練的強化學習模型、基於SFT模型訓練的強化學習模型)均開源至Hugging Face。程式碼庫採用Apache2.0許可證授權。開源地址:https://huggingface.co/XiaomiMiMo小米大模型Core團隊已公開MiMo的26頁技術報告。技術報告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf受此消息提振,截至午間休市,小米集團今日股價上漲4.74%,總市值1.29兆港元(約合人民幣1.21兆元)。01.預訓練+後訓練,聯動提升推理能力MiMo系列模型從零開始訓練,其推理能力的提升由預訓練和後訓練階段中資料和演算法等多層面的創新聯合驅動,包括:預訓練:核心是讓模型見過更多推理模式資料:著重挖掘富推理語料,併合成約200B tokens推理資料。訓練:採用三階段資料混合策略,逐步提升訓練難度,MiMo-7B-Base在約25T tokens上進行預訓練;受DeepSeek-V3啟發,將多token預測作為額外的訓練目標,以增強模型性能並加速推理。▲使用MiMo-7B實現多token預測:在預訓練期間使用單個MTP層,推理階段可使用多個MTP層以獲得額外的加速後訓練:核心是高效穩定的強化學習演算法和框架演算法:提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling 策略,以穩定強化學習訓練。資料:精選了13萬道數學和程式碼題作為強化學習訓練資料,可供基於規則的驗證器進行驗證。每道題都經過仔細的清理和難度評估,以確保質量。僅採用基於規則的精準率獎勵機制,以避免潛在的獎勵駭客攻擊。框架:設計了Seamless Rollout系統,整合了連續部署、非同步獎勵計算和提前終止功能,以最大限度地減少GPU空閒時間,使得強化學習訓練加速2.29倍,驗證加速1.96倍。▲MiMo-7B-RL Seamless Rollout引擎概覽02. 7B強化學習模型,性能超過阿里32B模型和OpenAI o1-mini小米大模型Core團隊將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規模相當的開源基礎模型進行了比較,所有模型評估都共享相同的評估設定。結果如圖所示,MiMo-7B-Base在所有基準和評估的k值取得了高於其他對比模型的pass@k分數。隨著k增加,MiMo-7B-Base與其他模型的分數差距穩步拉大,特別是在LiveCodeBench上。在評估語言推理模型的BBH基準測試上,MiMo-7B-Base的分數為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準測試結果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現。在閱讀理解基準測試DROP上,該模型的表現優於其他對比模型。在程式碼和數學推理任務中,MiMo-7B-Base的多項分數超過Llama-3.1-8B、Gemma-2-9B。MiMo-7B-Base在支援的32K上下文長度內實現了近乎完美的NIAH檢索性能,並在需要長上下文推理的任務中表現出色,多數情況下分數都超過了Qwen2.5-7B。這些結果驗證了其在預訓練期間將多樣化資料與高品質推理模式相結合的策略的有效性。▲RULER上的長上下文理解結果MiMo-7B-RL在多項通用基準測試接近或超過擁有32B參數規模的QwQ-32B Preview模型,數學和程式碼性能更是全面領先。在數學基準測試AIME 2025測試、程式碼基準測試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。MiMo-7B系列4款大模型的多項數學和程式碼測試對比如下:03. 結語:今年大模型的三大熱潮,小米MiMo一舉覆蓋今年,在DeepSeek爆紅後,開源和推理迅速成為大模型領域的熱門風向。如今低調許久的小米也正式加入這一戰局。作為國產手機頭部企業之一,小米這次開放原始碼的四款模型參數規模只有7B,小到可以滿足在端側裝置上本地運行的需求,貼合了大模型的另一大趨勢——從卷參數規模轉向追求經濟高效。通過在預訓練和後訓練過程中的多項創新聯動,MiMo-7B-Base在數學、程式碼和通用任務上都展現了出色的推理能力。這項研究可以為開發更強大的推理模型提供參考。 (智東西)