#MiMo-V2-Flash
小米“降維打擊”:MiMo-V2-Flash性能直逼GPT-5,成本僅零頭!
一場由科技巨頭小米掀起的AI風暴,正在全球範圍內引發震動。小米正式開源其最新一代AI模型MiMo-V2-Flash,這不僅僅是技術實力的秀肌肉,更是對現有AI市場格局的一次深度認知突圍與降維打擊。其極致的性價比和卓越性能,正以前所未有的速度衝擊著DeepSeek、Moonshot乃至OpenAI等頂尖玩家的護城河。👉 技術深度解析:性能與效率的“不可能三角”被打破MiMo-V2-Flash的發佈,核心在於它以前所未有的方式平衡了性能、成本和速度。小米稱其在推理、編碼和Agent(智能體)場景中表現尤為突出,同時也是日常任務的優秀通用助手。•極致效率與成本革命: 這款模型以每秒150個token的驚人速度進行推理,而成本更是低至每百萬輸入token 0.1美元,每百萬輸出token 0.3美元。這使得它成為市面上最具成本效益的高性能模型之一。這種“超高性價比”的策略,無疑將極大降低AI應用的門檻,為開發者和企業帶來巨大的紅利。•混合專家(MoE)架構: MiMo-V2-Flash採用MoE設計,總參數高達3090億,但實際執行階段僅啟動約150億參數。這種設計在保證強大能力的同時,顯著降低了計算資源消耗。•混合滑動窗口注意力機制: 為瞭解決長文字處理的計算複雜度問題,MiMo-V2-Flash創新性地採用了5:1的混合比例,即5層滑動窗口注意力(SWA)搭配1層全域注意力交替使用,滑動窗口大小為128個token。這項技術將KV快取儲存需求降低了近6倍,同時支援高達256k的超長上下文窗口。這意味著模型能處理相當於一本中篇小說或幾十頁技術文件的輸入,且性能不打折扣。•輕量級多Token預測(MTP): 區別於傳統模型的單token生成,MiMo-V2-Flash通過原生整合的MTP模組,能夠平行預測多個token,推理速度提升2到2.6倍。這不僅加速了生成效率,還解決了強化學習訓練中GPU空閒時間浪費的問題,實現了“一箭雙鵰”的效率提升。💡 性能對標:直逼頂尖,局部超越小米MiMo-V2-Flash的實測表現,足以讓業界震驚。•推理能力: 在大部分推理基準測試中,MiMo-V2-Flash的性能與月之暗面的Kimi K2 Thinking和DeepSeek V3.2 Thinking不相上下。在長上下文評估中,它甚至超越了Kimi K2 Thinking。•編碼與Agent能力: 在SWE-Bench Verified的Agent任務中,MiMo-V2-Flash取得了73.4%的高分,超越所有開源競爭對手,並逼近OpenAI的GPT-5-High。在多語言SWE-Bench測試中,其解決率達到71.7%。在程式設計能力評估中,它與被認為是行業最佳編碼模型的Anthropic Claude 4.5 Sonnet旗鼓相當,而成本僅為後者的一小部分。•通用能力: 除了技術型任務,MiMo-V2-Flash在通用寫作和高品質開放式響應方面也保持了競爭力。它支援深度思考和聯網搜尋,意味著它不僅能寫程式碼、解數學題,還能即時獲取最新資訊。🚀 戰略佈局:AGI路線圖與生態護城河小米此次開源MiMo-V2-Flash,並非孤立的技術展示,而是其宏大AI戰略的關鍵一步。•AGI路線圖的“第二步”: 小米MiMo團隊負責人羅福莉(前DeepSeek核心研究員)明確指出,MiMo-V2-Flash是其AGI(通用人工智慧)路線圖上的“第二步”。這預示著小米在追求超越人類認知能力的AI道路上,有著清晰且野心勃勃的長期規劃。羅福莉的加盟,本身就是小米對AI人才和AGI方向的重磅押注。•賦能“人車家全生態”: 摩根士丹利分析師指出,小米旨在通過這款高性能模型,深刻重塑其“人、車、家”的廣泛生態系統。MiMo-V2-Flash將作為小米硬體生態的強大AI基石,為智慧型手機、IoT裝置乃至電動汽車提供獨特的智能體驗,從而強化其生態護城河。•全面開源,建構生態: 小米選擇完全開源MiMo-V2-Flash,並將其權重和推理程式碼發佈到Hugging Face和SGLang等平台,這在國內大廠中實屬罕見。此舉旨在降低大模型應用門檻,加速高性能AI技術在更廣泛場景中的應用和普及,從而凝聚開發者,共同建構一個繁榮的開源AI生態。✅ AI時代的“小米時刻”MiMo-V2-Flash的發佈,猶如十年前小米手機以1999元的定價重新定義了旗艦機市場。如今,小米正以0.1美元/百萬token的超低成本和頂級的性能,重新定義開源大模型的“性價比”標準。這不僅是技術層面的突破,更是商業模式和生態理念的複利效應。在當前全球大模型競爭白熱化、成本與效率日益重要的背景下,小米正通過MiMo-V2-Flash爭奪開源生態中的關鍵位置,為全球AI開發者提供了前所未有的工具和機遇。屬於開源模型的“小米時刻”,真的來了。 (澤問科技)
小米突然發佈新模型:媲美 DeepSeek-V3.2,把手機的性價比捲到 AI
開源模型再次迎來一位重磅選手,就在剛剛,小米正式發佈並開源新模型 MiMo-V2-Flash。MiMo-V2-Flash 總參數 3090 億,活躍參數 150 億,採用專家混合架構 (MoE),性能還能和 DeepSeek-V3.2、Kimi-K2 這些頭部開源模型掰掰手腕。此外,MiMo-V2-Flash 採用 MIT 開源協議,基礎版權重也已經在 Hugging Face 上發佈。當然,除去「開源」這一標籤,新模型真正的殺手鐧在於架構設計上的激進創新,把推理速度拉到了 150 tokens/秒,成本壓到了每百萬 token 輸入 0.1 美元、輸出 0.3 美元,主打一個超絕性價比。此外 ,根據官方體驗頁面資訊,MiMo-V2-Flash 還支援深度思考和聯網搜尋功能,既能對話聊天,也能在需要即時資料、最新動態或資料核對的場景裡派上用場。附上 AI Studio 體驗地址:http://aistudio.xiaomimimo.com開源模型新標竿,MiMo-V2-Flash 跑分全線開花先來看看 MiMo-V2-Flash 的跑分。基準測試成績顯示,AIME 2025 數學競賽和 GPQA-Diamond 科學知識測試中,MiMo-V2-Flash 都排在開源模型前兩名。程式設計能力更是亮眼,SWE-bench Verified 得分 73.4%,超越所有開源模型,直逼 GPT-5-High。而這個測試是讓 AI 去修真實世界的軟體 bug,73.4% 的成功率也意味著它能搞定大部分實際程式設計問題。在多語言程式設計基準測試 SWE-Bench Multilingual 裡,MiMo-V2-Flash 的解決率為 71.7%。轉看智能體任務,MiMo-V2-Flash 在τ²-Bench 分類得分中,通訊類 95.3 分,零售類 79.5 分,航空類 66.0 分,BrowseComp 搜尋代理得分 45.4,啟用上下文管理後直接飆到 58.3。這些資料說明,MiMo-V2-Flash 不僅會寫程式碼,還能真正理解複雜任務邏輯,執行多輪智能體互動。更重要的是,寫作質量也接近頂級閉源模型,這意味著 MiMo-V2-Flash 不只是個工具,還能當個靠譜的日常助手。MiMo-V2-Flash 在保持長文字性能的同時,還降低了成本,究其原因,離不開兩項核心技術創新。混合滑動窗口注意力機制:傳統大模型處理長文字時,全域注意力機制會導致計算量二次爆炸,儲存中間結果的 KV 快取也跟著飆升。小米這次採用了 5 比 1 的激進比例,5 層滑動窗口注意力搭配 1 層全域注意力交替使用,滑動窗口只看 128 個 token。這種設計讓 KV 快取儲存量直接減少了近 6 倍,但長文字能力卻沒打折扣,最長支援 256k 上下文窗口。且模型即使在這麼激進的窗口設定下,照樣能穩住長文字性能。對此,羅福莉在社交平台上特別指出一個反直覺的發現:窗口大小 128 是「最佳甜點值」。實驗證明,盲目擴大窗口(如增至 512)反而會導致性能下降。同時她強調,在實施該機制時,sink values 是維持性能的關鍵,絕不可省略。另一個黑科技是輕量級多 Token 預測 (MTP)。傳統模型生成文字時一次只能吐一個 token,就像打字員一個字一個字敲。MiMo-V2-Flash 通過原生整合的 MTP 模組,能平行預測多個 token,一次性猜出接下來好幾個 token。實測平均能接受 2.8 到 3.6 個 token,推理速度直接提升 2 到 2.6 倍,不僅在推理時管用,訓練階段也能加速採樣,減少 GPU 空轉,屬於一箭雙鵰。羅福莉提到,在三層 MTP 設定下,他們觀察到平均接受長度超過 3,編碼任務速度提升約 2.5 倍。它有效解決了小批次 On-Policy 強化學習中「長尾樣本」帶來的 GPU 空閒時間浪費問題。啥叫長尾樣本?就是那些特別難、特別慢的任務,拖著其他任務一起等,GPU 就在那乾瞪眼。MTP 把這個問題給解了,極大提高了效率。不過羅福莉也坦誠,這次因為時間緊迫沒能把 MTP 完整整合進 RL 訓練循環,但它與該流程高度契合。小米已經把三層 MTP 開源了,方便大家在自己的項目中使用與開發。算力只用 1/50,性能如何不打折?預訓練階段,新模型使用 FP8 混合精度,在 27 兆 token 資料上完成訓練,原生支援 32k 序列長度。FP8 混合精度是一種壓縮數值表示的技術,能在保持精度的同時減少視訊記憶體佔用和加速訓練。這種訓練方式在業界並不常見,需要對底層框架進行深度最佳化。而在後訓練階段,小米整了個大活,提出了多教師線上策略蒸餾 (MOPD)。傳統的監督微調加強化學習管線,不僅訓練不穩定,算力消耗還賊高。MOPD 的思路是讓學生模型在自己的策略分佈上採樣,然後由多個專家教師在每個 token 位置提供密集的獎勵訊號。通俗點說就是,學生模型自己寫作業,老師在每個字上都給評分,不用等寫完整篇才打分。這樣一來,學生模型能快速從教師那裡學到精髓,而且訓練過程穩定得多。最誇張的是效率提升,MOPD 只需要傳統方法 1/50 的算力,就能讓學生模型達到教師性能峰值。這意味著小米能用更少的資源,更快地迭代模型。而且 MOPD 支援靈活接入新教師,學生模型成長後還能反過來當教師,形成「教與學」的閉環自我進化。今天的學生,明天的老師,後天又能教出更強的學生,套娃玩法屬實有點東西。用羅福莉的話來說,他們借鑑 Thinking Machine 的 On-Policy Distillation 方法,將多個強化學習模型進行融合,結果帶來了驚人的效率提升。這為建構一個自我強化循環系統奠定了基礎,學生模型可以逐步進化,最終成為更強的教師模型。在智能體強化學習擴展上,小米 MiMo-V2-Flash 研究團隊基於真實 GitHub issue 建構了超過 10 萬個可驗證任務,自動化流水線跑在 Kubernetes 叢集上,並行能開 10000 多個 Pod,環境部署成功率 70%。針對網頁開發任務,還專門搞了個多模態驗證器,通過錄製視訊而非靜態截圖來驗證程式碼執行結果,直接減少視覺幻覺,確保功能正確。對於開發者而言,MiMo-V2-Flash 能與 Claude Code、Cursor、Cline 等主流開發環境無縫配合,256k 的超長上下文窗口支援數百輪智能體互動與工具呼叫。256k 是什麼概念? 大概相當於一本中等篇幅的小說,或者幾十頁技術文件。這意味著開發者可以把 MiMo-V2-Flash 直接融入現有工作流,不需要額外適配,拿來就用。小米還把所有推理程式碼貢獻給了 SGLang,並在 LMSYS 部落格分享了推理最佳化經驗。技術報告公開了完整模型細節,模型權重 (包括 MiMo-V2-Flash-Base) 在 Hugging Face 上以 MIT 許可協議發佈。這種全面開放原始碼的態度,在國內大廠裡屬實少見。目前 MiMo-V2-Flash 已經在 API Platform 限時免費開放,開發者可以直接上手體驗。小米的 AI 野心,不止於手機助手MiMo-V2-Flash 的發佈,標誌著小米在 AI 賽道上的全面發力。羅福莉在社交平台上透露了更多資訊,「MiMo-V2-Flash 已正式上線。這只是我們 AGI 路線圖上的第二步。」第二步就已經這麼猛了,那後面還有啥大招?想想就有點期待。當然,小米在技術報告中也坦誠,MiMo-V2-Flash 與最強的閉源模型相比仍有差距。但他們的計畫很明確,通過擴大模型規模與訓練算力來縮小差距,同時繼續探索更穩健、更高效的智能體架構。MOPD 框架下教師模型與學生模型的迭代共進化,也為未來的能力提升留足了空間。把視角拉高來看,背後是小米對整個 AI 生態的一次戰略押注。手機、IoT、汽車,小米的硬體生態需要一個強大的 AI 底座,MiMo-V2-Flash 顯然就是小米為全硬體生態準備的那塊基石。就像十四年前小米手機用 1999 元重新定義了旗艦機的價格標準,如今 MiMo-V2-Flash 正在用白菜價的成本、73.4% 的 SWE-Bench 得分,重新定義開源大模型的性能標準。這一次,屬於開源模型的「小米時刻」真的來了。 (APPSO)