“雷軍的AI秘密武器”羅福莉首秀：詳解小米AGI之路

2025/12/18

•

12月17日，2025小米“人車家全生態合作夥伴大會”舉辦。在這次大會上，小米MiMo團隊負責人羅福莉完成了首秀演講。作為前DeepSeek核心成員，羅福莉自從加入小米，就被視為小米AI研發走向“正規軍化”和“極客化”的里程碑。

市場曾期待她能帶來像DeepSeek那樣顛覆性的“小而美”模型，而羅福莉身上AI時代的極客特質，也許能與小米初創時期的極客基因完美相融，產生新的化學反應。

羅福莉的首秀略顯緊張，但不負眾望，她帶來了一個高效的模型MiMo-V2-Flash，也拋出了新的AGI夢想。

在她看來，現在的模型大多隻是“完美的語言外殼，沒有錨定現實世界的物理模型”；“真正的智能是從互動中活出來的”，通往AGI的必經之路，不是打造一個程序，而是“推演整個世界的運作邏輯，打造一個虛擬宇宙”。

這次首秀，羅福莉確實帶來了鮮明的“DeepSeek 基因”，比如MoE架構、MTP技術和對極致效率的追求。

此次開放原始碼的MiMo-V2-Flash模型，它具備三個核心特點：

高效推理：雖然總參高達309B，但通過MoE架構僅啟動15B，結合被低估的MTP（多令牌預測）技術，生成速度達到150 tokens/秒。這帶來約2.5倍加速，主要為瞭解決車機、助手等端側互動對延遲的敏感。
創新的長文字架構：設計上追求“簡單優雅”，採用Hybrid SWA機制，鎖定128 tokens的“神奇窗口”。這不僅支援256K長上下文，固定了KV快取以降低硬體壓力，還在程式碼生成上刷新了SOTA。
極高的性價比：落地層面非常務實，後訓練階段採用MOPD技術，用極低的計算量（不到標準流程1/50）復刻教師模型性能，意在降低大規模部署的成本。

這場首秀被安排在“人車家全生態”大會上，意義耐人尋味。羅福莉在小米的職責很明確：主導大模型研發，通過高效推理與智能體技術，推動AI從“語言互動”跨越到“物理世界”，賦能全生態。

但客觀來看，端側AI智能、賦能全生態的理想還在路上，現在的硬體依然難以支撐這樣一個已經“極致效率”的模型。

以當前最高端的旗艦手機為例，端側模型的舒適區依然停留在3B到7B參數之間。MiMo-V2-Flash的15B啟動參數，對移動裝置而言依然是“房間裡的大象”。

所謂的“高效推理”，更多是指在雲端資料中心實現了高吞吐量，對於使用者手中的終端，這依然是一個重度依賴網路的“雲端模型”。

雖然有驚喜，但是此次小米並沒有打破端側AI的算力天花板，對於期待“AI手機”變革的使用者而言，還需要繼續等待。

但今天的羅福莉，確實在給小米，講了一個可圍繞“人車家生態的”、新的AGI故事。

以下為演講實錄（為最佳化閱讀體驗，做了二次編輯、刪減）：

01 從生物演變看 AI 發展路徑

今天我想帶大家換一個視角，從 10 億年生物進化的長河中，重新去審視我們正在經歷的這一場 AI 變革。

如果我們回到生命進化的歷程，會發現自然界在建構智能這座金字塔時，遵循著非常嚴密的邏輯：在 6 億年前，生命首先學會了控制身體與環境互動；緊接著進化出了多巴胺系統，通過強化學習進一步提升生存能力；在 2 億年前，哺乳動物的大腦首次具備了在行動前先在大腦裡模擬未來的能力；最終我們發現，人類才登上了智能的塔尖，掌握了語言這一抽象的符號系統。

所以我們能看到，生物演化的規律是先具備對物理世界的感知和生存體驗，最後才誕生了語言。但大家都能發現，到現在為止，大模型的發展路徑其實跟生物進化路徑是不同步的，甚至說是一種倒敘，或者說是一種跳躍。

生物是先從行動進化到思考，再進化到語言；但是大模型是先學會了語言，再去補齊它的思考能力，最後再去補齊對物理世界的模擬以及具身感知。

為什麼大模型智能的產生首先是在語言領域？因為語言不僅僅是一種符號的排列組合，更是人類思維以及對於世界的一種描述。在文字領域的投射，本質上是一種失真壓縮。當大模型通過 Next Token Prediction（下一詞預測）這種範式在海量文字裡進行學習，試圖把 Loss（損失函數）降到最低的時候，我們發現它不僅僅是在擬合一個統計規律，而是在壓縮人類數十億年間關於這個世界的認知同構。

這種壓縮的過程，在我們看來就是一種智能。所以，大模型通過語言的爆發，通過 Scaling（擴展）算力和資料，從而理解了人類的思維和對世界的理解。但其實它並不真正像人類一樣具備對整個物理世界的感知。嚴謹來說，它應該是成功地解碼了人類思維在文字空間的一個投影。大家都能看到，這其實是一種自頂向下的捷徑，因為它是在學習一種智能的結果，來倒推智能產生的過程。

02 MiMo-V2-Flash 的誕生，解決三大核心問題

不管怎麼說，語言包含了人類對世界極致的壓縮，是智慧的結晶，也是高階智能體之間高效協作的工具。因此，小米從語言出發，建構了全新一代面向 Agent（智能體）的基座模型——MiMo-V2-Flash。

MiMo-V2-Flash 在研發之初，主要圍繞著三個非常關鍵的問題展開：

第一，我們認為當代的智能體必須要有一個高效的溝通語言，即程式碼能力和工具呼叫能力。

第二，目前智能體之間的溝通頻寬非常低，如何加速頻寬？這需要一個推理效率極高的模型結構。

第三，Scaling 的範式已經逐步從預訓練（Pre-train）轉向後訓練（Post-train），我們如何激發後訓練的潛能？這就需要一個穩定的範式，以便在強化學習（RL）上投入更多的 Compute（算力）。

在這三個問題的驅動下，我們看到了 MiMo-V2-Flash 超強的基座潛能。雖然它的總參數在我看來非常小——總參數 309B，啟動參數隻有 15B，我甚至都不願意稱它為“大”模型——但它的程式碼能力和 Agent 能力在世界級公開公正的評估榜單上，已經進入了全球開源模型 Top 1-2 的行列。

基本上，大部分評估基準已經超過或者與 DeepSeek-V3、Kimi、Qwen 等模型相當，而這些模型的總參數量通常是 MiMo-V2-Flash 的兩倍到三倍。

03 性能與成本的平衡，挑戰推理不可能三角

這個圖展示了全球相同水位大模型在價格和速度上的比較：橫軸是推理價格（從大到小），縱軸是推理速度（從小到大）。我們能看到 MiMo 在右上角，代表了低成本、高速度。

舉兩個模型進行對比：比如 DeepSeek-V3.2，MiMo-V2-Flash 比它更便宜一點，但推理速度大概是 V3.2 的三倍左右。

再比如 Gemini 2.5 Pro，雖然綜合性能相當，且推理速度差不多，但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 貴了整整 20 倍。

04 架構創新與 MTP 加速

那麼我們是怎麼做到這一切的呢？核心關鍵在於圍繞“極致推理效率”重新設計模型結構，主要依靠兩個創新。

第一個是 Hybrid Attention（混合注意力）結構。我們採用了 Hybrid Sliding Window Attention（混合滑動窗口注意力）和 Full Attention（全域注意力），比例大概是 5:1。

為什麼選 Sliding Window Attention？因為它看起來非常簡單，只關注鄰域的 128 個 Token。經過大量實驗驗證，我們發現一些看似複雜的 Linear Attention（線性注意力）結構，在兼顧長短文推理和知識檢索的綜合性能上，其實並不如簡單的 Sliding Window Attention。更重要的是，它的 KV Cache 是固定的，能非常好地適配當代主流的 Infra（基礎設施）推理框架。

圖：全域注意力（GA）和滑動窗口注意力（SWA）的1:5混合結構

第二個是 挖掘 MTP（Multi-Token Prediction，多令牌預測）的潛力。MTP 一開始被提出是用於做推理加速的，後來 DeepSeek 將其用於提升基座模型能力。我們在訓練時加入了一層 MTP 層以提升基座潛能，並且在微調時加入了更多層的 MTP，用少量算力就提升了 MTP 層的接受率。

最終推理時，我們使用了三層 MTP 進行加速平行 Token 驗證。在實際場景中，這種方式能做到 2.2 到 2.6 倍的推理加速。

在社區關於三層 MTP 的情況下，我們來看模型輸出吞吐：在單機吞吐能做到 5,000~15,000 Tokens/秒的基礎上，單請求吞吐也能做到 150~155 Tokens/秒。使用 MTP 相比不使用，整體速度提升了 2 到 3 倍。

05 訓練範式革新：MOPD 與自進化

除了關注預訓練結構的高效性，我們還在思考如何擴展強化學習訓練的 Compute。強化學習訓練通常非常不穩定，因此我們提出了 MOPD（Multi-Teacher On-Policy Distillation，多教師線上策略蒸餾） 範式。

它的核心在於 On-Policy，依賴稠密的 Token Level Reward（令牌級獎勵）進行監督學習。通常 Post-train 範式會通過 SFT 和 RL 拿到各領域專家模型。MOPD 則會讓 Student（學生）模型基於自身機率分佈 Roll out（生成）一些序列，然後用專家模型對這些序列進行打分，提供非常稠密的監督訊號。

我們發現這種學習效率極高，通過簡短的幾十步就能將各領域專家的能力快速蒸餾到 Student 模型上。

此外，我們還有一個意外發現：當 Student 很快超越 Teacher 時，我們正在嘗試將 Teacher 替換成更強的 Student，繼續自我迭代提升，這是一個正在進行中的工作。

06 邁向物理世界：從語言模擬到真實互動

MiMo-V2 已經初步具備在語言空間模擬世界的能力。比如，我們可以通過 HTML 讓它寫一個作業系統，很多功能都是可實現的；或者寫一個 HTML 模擬太陽系；甚至做一個畫聖誕樹並產生互動的小 Demo。

MiMo-V2-Flash 已經在昨天發佈，我們開源了所有模型權重，同步了技術報告細節，並提供了 API 供開發者接入 Web Coding IDE。我們的體驗 Web 也已上線，大家可以掃描試用。

雖然現在的大模型能聊天、能寫程式碼，但我相信大家還是不放心把身邊複雜的任務交給它。我認為真正的下一代智能體系統，不應該只是一個語言模擬器，而是需要跟世界共存。

下一代智能體必須具備兩個潛能：第一，從“回答問題”變成“完成任務”。 這不僅需要記憶、推理、規劃能力，更需要一個 Omni（全模態）的感知能力。做一個統一的動態系統非常必要，這是理解世界的基礎。有了這個基礎，模型才能無縫嵌入到像眼鏡這樣的智能終端，融入我們的生活流。

第二，建構物理模型。 回到開頭的話題，現有大模型本質上是用算力的“暴力美學”攻克了頂層的語言和第二層的強化學習，但跳過了中間對世界的感知和模擬，以及底層的實體互動。這就是為什麼大模型能做奧數、模仿莎士比亞，卻不懂重力等物理法則，經常產生具身幻覺。

因此，AI 進化的下一個起點，一定要有一個可以跟真實環境互動的物理模型。我們要打造的本質上不是一個程序，而是一個具備物理一致性、時空連貫性的虛擬宇宙。

這意味著 AI 能力的本質跨越——不僅僅是看懂畫面，而是理解背後的物理規律；不僅僅是處理文字，而是推演世界的運作邏輯。真正的智能絕對不是在文字裡讀出來的，而是在互動裡“活”出來的。 (騰訊科技)