小米打通智駕和具身大模型，然後開源了

2025/11/26

•

全球首個自駕+機器人統一基座模型開源了！

針對自駕與具身操作場景的知識遷移難題，小米汽車陳龍團隊提出並開源了全球首個打通這兩大領域的跨具身（X - Embodied）基座模型——MiMo-Embodied。

MiMo-Embodied基於MiMo-VL架構，通過建構涵蓋通用視覺、具身任務及駕駛場景的高品質資料集，並採用包含思維鏈（CoT）和強化學習（RL）的漸進式四階段訓練策略，有效打破了室內操作與戶外駕駛之間的領域鴻溝。

在實測效果上，MiMo-Embodied在自動駕駛與具身智能共計29個Benchmark上均超越了現有的專用模型及通用模型，實現了跨領域的最先進（SOTA）性能。

無論是開車的環境感知、規劃，還是機器人的拿取、導航，主打一個我全都要。

具身與智駕，小米全都要！

在以往具身/自駕的VLM領域中，往往存在以下問題：

一方面是缺乏統一的具身VLM(Unified Embodied VLM)。

現有的視覺語言模型（VLMs）大多專注於單一領域（僅室內任務或僅戶外駕駛），缺乏能夠連接這兩個領域的統一模型。限制了模型在動態環境中與物理世界有效互動的能力。

而這，也帶來了領域差距與遷移困難。

具身智能側重於室內操作，而自動駕駛側重於戶外道路，兩者存在顯著的領域差距（Domain Gap），阻礙了能力的跨領域遷移。

另一方面則是評估體系缺失，即缺乏全面的跨具身能力評估體系來衡量模型在兩個領域的綜合表現。

為瞭解決這些挑戰， MiMo-Embodied試圖將自動駕駛和具身智能的任務合併到一個統一的VLM中，以整合模型的跨具身能力。

如上圖所示，MiMo-Embodied架構由以下三個部分組成：

用於編碼視覺輸入的 Vision Transformer (ViT)：模型使用ViT來編碼各種類型的視覺輸入，包括單張圖像、多張圖像和視訊。這使得模型能夠提取複雜的模式和關係。
一個投影器（projector）：使用多層感知機（MLP）作為投影器（Projector），將視覺Token對應到與大語言模型對齊的潛在空間。
負責文字理解和推理的LLM：LLM作為核心元件，負責理解文字指令並結合視覺資訊進行推理，生成連貫且上下文相關的響應。

由此，通過無縫整合視覺和文字領域，MiMo-Embodied增強了多樣化多模態推理任務和應用的潛力。

接下來，為了實現跨領域的統一能力，論文提出了一套系統的資料建構和分階段訓練策略：

首先在資料方面，訓練資料涵蓋了通用多模態理解、具身 AI（功能性預測、規劃、空間理解）和自動駕駛（感知、預測、規劃）三個維度的多模態資料：

通用資料：基於MiMo-VL語料庫，包含圖像、視訊、長文字等，長文件和合成推理資料，確保廣泛覆蓋感知、推理和互動能力。
具身智能資料：涵蓋可供性預測（Affordance Prediction）、高層任務規劃和空間理解，整合了如 PixMo-Points, RoboAfford, RoboRefIt等資料集。
自動駕駛資料：涵蓋環境感知、狀態預測和駕駛規劃，整合了 CODA-LM, DriveLM, nuScenes-QA等資料集。

基於上述建構的資料集，研究又開發了一種四階段訓練策略。

基於MiMo-VL，研究引入了具身智能和自動駕駛方面的專門監督，最終通過思維鏈微調和強化學習實現高級推理能力。

這一策略有助於模型建立在先前獲得的能力之上，從而在具身互動和自動駕駛領域實現穩健的性能。

階段1：具身智能監督微調 (Embodied AI Supervised Fine-tuning)：結合通用資料和具身資料，建立核心的視覺語言理解、具身推理能力。

階段2：自動駕駛監督微調 (Autonomous Driving Supervised Fine-tuning)：在階段1的基礎上，加入大量自動駕駛資料。重點訓練多視角空間推理、視訊時間一致性和複雜交通場景分析。

階段3：思維鏈推理微調 (CoT Supervised Fine-tuning)：使用包含明確推理步驟的資料進行微調。這增強了模型處理複雜多步問題的能力，例如風險評估和行為合理性解釋。

階段4：強化學習微調 (RL Fine-Tuning)：使用 GRPO (Group Relative Policy Optimization) 演算法。通過針對正確性（如選擇題匹配、IoU計算）設計獎勵訊號，進一步最佳化模型的精確度和可靠性。

實驗測試

為了驗證MiMo-Embodied的性能，研究分別在定性和定量兩層面進行評估，定量比較涉及針對具身智能和自動駕駛的各種既定學術和行業基準的客觀評估，從而能夠與領先模型進行直接的實證比較。

定性評估則展示了MiMo-Embodied在現實世界任務中的實際效能，突出了其在複雜機器人和自動駕駛場景中的部署，並提供了其將習得能力轉化為有效性能的具體證據。

基準測試上的定量比較

首先，在具身能力方面，研究在三個核心領域進行了全面評估：可供性預測、任務規劃和空間理解。

結果表明，MiMo-Embodied 取得了具有競爭力的結果，與通用多模態模型和專用具身模型相比，在可供性預測和空間理解方面表現出特別的優勢。

其次，在自動駕駛能力方面，研究在感知能力、預測能力和規劃能力上進行了評估。包含在4種資料類型上的12個基準測試中的性能，涉及其理解複雜交通場景、預測動態道路智能體行為以及生成安全高效駕駛建議的能力。

實驗結果顯示，MiMo-Embodied在所有感知基準測試、預測、規劃中均取得了強勁的性能，在全景語義理解任務中展示了最先進的結果，同時在具有挑戰性的局部感知場景中也表現出卓越的魯棒性。

現實世界任務的定性評估

首先，為了驗證MiMo-Embodied 在複雜互動環境中的實際效用，研究評估了其在兩個基本下游應用中的性能：具身導航和操作。

在具身導航中，相較於GPT-4o、Qwen2.5-VL和RoboBrain-2.0，MiMo-Embodied展現出在多樣化家庭場景中增強的對象定位能力和一致的性能。

在操作任務中，MiMo-Embodied同樣展現出強大的可供性和空間推理能力。

在自動駕駛能力上，研究首先在具有挑戰性的NAVSIM上確定性能以進行標準化比較，然後在一個包含多樣化真實世界駕駛場景的大規模專有資料集上測試模型的能力。

實驗結果表明MiMo-Embodied可以處理多樣化的自動駕駛情況並完成具有挑戰性的任務，包括交叉路口轉彎、彎道掉頭、跟車和變道超車。

在每種情況下，模型都應感知道路上下文，整合自車狀態和導航意圖，並做出連貫的決策。

此外，MiMo-Embodied在所有評估類別中始終優於基線。值得注意的是，在轉彎、繞開障礙物和變道等複雜、互動式操作中，性能提升最為顯著。

在最後，論文表示還將基於MiMo-Embodied模型的能力，探索具身智能視覺-語言-動作（VLA）模型，以增強複雜環境中的互動，通過自然語言理解實現更直觀的任務執行。

One more thing

這篇論文的一作是郝孝帥博士。他於今年8月加入小米汽車，在陳龍博士的指導下，從事具身多模態大模型方向的研究。

郝孝帥博士畢業於中國科學院大學資訊工程研究所。此前，他曾在北京智源研究院、三星、亞馬遜等機構工作。

這篇論文的project leader是小米智能駕駛的首席科學家陳龍博士，他此前就職於英國AI獨角獸公司Wayve，主導新一代端到端自動駕駛VLA模型的研發。

更早前，他還以研究工程師身份加入Lyft，牽頭車隊學習項目，通過大規模眾包車隊資料完成自動駕駛車輛機器學習規劃器的預訓練。

論文連結： https://arxiv.org/abs/2511.16518

GitHub： https://github.com/XiaomiMiMo/MiMo-Embodied

Huggingface： https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B (量子位)