Google DeepMind 通用機器人路線圖：VLM → VLA + Agent，“能幹活”的機器人跑起來了

2025/12/23

•

Google DeepMind 的機器人團隊強調，他們做的不是預先編好動作、只會後空翻表演的機器人，而是面向現實世界的開放式通用機器人。這類機器人需要能夠理解人類自然語言指令，並且可以靈活組合執行幾乎不限種類的任務，而不是只會重複固定指令碼。

相比四年前，實驗室形態也發生了明顯變化：依託更加魯棒的視覺主幹網路（visual backbone），模型對光照、背景、雜亂環境的敏感度大幅下降，視覺泛化問題被解決了很大一部分，不再需要用隱私屏去“淨化”場景。

來源：AI工業（採用 AI 工具整理）

最近幾年的核心進展，是把機器人系統直接建構在大模型之上。團隊使用大規模視覺–語言模型（VLM）作為通用世界知識的底座，在此基礎上疊加控制能力，建構出視覺–語言–動作模型（VLA/VALA）。在這樣的模型中，機器人在世界中的物理動作也被視為一種序列 token，與視覺 token 和語言 token 放在同一序列中建模。這使得模型能夠在統一框架下處理“看到了什麼、理解成什麼、接下來該做什麼動作”，從而在新場景、新物體、新指令上表現出更強的動作泛化（action generalization）能力。

在任務層面，系統已經從早期只會做“拿起、放下、拉開拉鏈”等短視野任務，邁向可以完成“行李打包、垃圾整理”等長視野任務。通過在 VLA 上方加入一個 Agent 層，系統可以把很多短動作編排成完整的長鏈條行為。例如“幫使用者打包去倫敦的行李”時，Agent 會先查詢當地天氣，再推理需要準備那些物品，然後呼叫 VLA 驅動機器人執行具體收納，形成 “上層推理規劃 + 底層物理執行” 的分層架構。

在Gemini 1.5中，團隊又加入了 “思考（thinking）元件”：模型在執行動作之前，會先顯式輸出自己對即將執行動作的“想法”和推理過程，然後才真正下發動作指令。本質上，這是把語言模型中的鏈式思考（Chain-of-Thought）機制遷移到機器人控制上。實驗結果顯示，顯式輸出“思考過程”可以顯著提升機器人在新任務上的泛化能力和成功率，同時也大幅提升了系統的可解釋性。

代表性案例：Aloha 午餐盒、桌面操作與衣物分揀

在具體實驗中，團隊用 Aloha 機器人演示了一個高難度的 “午餐盒打包”長視野任務。

機器人幾乎完全依賴視覺伺服（visual servoing），以毫米級精度抓住自封袋的一小段邊緣，把面包準確塞進狹窄空間，在出錯時根據視覺反饋不斷調整和重試。支撐這些端到端策略的資料主要來自遠端操作（tele-operation），研究人員以第一人稱視角“軀體化”地操控機器人完成任務。

機器人則從這些人類演示資料中學習“什麼算做對”，最終得到真正端到端的視覺–動作控制策略。

他們還展示了結合語言控制與通用桌面操作的場景：桌面上有不同顏色的積木和托盤，上面疊加了Gemini 語言互動層，使用者可以直接說出指令，機器人一邊執行一邊用語言反饋自己的動作。

更關鍵的是，場景中加入了完全未見過的新物體（例如剛買來的梨形小容器、減壓球），系統依然可以理解諸如“打開綠色梨形容器，把粉色軟團放進去，再蓋上”的複雜指令，展現出對新物體、新組合的開放式泛化能力。

在另一個衣物分揀的人形機器人示例中，模型在每個時間步同時輸出 “思考文字 + 接下來要做的動作”，將思考與行動統一在一個端到端閉環模型中，既提升了表現，也增強了可偵錯性和可解釋性。

技術路線已成型，瓶頸轉向物理互動資料

團隊整體的判斷是：儘管當前機器人仍然偏慢、動作有些笨拙，成功率也並非完美，但與幾年前相比，已經出現了“質變級”的進步。現在的系統能夠理解語義、形成有上下文的場景理解，並對複雜的物理任務進行分解與推理。他們認為目前的很多成果，已經是在搭建未來通用家用機器人的基礎模組，而不是將來會被完全推翻的臨時方案。在這種情況下，真正的核心瓶頸，已經從“模型結構設計”轉移到了“資料匱乏”：機器人要學會通用操作能力，需要海量的真實世界物理互動資料，而這類資料的規模遠遠比不上網際網路的文字和圖像。

未來一個重要方向，是充分利用人類在網際網路上發佈的大量手工操作視訊，從這些人類示範中大規模學習，從而緩解實體機器人採集資料成本高、速度慢的問題。總體來看，通用機器人操作仍然是一個高度非結構化、開放式的難題，但在團隊看來，如果能跨過“物理互動資料”的門檻，當前這些“幫忙疊衣服、打包午餐”的演示，很可能就是一場真正“機器人革命”的前夜。 (AI工業)