Google最強機器人「大腦」來了:一句話完成垃圾分類

Google DeepMind 於9 月26 日正式發表了Gemini Robotics 1.5 系列模型

一句話指令,就能完成複雜的垃圾分類,這背後有那些關鍵技術?

🌐 一|AI Agents走向物理世界

Google DeepMind 發表的 Gemini Robotics 1.5 系列模型,被認為是讓AI 智能體真正進入現實世界的重要一步。它們不僅能理解語言、看懂畫面,還能自主規劃並完成複雜任務。

例如,最驚豔的演示是垃圾分類:只需要一句話——“請按照當地要求把桌子上的垃圾分類好”,機器人就會先上網查詢本地規則,再識別物品,最後一件件放入正確的垃圾桶。

這標誌著,AI 從“虛擬螢幕”第一次跨進了“物理世界”,並且能把思考變成行動。

⚙️ 二|兩個核心模型:小腦與大腦

Gemini Robotics 1.5 系列由兩款核心模型組成,它們像是機器人的「小腦」和「大腦」。

  • Gemini Robotics 1.5(VLA 模型):它將視覺、語言和動作結合起來,將人類的語言和圖像理解轉化為機器動作。執行之前,它會先“想一想”,把思考過程展現出來,學到的經驗還能跨機器人共享。
  • Gemini Robotics-ER 1.5(VLM 模型):它更像機器人的“大腦”,不僅能看懂現實世界,還能推理、規劃,甚至呼叫外部工具來產生詳細的多步驟方案。在空間理解和具身推理測試裡,它的成績已經超越了GPT-5 和Gemini 2.5 Flash。

一個管行動,一個管推理。兩者結合,讓機器人真正擁有了「先想後做」的智慧閉環。

🔑 三|關鍵技術亮點

Gemini Robotics 1.5 系列的突破不只是性能提升,而是讓機器人擁有了更像人類的學習與行動方式。

  • 思維鏈機制:在執行前,模型會顯式「說出」自己的推理,就像你看見機器人在打草稿,過程更透明,也更安全。
  • 模型協作:大腦負責規劃,小腦負責執行,形成「指揮官+士兵」的模式。
  • 跨本體學習:一個機器人學會的技能,可以遷移給另一個機器人,就像學生之間可以互相傳授經驗。
  • 工具呼叫:機器人能主動聯網或使用數字工具,例如查垃圾分類規則,然後才去動手執行。

這一切讓機器人從「機械執行者」進化為「理解與行動的結合體」。

🚀 四|突破的意義

如果說以前的機器人像是“高級機械手”,那麼現在它們已經能處理複雜的現實任務。

  • 在家庭裡,它可以整理物品、打掃房間。
  • 在工廠裡,它能分步驟完成精細工序,減少人工誤差。
  • 在醫院裡,它有潛力輔助醫生完成需要精確配合的操作。

從“單步命令”到“長鏈路任務”,從“被動執行”到“主動規劃”,這場升級意味著機器人正在進入一個全新的智能時代。

📌 五|開放與未來

Google已經開放了部分介面:

  • Gemini Robotics-ER 1.5 可透過Google AI Studio 的Gemini API 使用。
  • Gemini Robotics 1.5則暫時只開放給部分合作夥伴。

同時,Google也發布了詳細的技術報告。這意味著,未來開發者和產業界都能藉助這些新模型,把AI 賦能的機器人應用到更多場景中。

🪶 結語

AI 正從代碼和資料中走出來,進入真實世界。 Gemini Robotics 1.5 系列,不只是性能迭代,而是一次範式轉變:它讓機器人第一次學會了「先思考,再行動」。

或許在不遠的將來,一句話,就能喚醒一個真正理解你需求的機器人夥伴。(方到)