Google最強機器人「大腦」來了：一句話完成垃圾分類

2025/09/27

•

Google DeepMind 於9 月26 日正式發表了Gemini Robotics 1.5 系列模型

一句話指令，就能完成複雜的垃圾分類，這背後有那些關鍵技術？

Google DeepMind 發表的 Gemini Robotics 1.5 系列模型，被認為是讓AI 智能體真正進入現實世界的重要一步。它們不僅能理解語言、看懂畫面，還能自主規劃並完成複雜任務。

例如，最驚豔的演示是垃圾分類：只需要一句話——“請按照當地要求把桌子上的垃圾分類好”，機器人就會先上網查詢本地規則，再識別物品，最後一件件放入正確的垃圾桶。

這標誌著，AI 從“虛擬螢幕”第一次跨進了“物理世界”，並且能把思考變成行動。

Gemini Robotics 1.5 系列由兩款核心模型組成，它們像是機器人的「小腦」和「大腦」。

Gemini Robotics 1.5（VLA 模型）：它將視覺、語言和動作結合起來，將人類的語言和圖像理解轉化為機器動作。執行之前，它會先“想一想”，把思考過程展現出來，學到的經驗還能跨機器人共享。
Gemini Robotics-ER 1.5（VLM 模型）：它更像機器人的“大腦”，不僅能看懂現實世界，還能推理、規劃，甚至呼叫外部工具來產生詳細的多步驟方案。在空間理解和具身推理測試裡，它的成績已經超越了GPT-5 和Gemini 2.5 Flash。

一個管行動，一個管推理。兩者結合，讓機器人真正擁有了「先想後做」的智慧閉環。

Gemini Robotics 1.5 系列的突破不只是性能提升，而是讓機器人擁有了更像人類的學習與行動方式。

這一切讓機器人從「機械執行者」進化為「理解與行動的結合體」。

如果說以前的機器人像是“高級機械手”，那麼現在它們已經能處理複雜的現實任務。

從“單步命令”到“長鏈路任務”，從“被動執行”到“主動規劃”，這場升級意味著機器人正在進入一個全新的智能時代。

Google已經開放了部分介面：

同時，Google也發布了詳細的技術報告。這意味著，未來開發者和產業界都能藉助這些新模型，把AI 賦能的機器人應用到更多場景中。

AI 正從代碼和資料中走出來，進入真實世界。 Gemini Robotics 1.5 系列，不只是性能迭代，而是一次範式轉變：它讓機器人第一次學會了「先思考，再行動」。

或許在不遠的將來，一句話，就能喚醒一個真正理解你需求的機器人夥伴。（方到）