剛剛，Google發佈機器人最新「大腦」模型！思考能力SOTA，還能「跨物種」學習

2025/09/26

•

【新智元導讀】Google最新發佈的Gemini Robotics 1.5系列模型，讓機器人真正學會了「思考」，還能跨不同具身形態學習技能。這意味著，未來的機器人將成為和人類協作、主動完成複雜任務的智能夥伴。

Google又給機器人「換大腦」了！

剛剛，DeepMind發佈了針對機器人和具身智能的Gemini Robotics 1.5系列家族模型，專為機器人和具身智能打造的新一代「大腦」。

Gemini Robotics 1.5系列包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5。

它們結合在一起，就建構出一個強大的智能體框架。

在下面這個1分40秒的視訊，Google的研究科學家讓兩個機器人完成了兩個不同任務。

第一個任務是垃圾分類。

請Aloha根據舊金山的垃圾分類標準，把物品分到堆肥（綠桶）、回收（藍桶）和垃圾（黑桶）裡。

Aloha通過查閱規則並觀察物品，完成了分類任務。

第二個任務是打包行李。

請Apollo幫忙打包去倫敦旅行的行李，並放入針織帽。

Apollo還主動查詢天氣，提醒倫敦多天會下雨，並貼心地把雨傘也放進包裡。

整體看下來，在最新系列模型的加持下，現在機器人已經越來越有科幻電影裡的那味了！

想像一下，一個機器人不僅能看懂你家客廳的雜物，還能規劃、思考並親手收拾乾淨。

Gemini Robotics 1.5正是朝這個目標邁出的關鍵一步。

它讓機器人具備「思考後行動」的能力，能在複雜環境中像人類一樣理解、推理並完成多步驟任務。

這一突破，有望打開通用機器人的新時代。

Gemini Robotics-ER 1.5擅長在物理環境中進行規劃與邏輯決策，擁有頂尖的空間理解能力，支援自然語言互動，可評估任務成功率與進度，並能直接呼叫Google搜尋等工具獲取資訊或使用任何第三方使用者自訂功能。

隨後，Gemini Robotics-ER 1.5會為Gemini Robotics 1.5提供每一步的自然語言指令，後者則運用其視覺與語言理解能力直接執行具體動作。

Gemini Robotics 1.5還能協助機器人反思自身行為，以更好地解決語義複雜的任務，甚至能用自然語言解釋其思考過程——這讓它的決策更加透明。

這兩款模型均基於核心Gemini模型家族建構，並通過不同資料集進行微調以專精於各自職能。

當它們協同工作時，可顯著提升機器人對長周期任務和多樣化環境的泛化能力。

Gemini Robotics-ER 1.5是首個為具身推理最佳化的思維模型。

它在學術和內部基準測試中均實現了最先進的性能表現。

下面展示了Gemini Robotics-ER 1.5的部分能力，包括物體檢測與狀態估計、分割掩碼、指向識別、軌跡預測以及任務進度評估與成功檢測。

傳統上，視覺-語言-動作模型直接將指令或語言規劃轉化為機器人的運動。

但Gemini Robotics 1.5不僅能翻譯指令或規劃，如今還能在行動前進行思考。

這意味著它能以自然語言生成內部推理與分析序列，從而執行需要多步驟或更深層語義理解的任務。

在下面這段3分40秒的視訊，Google的科學家展示了機器人如何去完成更複雜的任務。

比如第一段將不同顏色的水果分類放到對應的盤子裡。機器人需要能感知環境、分析顏色並逐步完成動作。

第二段Apollo被要求幫助分類洗衣物和打包物品。它能自主思考並在執行中展現出鏈式任務規劃與反應能力，例如調整籃子來更好地撿起衣物，或對臨時變化作出即時反應。

機器人形態各異、大小不一，具備不同的感知能力和自由度，這使得將從一個機器人學到的動作遷移到另一個機器人變得困難。

Gemini Robotics 1.5展現出卓越的跨具身學習能力。

它能將從一個機器人學到的動作遷移到另一個機器人，無需針對每種新形態專門調整模型。

這一突破加速了新行為的學習處理程序，助力機器人變得更智能、更實用。

在下面這段2分鐘的視訊裡，Google科學家展示了不同「物種」機器人之間如何泛化學習。

在Gemini Robotics 1.5中，一個模型可以跨多個機器人使用。

比如Aloha在衣櫃場景中已有經驗，而Apollo從未見過，卻能通過遷移學習完成開門、拿衣服等全新動作。

這展示了「跨具身學習」的潛力。

未來，不同場景中的機器人（如物流、零售）可互相學習，從而大大加快通用機器人研發的處理程序。 (新智元)