【新智元導讀】Google最新發佈的Gemini Robotics 1.5系列模型,讓機器人真正學會了「思考」,還能跨不同具身形態學習技能。這意味著,未來的機器人將成為和人類協作、主動完成複雜任務的智能夥伴。
Google又給機器人「換大腦」了!
剛剛,DeepMind發佈了針對機器人和具身智能的Gemini Robotics 1.5系列家族模型,專為機器人和具身智能打造的新一代「大腦」。
Gemini Robotics 1.5系列包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5。
它們結合在一起,就建構出一個強大的智能體框架。
在下面這個1分40秒的視訊,Google的研究科學家讓兩個機器人完成了兩個不同任務。
第一個任務是垃圾分類。
請Aloha根據舊金山的垃圾分類標準,把物品分到堆肥(綠桶)、回收(藍桶)和垃圾(黑桶)裡。
Aloha通過查閱規則並觀察物品,完成了分類任務。
第二個任務是打包行李。
請Apollo幫忙打包去倫敦旅行的行李,並放入針織帽。
Apollo還主動查詢天氣,提醒倫敦多天會下雨,並貼心地把雨傘也放進包裡。
整體看下來,在最新系列模型的加持下,現在機器人已經越來越有科幻電影裡的那味了!
想像一下,一個機器人不僅能看懂你家客廳的雜物,還能規劃、思考並親手收拾乾淨。
Gemini Robotics 1.5正是朝這個目標邁出的關鍵一步。
它讓機器人具備「思考後行動」的能力,能在複雜環境中像人類一樣理解、推理並完成多步驟任務。
這一突破,有望打開通用機器人的新時代。
Gemini Robotics-ER 1.5擅長在物理環境中進行規劃與邏輯決策,擁有頂尖的空間理解能力,支援自然語言互動,可評估任務成功率與進度,並能直接呼叫Google搜尋等工具獲取資訊或使用任何第三方使用者自訂功能。
隨後,Gemini Robotics-ER 1.5會為Gemini Robotics 1.5提供每一步的自然語言指令,後者則運用其視覺與語言理解能力直接執行具體動作。
Gemini Robotics 1.5還能協助機器人反思自身行為,以更好地解決語義複雜的任務,甚至能用自然語言解釋其思考過程——這讓它的決策更加透明。
這兩款模型均基於核心Gemini模型家族建構,並通過不同資料集進行微調以專精於各自職能。
當它們協同工作時,可顯著提升機器人對長周期任務和多樣化環境的泛化能力。
Gemini Robotics-ER 1.5是首個為具身推理最佳化的思維模型。
它在學術和內部基準測試中均實現了最先進的性能表現。
下面展示了Gemini Robotics-ER 1.5的部分能力,包括物體檢測與狀態估計、分割掩碼、指向識別、軌跡預測以及任務進度評估與成功檢測。
傳統上,視覺-語言-動作模型直接將指令或語言規劃轉化為機器人的運動。
但Gemini Robotics 1.5不僅能翻譯指令或規劃,如今還能在行動前進行思考。
這意味著它能以自然語言生成內部推理與分析序列,從而執行需要多步驟或更深層語義理解的任務。
在下面這段3分40秒的視訊,Google的科學家展示了機器人如何去完成更複雜的任務。
比如第一段將不同顏色的水果分類放到對應的盤子裡。機器人需要能感知環境、分析顏色並逐步完成動作。
第二段Apollo被要求幫助分類洗衣物和打包物品。它能自主思考並在執行中展現出鏈式任務規劃與反應能力,例如調整籃子來更好地撿起衣物,或對臨時變化作出即時反應。
機器人形態各異、大小不一,具備不同的感知能力和自由度,這使得將從一個機器人學到的動作遷移到另一個機器人變得困難。
Gemini Robotics 1.5展現出卓越的跨具身學習能力。
它能將從一個機器人學到的動作遷移到另一個機器人,無需針對每種新形態專門調整模型。
這一突破加速了新行為的學習處理程序,助力機器人變得更智能、更實用。
在下面這段2分鐘的視訊裡,Google科學家展示了不同「物種」機器人之間如何泛化學習。
在Gemini Robotics 1.5中,一個模型可以跨多個機器人使用。
比如Aloha在衣櫃場景中已有經驗,而Apollo從未見過,卻能通過遷移學習完成開門、拿衣服等全新動作。
這展示了「跨具身學習」的潛力。
未來,不同場景中的機器人(如物流、零售)可互相學習,從而大大加快通用機器人研發的處理程序。 (新智元)