Helix是首款能對整個人形機器人上半身進行高頻、連續控制的視覺-語言-動作(VLA)模型。
在2月初終結與OpenAI的AI模型合作後,美國機器人創業公司Figure AI如期在周四公開了背後的原因:公司已經有更厲害的通用具身智能模型Helix。
Figure AI表示,Helix是首款能對整個人形機器人上半身(包括頭部、軀幹、手腕和手指)進行高頻率、連續控制的視覺-語言-動作(VLA)模型。透過直接將視覺語言模型中捕獲的豐富語義知識,直接轉化為機器人動作,克服了人形機器人領域的多個長期挑戰——至少不需要為機器人的每個動作進行大量訓練了。
為瞭解決視覺語言模型“通用、但不快速”,和機器人視覺運動策略“快速、但不通用”的矛盾,Figure通過建立一套互補的系統進行權衡。兩套系統通過端到端訓練以進行通訊。
如下圖所示,系統2是開源、開放權重的70億參數量端側網際網路預訓練視覺語言模型,用於理解場景和自然語言;系統1是一個8000萬參數量的快速反應視覺運動策略,將系統2理解的語義轉化為每秒200次的精確連續機器人動作。
Figure介紹稱,訓練Helix僅用了500個小時的高品質監督資料,總量連先前收集的VLA資料集5%都不到,且不需要多機器人資料或多階段訓練。
作為這項科技突破的結果,搭載Helix的機器人現在可以根據自然語言指令,識別並拾取幾乎所有的小型家居物品,包括機器人從未見過的成千上萬物品。在公司給出的案例中,機器人在聽到「拿起那個仙人掌」、「拿起沙漠裡的東西」時,都能選擇最接近玩具的手,成功從一堆物品中拎出仙人掌玩具。
在實際操作中,配備Helix的Figure機器人通過簡單的「撿起XX」指令,成功處理了成千上萬次的任務,同時無需任何提前演示或額外程式設計。
當然,以上都是常規操作,接下來就是展現技術的時刻了。
Figure介紹稱,Helix是首款可以在人形機器人上協同運行的AI模型,使得兩台機器人可以協作解決一個共享的、長期的操作任務。
在示範案例中,兩個模型權重相同的Figure機器人需要面對一堆首次見到的雜物,自行分類放在櫃子、冰箱、盆子等收納位置。
這次挑戰的難點,是研究人員故意將一些物品放在另一個機器人面前,這意味著需要兩台機器人協作才能完成放置。
示範中,機器人之間不僅能互相理解對方和銜接動作,似乎還有一種特殊的羈絆——在交接物品時,兩台機器人一定要互相對看一眼,確認彼此的「眼神」。
在示範的最後,Figure也在擺放水果的操作中展現出更高水準的協作:左邊的機器人把果盆拉過來,右邊的機器人順手把水果放進去,然後左邊的機器人再把果盆放回原位。
結束首次VLA模型在多機器人之間靈活、擴展的協作操作後,Figure強調這僅僅是觸及了“可能性的表面”,公司渴望看到將Helix規模擴大1000倍後會發生什麼。
Figure介紹稱,Helix完全能夠在嵌入式低功耗GPU上運行,現在立即可以進行商業部署。
根據先前的報導,在發佈機器人AI系統演示的同時,Figure正在進行一輪目標15億美元的融資,估值將達到395億美元。作為對比,去年該公司融資時的估值僅為26億美元,光從這兩個數字就能感受到當下機器人賽道的爆火情緒。 (科創板日報)