人形機器人可以搭夥幹家務了！聽懂人話，互相幫忙，還會深情對望，網友：不寒而慄

2025/02/21

•

拋棄OpenAI，人形機器人獨角獸迎來重磅升級。

機器人前瞻2月22日報導，昨夜，美國人形機器人獨角獸Figure AI重磅推出了一款通用型視覺語言動作（VLA）模型－Helix，將感知、語言理解與學習控制統一，克服了機器人技術領域的多項長期挑戰，讓兩個人形機器人能夠聽從語音指令，互相幫助，互相理解，夥幹家務。

Helix實現了一系列首創：1）首次實現直接控制整個人形機器人上半身；2）是第一個同時在兩個機器人上運行的VLA；3）只需按照自然語言指令，就能拿起幾乎任何小型家居物品，那怕它從未見過；4）使用一組神經網絡權重來學習所有行為；5）可在嵌入式低功耗GPU上運行，能立即進行商業部署。

在Figure分享的影片中，人類當面說出整理雜物的要求後，兩個機器人在從未見過這些物品的情況下，透過推理能力，能夠協作將這些物品擺放歸位，把雞蛋、番茄醬等需要冷藏保鮮的放進冰箱，把水果放進果盒，把零食收進抽屜裡。

兩個機器人傳遞物品時指尖相觸的剎那，被網友調侃像是復刻世界名畫《創造亞當》裡亞當與上帝伸手名場面。

網友們立刻開始催進度：什麼時候能賣？我已經想好讓家用機器人拿快遞、搬雜貨、收拾飯後殘羹、拿吸塵器做清潔、拖地疊衣服了。

也有一些網友因為兩個機器人交接物品後互相對視的微妙氛圍，感到不寒而慄。

值得一提的是，就在2月5日，Figure的創始人兼CEO Brett Adcoc在推特上發布了一條帖子，宣布終止與OpenAI的合作協議，並表示Figure在完全自主研發的端到端機器人AI方面取得了重大突破，接下來的30天內展示一些人們從未在人形機器人上見過的東西。

而今天，根據Brett Adcoc介紹，團隊花了一年多的時間研發出了Helix，做到了讓人形機器人不需要經過任何訓練、程式碼，就能抓取幾乎任何家庭用品。

輝達高級研究科學家、通用具身智能體研究實驗室負責人Jim Fan也在社交平台上轉發誇贊：“恭喜！又乾得漂亮！”

01 .突破家用人形機器人瓶頸

提出新機器人Scaling Laws

家用人形機器人的困難是怎麼對家裡千奇百怪的物品產生對應的智慧行為。家裡有各種不同形狀、材質的物品，例如易碎的瓷器和玻璃製品、皺巴巴的衣服、橢圓的雞蛋、桿狀的晾衣桿吸塵器。

要教機器人學會一個新行為頗費周折：要么需要博士級專家花費幾小時手動編程，要么需要對它進行數千次演示，兩種方法的成本都很高。那麼問題來了，每家每戶買的東西那麼多，消費品發展速度飛快，總會有機器人沒見過的東西，難道要一個一個教給它嗎？

好在AI領域已經展現了即時泛化的能力。 Figure AI提出，將視覺語言模型中捕獲的豐富語意知識，直接轉化為機器人動作，將從根本上改變機器人的Scaling Laws。曾經需要數百次演示的新技能，現在只需用自然語言與機器人交談，即可立即獲得。

關鍵是如何從VLM中提取所有這些常識性知識，並將其轉化為可泛化的機器人控制？對此， Figure建構了Helix模型。

根據Figure介紹，Helix模型創造了多項業界首次：

全上半身靈活操控： Helix是首個能對仿人機器人完整上半身（包括手腕、軀幹、頭部、每根手指）實現高速連續控制的VLA模型。
多機器人協作： Helix首次讓雙機器人系統協同完成長期複雜任務，兩台機器人能共同處理從未見過的物品，例如合作整理陌生雜貨。
萬物皆可抓取：機器人現在只需一句自然語言指令，就能抓取幾乎所有家庭小物件，包括數千種訓練時從未接觸過的物品。
單一神經網路：與過往技術不同，Helix僅使用一套神經網路參數就能學習所有技能－取放物品、開關抽屜冰箱、跨機器人互動等，無需任何任務專屬微調。
商用就緒： Helix是第一個完全運作在低功耗嵌入式GPU上的VLA系統，已具備直接商業部署能力。

在測試中，機器人成功地處理了雜亂無章的數千件新物品——從玻璃器皿和玩具到工具和衣服，並且無需任何事先演示或定製編程。

值得注意的是，當提示「撿起沙漠物品」時，Helix不僅會識別出玩具仙人掌符合這個抽象的概念，還會選擇最近的手並執行所需的精確運動命令，牢牢地抓住它。

這種通用的「從語言到動作」的抓取功能為在非結構化環境中部署人形機器人提供了更大的可能性。

在一個更複雜的應用場景中，當人類把Figure機器人從未見過的雜物放置在桌上時，提出整理要求時，兩個機器人可以在沒有經過明確分工的情況下，自然而然地開始協作，將雜物歸類放置。

機器人甚至細心到，知道瓶裝的物品應該放置在冰箱門上的置物筐中才不會容易翻倒，而不是往冰箱裡隨便一塞就了事；另一個機器人則知道要將餅乾放到抽屜中。

在協調過程中，機器人用頭部平穩地追蹤雙手，同時調整軀幹，以確定最佳觸及範圍，同時保持精確的手指控制來進行抓握。在高維度動作空間中實現這種精度水平，非常有挑戰性。 Figure稱之前沒有VLA系統能展現如此程度的即時協調、同時維持跨任務和物件泛化的能力。

收拾好後，它們還會記得貼心地把抽屜關好、關上冰箱門。美中不足的是，機器人一開始就把冰箱門打開，直到收拾完全部物品，才把冰箱門緩緩合上，絲毫沒有節省電費的意識。

影片中一個值得關注的細節是，兩個機器人在協作後會看向對方，這個畫面很像人類會做的眼神交流。但其實應該是Figure設計用來吸引觀眾的一種行銷策略，從Helix的技術介紹來看，兩個機器人的協作主要靠軟體系統和攝影機追蹤動作，並不具備看眼色這種高階能力。

02 .首創雙系統架構

高速靈巧控制機器人上半身

現有VLA系統通常需要專門的微調或專用的動作頭，以優化不同高階行為的效能。而Helix僅用一個統一模型就能執行不同任務，不需要針對特定任務進行調整。

Helix的系統由兩個部分組成－即「系統1+系統2」架構，實現人形機器人上半身的高速精準控制。

以前的方法有個問題，VLM骨幹網路（backbone）是通用的，但速度慢；機器人視覺運動策略速度快，通用性又不行。 Helix透過兩個互補的系統S2（VLM骨幹網路）和S1（潛在條件視覺運動Transformer）來權衡，這兩個系統都經過了端到端訓練，可以進行通訊：

S2：基於7B參數的開源VLM，該VLM已在互聯網規模數據上進行了預訓練，在潛在視覺語言空間中進行“慢思考”，以7-9Hz頻率運行，負責場景理解與語義理解，確保跨物體、跨場景的泛化能力。

S1： 80M參數的交叉注意力編碼-解碼Transformer，負責處理低級控制，可“快速思考”，將S2的潛在語義表徵轉化為精確連續機器人動作，以200Hz頻率協調35自由度動作空間，控製完整的機器人上半身，實現毫秒級實時響應。

這種解耦架構讓兩個系統各司其職：S2專注慢思考，負責制定策略，S1負責即時執行和調整行動。

例如在協作過程中，S1能快速適應機器人夥伴不斷變化的動作，並做出細微運動調整，同時維持S2的語意目標。最終Helix的運行速度做到與Figure最快的單任務策略一樣快。

和現有方法相比，Helix採用的這種設計有四個主要優點：

1.速度和泛化： Helix匹配專門的單任務行為克隆策略的速度，同時將零樣本泛化到數千種新測試物品。

2.可擴展性： Helix直接輸出高維動作空間的連續控制，避免了先前VLA方法中使用的複雜動作標記方案，這些方案在低維控制設定（例如二值化並行抓取）中已取得一些成功，但在高維人形控制中面臨擴展挑戰。

3.架構簡單： Helix使用標準架構－用於S2的開源、開放權重VLM和用於S1的簡單Transformer視覺運動策略。

4.關注點分離：將S1和S2解耦，可以分別在每個系統上進行迭代，而不受尋找統一的觀察空間或動作表示的限制。

03 .訓練效率高

雙GPU平行跑模型

Helix以極少的資源實現了強大的物件泛化，總共使用約500小時的高品質監督資料來訓練Helix ，這只佔先前收集的VLA資料集規模的不到5%，而且不依賴多機器人實體收集或多訓練階段。其收集規模更接近現代單任務模仿學習資料集。

數據需求少了，不妨礙Helix能力強。Helix可以擴展到更具挑戰性的動作空間，即完整控制人形機器人上半身，以實現高速率、高維度的輸出。

為了產生自然語言條件訓練對，Figure使用自動標註VLM來產生事後指令。VLM處理來自機載機器人攝影機的分段影片片段，並提示：「你會給機器人甚麼指令來執行此影片中看到的動作？」訓練期間處理的所有物品均不包含在評估中，以防污染。

Helix經過完全端到端的訓練，從原始像素和文字命令映射到具有標準回歸損失的連續動作。梯度透過用於調節S1行為的潛在通訊向量從S1反向傳播到S2，從而允許對兩個組件進行聯合最佳化。

在訓練過程中，Figure在S1和S2輸入之間添加時間偏移，此偏移經過校準以匹配S1和S2部署的推理延遲之間的差距，確保部署期間的即時控制要求準確反映在訓練中。

Figure也對流式推理進行最佳化。

Helix的訓練設計支援在Figure機器人上高效並行部署模型，每個機器人都配備了雙低功耗嵌入式GPU。

推理管道分為S2（高階潛在規劃）和S1（低階控制）模型，每個模型都在專用GPU上運作。 S2作為非同步後台進程運行，使用最新的觀察結果（機載攝影機和機器人狀態）和自然語言命令，不斷更新編碼高級行為意圖的共享記憶體潛在向量。

S2將單眼機器人影像和機器人狀態資訊（包括手腕姿勢、手指位置等）投影到視覺語言嵌入空間後進行處理。結合指定所需行為的自然語言指令，S2將所有語意任務相關資訊提煉為單一連續潛在向量，並傳遞給S1。

來自S2的潛在向量被投影到S1的token空間中，沿著序列維度與來自S1視覺骨幹網路的視覺特徵連結起來，提供任務調節。 S1依賴完全卷積、多尺度視覺骨幹網路進行視覺處理。此骨幹網路透過完全在模擬中完成的預訓練進行初始化。

雖然S1接收與S2相同的影像和狀態輸入，但S1以更高的頻率來處理，作為單獨的即時過程執行，能保持整個上身動作流暢所需的關鍵200Hz控制環路，採用最新的觀察結果和最新的S2潛在向量。

Figure在動作空間中附加了一個合成的「任務完成百分比」動作，使Helix能夠預測自己的終止條件，從而更容易對多個學習到的行為進行排序。

S2和S1推理之間固有的速度差異自然導致S1在機器人觀察上以更高的時間分辨率運行，從而為反應控制創建更緊密的反饋環路。

這種部署策略刻意反映了訓練中引入的時間偏移，從而最大限度地減少了訓練-推理分佈差距。非同步執行模型允許兩個進程以最佳頻率運行，讓Figure團隊能以最快的單任務模仿學習策略速度運行Helix。

04 .結論：人形機器人進入家庭

時刻越來越近了

與在規範化的工業環境不同，機器人如果要真正應用到家庭環境中，就必須應對家庭環境中各種不可控的因素，每個物品都有不可預測的形狀、大小、顏色和紋理，需要能夠按照實際情況智能生成新行為。

而Helix無需任何針對特定任務的示範、無需大量的手動編程，就能即時生成長期的、協作性的、靈巧的操作動作，展現出了強大的物體泛化能力。

這種能力，展現出人形機器人實現近乎人類的環境適應性的巨大潛能。而隨著模型規模的不斷擴展，也將為人形機器人真正進入家庭等更多負責環境、融入人類生活創造了更多可能性。(智東西)