全球首個OpenAI機器人誕生！Figure 01碾壓馬斯克擎天柱，10億機器人大軍正式啟動

2024/03/16

•

【導讀】 OpenAI上一筆融資不到八個月，Figure就來交捲了！這個機器人能說會動，還能自主推理，為自己安排任務。最爆炸的是，它完全是自主行動，沒有遠端控制！1.0倍速的原始影片一出，網友們震驚了。

世界上第一個「ChatGPT機器人」來了！

新創公司Figure聯合OpenAI，現在直接為LLM造了個身體（具體來說，它是個OpenAI訓練的多模態大模型）。

半個月前剛獲得OpenAI等的6.75億美元融資，今天新創公司Figure就來交捲了，簡直神速。

這個名為Figure 01的機器人，充分展現了和人類以及環境互動的能力。它會說會看，還能給人類遞食物、撿垃圾、收拾碗筷。

不僅如此，它還能夠推理，自行辨識、規劃和執行有用的任務。

在這個過程中，由OpenAI提供視覺推理和語言理解，Figure 01的神經網絡，會提供快速、低等級、靈巧的機器人動作。

OpenAI和Figure Robotics放出的這段演示，瞬間震驚了網友：大模型和真實物理世界的距離，越來越近了！

先前Midjourney創辦人預測：2040年，將會有10億機器人，2060年將有一百億，馬斯克表示同意

這段影片可謂亮點滿滿。

首先，影片是1.0倍原速拍攝的，而且是連續拍攝，跟之前那些為了表現流暢而加速的人形機器人演示不一樣。

其次，整個影片只了一個端到端的神經網路。

而且，機器人背後，沒有人在遠端操作，所有動作都是由機器人自行完成的！

現在，壓力給了波士頓動力和馬斯克的擎天柱這邊。

高能量機器人，能說會看還能推理

影片中的小哥問它：「Figure 01，你看到了什麼？」

思索幾秒後，它張口說話了：「我看到桌子中間的盤子中，放了一隻蘋果，瀝水架上有幾個盤子和一個杯子。我還看到你站在旁邊，你的手放在桌子上。」

小哥接著問：「我能吃點東西嗎？」

Figure 01回答：「當然！」然後抬起手，拿起一個蘋果遞給他。

下面，更高能的來了！

小哥直接把一堆垃圾嘩啦啦倒在Figure 1面前，然後問它，你能不能一邊給我解釋下剛才為什麼會這麼做的原因，一邊把這些垃圾收拾乾淨呢？

Figure 01一邊有條不紊地把籃子拉到自己面前，把垃圾一個個撿進籃子裡，一邊回答道，「我給你蘋果，是因為這是我在桌上唯一看到的能吃的東西」。

接下來，小哥又向Figure 01發出了靈魂拷問：「根據你眼前所見的場景，你覺得你眼前的這些盤子應該放到哪裡呢？」

Figure 01自信滿滿地表示：像桌上這些盤子啊杯子啊，應該放到旁邊的瀝水架上。

小哥表示，那你就幫忙放吧？五秒鐘後，Figure 01抬起右手，用敏捷靈活的動作，一個一個地把盤子和杯子放到了該放的地方。

最後，小哥也讓Figure 01給自己的表現來個複盤：「你覺得你表現得如何？」

Figure 01很滿意地說：「我覺得我做得很好，我把蘋果遞給了你，把垃圾丟掉了，桌上的東西也都放到了該放的地方。」

小哥向它表示了感謝後，Figure 01甚至還伸開雙臂，聳了聳肩，表示有什麼忙要幫的，歡迎隨時來找我。

網友炸鍋：科幻走進現實了？

看到這一幕的網友們，紛紛表示驚嘆。

看起來，AGI可能在六個月內就會到來了，甚至更短！

波士頓動力只能再多編一些舞蹈花樣了，不然真的打不過。😂

這就是世界上第一個終結者？

有人表示，讓LLM機器人幫忙洗碗和打掃房子，才是最正確的事。不然總不能讓它們成天吟詩畫畫吧…

「Figure 1，在我出門時，請你幫我打掃房子、洗碗、遛狗，你可以看《魔鬼終結者2》，但不要產生任何瘋狂的想法，ok？」

如果對話再流暢一些，處理速度再快上100倍，那我們就會得到一個工作產品。

另外還有人吐槽了Figure 01的聲音，為啥搞得像50歲的吸菸者…

Figure CEO則表示，機器人的聲音，是對文字轉語音的AI進行了微調，還讓大家猜猜是誰。

這家機器人新創公司Figure，囊括了波士頓動力、特斯拉、GoogleDeepMind和Archer Aviation的前員工。成立不到兩年，它已經估值26億美元。

和OpenAI的首次合作亮相，就如此驚艷。

顯然，在機器人領域，人工智慧時代才剛開始。

OpenAI的產品與合作副總裁Peter Welinder表示：「我們一直在計劃重返機器人領域，我們看到了與Figure合作的價值。我們想探索，在高性能的多模態模型驅動下，人形機器人能實現什麼樣的目標。」

如今，人形機器人再次引起了投資者興趣，因為大模型驅動的軟體，為機器人與人類的互動提供了更多可能性。

特斯拉CEO馬斯克預測，2040年，地球上將出現10億個人形機器人。

創辦人親自下場解釋原理

話說回來，被看Figure 01的這些操作看似容易，背後可是滿滿的玄機。

Figure AI的創辦人Corey Lynch親自在X解釋了Figure 01的工作原理。

Figure 01現在能夠做到：

- 描述它所看到的一切情況

- 規劃未來的行動

- 思考輸入的視覺和文字訊息

- 語音輸出它的推理結果

放出的這個影片中，所有的行為都是學習的（不是遠端操作的），並且沒有加速播放。

如下圖所示，Figure AI用機器人攝影機收集的視訊訊息，加上麥克風捕捉的語音中的文字轉錄到由OpenAI提供的多模態大模型中，理解圖像和文字。

模型能夠處理對話的完整記錄，包括先前的歷史視頻，得到語言回應，然後透過文字轉語音的方式傳回給人類。

同時模型也負責規劃機器人運行哪些學習的閉環行為來完成給定的命令，將特定的神經網路權重載入到GPU上並執行策略。

將Figure 01連接到完成預訓練的多模態模型，為其提供了一些有趣的新功能。

Figure 01在OpenAI的大模型的加持下可以做到：

- 描述機器人周圍的環境；

- 決策時使用常識推理。例如，「餐桌上的盤子和杯子很可能之後要放到烘乾架上」；

- 把「我餓了」這樣模稜兩可的高層次請求轉化為「遞給對方一個蘋果」等與具體情況相適應的行為；

- 用簡單易懂的英語描述為什麼它會執行某個特定的動作。例如，「這是我能從餐桌上為你找到的唯一能吃的東西」。

理解對話內容的大模型為Figure 01提供了強大的短期記憶。

例如，如果人類提出問題：「你能把它們放在那裡嗎？」「它們」指的是什麼？「那裡」又在哪裡？正確回答需要機器人擁有思考記憶的能力。

透過預先訓練的模型分析對話的圖像和文字歷史記錄，Figure 01可以快速形成並執行規劃：

1）將杯子放在晾衣架上；

2）將盤子放在晾衣架上。

所有行為均由神經網路視覺運動Transformer進行策略驅動，將像素直接對應到動作。

神經網路以10hz的頻率接收機器人拍攝到的影像，並以200hz的頻率產生24-DOF動作（手腕姿勢和手指關節角度）。

這些動作作為高速「錨點（setpoints）」，供更高速率的全身控制器追蹤。

不同的部分各司其職：

- 雲端的預訓練模型對圖像和文字進行常識推理，以得出高級規劃；

- 學習的視覺運動策略執行規劃，執行難以手動指定的快速反應行為，例如把一個袋子折疊成任何需要的形狀；

- 同時，全身控制器確保安全、穩定的動作。例如，保持平衡。

最後Corey Lynch強調，即使就在幾年前，業界都認為人形機器人進行規劃和執行自己學習的行為，以及與它進行完整的對話的場景，將是幾十年之後才會發生的事情。

顯然，因為大模型的出現，一切都加速了。

Figure AI是目前將AI能力延伸到現實世界中做得最好的地方。

Figure創辦人：絕不把人形機器人用在軍事

半個月前，這個消息就在AI圈內傳開了——

人形機器人新創公司Figure，獲得了OpenAI等公司的6.75億美元融資！

參與融資的其他公司，包括OpenAI創業基金、亞馬遜工業創新基金、Parkway創投公司、英特爾投資公司、Align創投公司和ARK投資公司。

OpenAI給Figure投錢，當然也是想下一盤大棋。

Figure的創辦人兼執行長Brett Adcock表示，公司將利用這筆資金開發用於機器人技術的大型語言模型，擴大生產規模，並僱用更多員工。

現在，Figure的演示已經顯示了，他們在人形通用機器人的互動上，做出了重大飛躍的產品。

史上第一次，機器人在沒有操控的情況下，和人如此自然地互動，能夠服從人類。如此流暢的演示，先前的公司都沒有做到。

當然，Figure 01目前只是一個原型，如果要進行商業部署，賣給企業，會需要更多的工作。

不過，Adcock已經表示，Figure的目標就是訓練一個世界模型，來操作十億單位級的人形機器人！

在Figure的網站上，Adcock介紹了Figure的總體規劃—

Figure的目標是：開發對人類產生正面影響的通用類人機器人，並為子孫後代創造更美好的生活。這些機器人可以消除對不安全和不受歡迎的工作的需求，最終讓我們過著更快樂、更有目的的生活。

Adcock表示，公司接下來還要努力幾十年，需要一支冠軍團隊、數十億美元的投資和工程創新。「我們的風險極高，成功機會極低」。

同時，他還宣稱——

我們不會將人形機器人用於軍事或國防應用，也不會將其用於任何需要對人類造成傷害的角色。我們的重點是為人類不想從事的工作提供資源。

現在，隨著LLM的進步，全世界機器人都瘋狂開捲了！

除了特斯拉的擎天柱Optimus，與亞馬遜合作的人形機器人新創公司Agility，還有剛挖來前Optimus科學家領導開源機器人專案的Hugging Face，以及昨天剛成立的新創公司Physical Intelligence。

「青春版馬斯克」幫人類連結天網

成立不到兩年，Figure就成為估值26億的獨角獸，是連續創業家Brett Adcock成立的第3家公司。

1986年出生的Brett Adcoc，目前僅38歲，從2012年開始至今，創立了3家科技公司：

26歲的他在2012年就試圖使用AI來革新招募產業。

當時，他成立了Vettery——一個線上獵人頭平台，不到一年的時間團隊迅速發展到數百名員工，客戶網路擴大到30,000家招聘公司。

Vettery人工智慧系統每月匹配20000次面試，幫助數千人找到他們夢想的工作。

在成立1年多後，他以1億美元的價格將公司賣給了Adecco。

而他在2018年成立的第二家公司Archer，主要業務是製造可以垂直起降的電動飛機，解決在繁忙城市中無法使用飛機的問題。

不到5年的時間，Archer就以27億美元的估值成功登入紐交所，成為了飛機產業中的特斯拉。

而在2022年，他成立的第三家公司Figure，希望能用人形機器人徹底改變人類的工作方式。讓人類無需再出現在那些危險而非人類的工作場所之中。

在Brett Adcock的眼裡，Figure有可能成為全世界影響力最大的公司。

他白手起家，10年間成立的3家公司，分別達成了「億元賣身」，「紐交所上市」，「2年成長為獨角獸」3大成就，實在是令人咋舌。

而且縱觀他成立的3家公司的過程和所涉及的行業，和前世界首富馬斯克頗有相似之處。

而現在他的Figure AI更是直接與特斯拉的展開了競爭。

如今科技巨頭紛紛「用錢投票」，一方面確實是因為人形機器人的賽道想像力實在太大，另一方面，也是看中了Brett Adcock成功的履歷和用科技改變世界的決心。

在他的個人網站上，給自己的介紹是：專注成立公司20年=. (新智元)

參考資料：

https://twitter.com/figure_robot/status/1767913661253984474

https://twitter.com/coreylynch/status/1767927194163331345

科技