資深機器人專家Eric Jang不久前曾預言:“ChatGPT曾在一夜之間出現。我認為,有智慧的機器人技術也將如此。”
他或許說對了。
北京時間3月13日深夜,一段人形機器人的影片開始在X平台熱傳。
之前從未展示過機器人方向能力的OpenAI,在與投資公司的人形機器人的合作中,第一次展現了自己的機器人智慧能力。
Figure,OpenAI投資的機器人公司,上傳了這段影片。在影片中,Figure的人形機器人,可以完全與人類流暢對話,理解人類的意圖,同時也能理解人的自然語言指令進行抓取和放置,並解釋自己為什麼這麼做。
而背後,就是OpenAI為其配置的智慧大腦。
在過去一年的具身智能進展中,或許你曾經看過類似的機器人自主決策、拿取物品的展示,但在這段影片中,Figure人形機器人的對話流暢度、展現出的智能感,接近人類操作速度的動作流暢性,絕對都是第一流的。
Figure也刻意強調,整段影片沒有任何加速,也沒有任何剪輯,是一鏡到底拍攝的。同時,機器人是在完全自主的情況下進行的行為,沒有任何遠程操縱——似乎在暗暗諷刺前段時間爆火地展現了酷炫機械能力,但是沒有太多智能程度的斯坦福炒菜機器人。
比起機器人的智慧表現,更可謙的是,這只是OpenAI小試牛刀的結果——從OpenAI宣布與Figure共同合作推進人形機器人領域的前沿,到這個視頻的發布,只有短短的13天。
這次Figure人形機器人背後的智能,來自端到端的大語言-視覺模型,這是具身智能領域目前非常前沿的領域。去年極客公園報道谷歌在類似領域的進展。谷歌做出的端到端機器人控制模型,被一些產業內的人士譽為機器人大模型的GPT-3時刻。
而當時,Google的機器人模型,還只能根據對話來做一些抓取,並不能與人類對話,也無法向人類解釋自己為什麼會這麼做。而Google自身,從EverydayRobotics開始,已經有了五年以上的機器人研究經驗。
而Figure本身,成立於2022年。從OpenAI宣布介入與之合作,到今天它們共同推出一個能夠自主對話和決策的機器人,只有13天。
機器人智慧的發展,顯然正在加速。
端到端大模型驅動,機器人的速度已經接近人類速度
Figure的創辦人Brett Adcock和AI團隊的負責人Corey Lynch在X平台上解釋了影片中機器人互動背後的原理。
這次的突破,由OpenAI與Figure共同做出。OpenAI負責提供視覺推理和語言理解,而Figure的神經網路則提供快速、低層次、靈巧的機器人動作。
機器人所做出的所有行為都是出於已經學習過,內化了的能力,而不是來自遠端操作。
研究人員將機器人攝影機中的圖像輸入,和機載麥克風捕獲的語音中的文本轉錄到由OpenAI訓練的,可以理解圖像和文本的多模態模型(VLM)中,由該模型處理對話的整個歷史記錄,得出語言回應,然後透過文字到語音的方式將其回復給人類。
同樣的模型,也負責決定在機器人上運行哪些學習的閉環行為來完成給定的命令,將特定的神經網路權重加載到GPU上並執行策略。
這也是為什麼這個機器人,屬於「端到端」的機器人控制。從語言輸入開始,模型接管了一切處理,直接輸出語言和行為結果,而不是中間輸出一些結果,再載入其他程式處理這些結果。
Figure的機載相機以10hz的頻率拍攝影像,然後神經網路以200hz的頻率輸出24個自由度動作。
Figure的創辦人提到,這代表機器人的速度已經有顯著提高,開始接近人類的速度。
OpenAI的模型的多模態能力,是機器人可以與世界互動的關鍵,我們能夠從影片展示中看到許多類似的瞬間,例如:
描述一下它的周圍環境。
做決定時使用常識推理。例如,「桌子上的盤子和杯子等餐具接下來很可能會進入晾衣架」。
將「我餓了」等模稜兩可的高階請求轉化為一些適合上下文的行為,例如「遞給對方一個蘋果」。
用簡單的英文描述*為什麼*它會執行特定的操作。例如,「這是我可以從桌子上為您提供的唯一可食用的物品」。
而模型能力的強大,使其還能夠擁有短期記憶,例如影片中展示的「你能把它們放在那裡嗎?」「它們」指的是什麼?「那裡」又在哪裡?正確回答需要反思記憶的能力。
而具體的雙手動作,可以分成兩個步驟來理解:
首先,網路預訓練模型對圖像和文字進行常識推理,以得出高級計劃。如影片中所展示的:Figure的人形機器人快速形成了兩個計畫:1)將杯子放在碗碟架上,2)將盤子放在碗碟架上。
其次,大模型以200hz的頻率產生的24-DOF動作(手腕姿勢和手指關節角度),充當高速“設定點(setpoint)”,供更高速率的全身控制器跟踪。全身控制器確保安全、穩定的動力,如保持平衡。
所有行為均由神經網路視覺運動Transformer策略驅動,將像素直接對應到動作。
從ChatGPT到Sora,再到機器人,OpenAI想包辦「智慧」這件事
2021年夏天,OpenAI悄悄關閉了其機器人團隊,當時,OpenAI曾宣布無限期終止對機器人領域的探索,原因是缺乏訓練機器人使用人工智慧移動和推理所需的數據,導致研發受到阻礙。
但顯然,OpenAI並沒有放下對這個領域的關注。
2023年3月,正在一年前,極客公園報告了OpenAI投資了來自挪威的機器人製造商1X Technologies。其副總裁正是我在文初提到的,認為具身智能將會突然到來的Eric Jang。
而無獨有偶,1X Technologies的技術方向,也是端到端的神經網路對於機器人的控制。
而今年3月初,OpenAI和其他投資人一起,參與了Figure的B輪融資,使其成立兩年,就達到了26億美元估值。
也正是在這一輪融資之後,OpenAI宣布了與Figure的合作。
Figure的創辦人Brett Adcock,是個「擅長組局」的連續創業者,整個職業生涯中創立過至少7家公司,其中一家以27億美元的估值上市,一家被1.1億美元的價格收購。
創建公司後,他招募到了研究科學家Jerry Pratt擔任首席技術官,前波士頓動力/蘋果工程師Michael Rose擔任機器人控制主管。此次進行分享的AI團隊負責人Corey Lynch,則原本是Google Deepmind的AI研究員。
Figure宣布自己在馬達、韌體、熱、電子產品、中介軟體作業系統、電池系統、執行器感測器、機械與結構方面,都招募了硬核的設計人才。
公司的確進展很快。在與OpenAI合作之前,已經做出了不少成績。2024年1月,Figure01(Figure的第一款人形機器人)學會了做咖啡,公司稱,這背後引入了端到端神經網絡,機器人學會自己糾正錯誤,訓練時長為10小時。
2月,公司對外展示Figure01的最新進展,在影片裡,這個機器人已經學會搬箱子,並運送到傳送帶上,但速度只有人類的16.7%。
甚至在商業化上,也已經邁出了第一步:Figure宣布與寶馬製造公司簽署商業協議,將AI和機器人技術整合到汽車生產中,部署在寶馬位於南卡羅來納州斯巴達堡的製造工廠。
而在今天的影片展示推文中,Figure宣布其目標是訓練一個世界模型,最終能夠賣出十億個等級的模型驅動的人形機器人。
不過,儘管OpenAI與Figure的合作進展順暢,但看起來OpenAI並未把寶押在一家機器人公司。
北京時間3月13日,來自Google研究團隊、加州大學柏克萊分校、史丹佛大學教授等一群研究者新成立的機器人AI公司Physical Intelligence,被彭博社爆料也拿到了OpenAI的融資。
毫無意外,該公司也是研究未來能成為通用機器人系統的人工智慧公司。
多頭下注機器人領域,13天合作做出領先的機器人大模型,OpenAI在機器人領域意圖為何,引人注意。
智慧人形機器人,未來不只看馬斯克的了。(極客公園)
