人形機器人，用大模型「喚醒」鋼筋鐵骨

2023/08/11

•

在創業尤為艱難的2023年，ChatGPT的爆火，為不少行業帶去了新的可能性，人形機器人就是其中之一。

當瓦特蒸汽機的齒輪轉動了第一圈；當喬布斯從牛皮紙袋掏出Macbook；當ChatGPT用流暢優美的語言回答第一個問題。科技，曾經、正在、也將改變未來。【Future】是36氪科技報導團隊主理的一檔專欄，我們將圍繞科技產業的前沿突破，記錄那些實驗室裡令人振奮的新技術，是如何穿越PMF（Product Market Fit 產品與市場結合）的驚險週期，進而影響更廣闊的商業社會。在這裡，看見【 Future】。

2月初，華為天才少年“稚暉君”離職創業，成立智元機器人，不到半年便完成三輪融資。有行業人士告訴36氪，目前智元新一輪融資的估值已經叫到數十億元估值。

5月底，北京大學助理教授王鶴成立機器人公司銀河通用，3個月時間估值已達過億美元；據36氪獨家獲悉，目前一位字節系的高管，也打算聯合高校教授進行機器人創業。

大模型加持下，人形機器人公司有了新的生命力，資本關注度也水漲船高，一位機器人公司近期就拒絕了36氪的採訪，理由是“問詢過於密集，暫時不曝光了” 。

據高盛預測，到2035年，人形機器人市場或將達到1540億美元，成為繼智能駕駛電動車後的又一AI落地場景。

和熱鬧的創投景象形成鮮明對比的是，人形機器人的產業發展依然有其難以解開的桎梏。

學界和產業界研究了50餘年人形機器人，進展一直很緩慢——很長時間內，“如何平穩走路”仍是核心議題之一。近期，美國人形機器人公司Agility Robotics的首席技術官Jonathan Hurst在採訪中表示：“它現在只是一個兩歲半的孩子。”

2020年，軟銀Pepper機器人宣布停產，原因是“庫存太多”賣不動。Pepper能通過面部表情和語調讀懂人類情緒，但它只有20個電機，很難做出細緻的動作，對話功能來自事先設定的指令，相處體驗更像是一款玩具而非智能機器人。

直到2022年底ChatGPT爆火，人形機器人賽道才有了希望的苗頭——先不論機器人能否像人一樣行動，它至少有了變聰明的可能，可以像人一樣進行多輪對話。

通用足式機器人創業公司逐際動力成立於2022年，公司同時研究四足機器人和雙足人形機器人。在創始人張巍看來，大模型讓人形機器人行業有看到了希望。“大模型讓大家看到了從1-100的階段沒那麼難了，我們解決好0-1階段機器人本體的問題，人形機器人商業落地的閉環也可以預知了。”

大公司更不會放棄人形機器人領域的機會。小米早在2022年8月便亮相了“鐵大”人形機器人，到2023年又投資5000萬元人民幣，成立機器人公司；華為更是斥資8.7億元，全資成立機器人公司極目科技。

今年3月，廣義機器人公司追覓科技推出通用人形機器人和仿生四足機器狗Dreame Dog；四個月後，追覓科技通過視頻發布了人形機器人的研發進展——視頻顯示，追覓通用人形機器人已經可以脫離實驗室環境，在辦公室、林蔭道等室內室外場景中行走；還學會了衝制咖啡，在經歷了重力拍打、拳擊之後，仍能穩定行走。

追覓科技人形機器人負責人喻超對36氪談到，機器人是公司從未動搖的戰略，公司在掃地機器人和四足機器狗上的AI算法積累，能在人形機器人上復用。

今天行業看到的大模型，都是通過搜索、對話等軟件能力實現，要想將AI落在看得見、摸得著的實體應用，機器人是個可預見的方向，這也是行業為之振奮的原因。

熱錢再次湧動，巨頭信心百倍，可機器人賽道並不是能夠投機的風口，新的機會來了，但舊的問題仍然在。

距離軟銀集團轉賣人形機器人行業鼻祖波士頓動力不過2年，人形機器人能夠再次火熱，要得益於大模型。

很長一段時間，人形機器人的一大問題是它無法和人正常交流，如同停產的Pepper，只能回答設定好的問題。

大模型給出了解法。

大語言模型擁有對話能力，可以賦予人形機器人通識大腦，從而順暢和外界對話，還可以增加任務理解、拆分和邏輯推理等“決策”能力。

AI帶來的技術紅利，也讓現有的機器人本體煥發生機。不久前，谷歌DeepMind發布了Robotics Transformer 2（RT-2）大模型，它是一個融合了視覺、語言、動作能力的多模態大模型。

谷歌展示了一個演示視頻，加載RT-2後，機器人聽到“把草莓放入碗裡”的指令，會從蘋果、橘子等水果中選擇出草莓，並且放入碗中。

在這個動作背後，大模型先獲得語言指令，再完成了判斷信息、拆解任務、感知外部環境、執行任務等功能。

將人形機器人和大模型結合併不容易。機器人執行基於語言模型生成的動作時，會有安全性風險；如果沒有足夠機器人決策數據做訓練，輸出的結果會容易漂移，成功率也會受影響。

國內目前也出現了研究類似方向的團隊，如李飛飛團隊在研究VoxPoser大模型，他們希望通過將外部觀察到的數據生成為3D數值圖，再搜索出機器人的運動路徑的方式，減少直接基於語言大模型生成決策的不確定性。

機器人大模型公司千訣科技也是其中之一，他們希望研究出具有通用性的機器人大腦和應用系統，讓不同類型的機器人變得“聰明”。

千訣科技創始人兼CEO高海川向36氪分享了在語言大模型生成機器人運動軌跡上的經驗，“為了更好地控制算法，行業可以通過微調、預訓練、人工打分等方式，加強對模型決策的自我評估，當機器人判斷到失敗率會很較高時，可以讓人類接管。”

而除了大模型，通用人形機器人還可以和行業模型結合，如質檢模型、分揀模型、金融模型等。通過行業模型和專業數據，人形機器人可以了解不同場景的行業knowhow，成為熟練的技工。

一個有趣的現像是，從AI出發的大模型創業者，都希望研究出具有通用性的機器人，而從機器人硬件和運動控制能力出發的創業者，更期待將人形機器人與行業模型的能力結合，承擔技工功能。

“我們最初就是想開發能適應不同場景的通用人形機器人。目前，我們已經在機器人的電機、結構、關節集成、運動控制算法等方面都形成了全鏈條自研能力。下一步，我們會去解決整個批量化的問題，爭取明年能看到機器人在部分場景裡的落地應用。”談及追覓科技對人形機器人未來發展階段的規劃，喻超對36氪表示。

在更遠的暢想裡，機器人可以和人對話，並能感知、識別人類的情緒，可以幫助人類完成簡單的工作，甚至可以和人類談戀愛，電影《her》中的夢幻場景，或許將在不遠的將來照進現實。

“你需要10年還是30年”，這是投資人關於“人形機器人落地”的問題，可見還很漫長。

“人形機器人太難了”，這是很多從業者發出的感慨。行業鼻祖波士頓動力研究了30多年，也逃不過在7年內被3次轉賣的命運。

人形機器人本質上是通用AI 決策能力加上通用的物理運動能力的產物。研製人形機器人需要做好硬件本體、機器人大腦和運動控制上的研發，但到目前為止，這三件事都處於起步階段。

曾主導過擎朗智能和大模型Minimax第一輪融資的雲啟資本合夥人陳昱表示，“大模型的應用目前已逐漸落地展開，人形機器人同時涉及到軟件和硬件層面，技術成熟度尚不高，落地時間會更久，但這是終極夢想。”

大模型能幫助機器人擁有“大腦”，但移動能力還需機器人本體來執行，它無法幫助企業設計機器人本體。張巍認為，這個難度相當於讓大模型能直接設計波音空客飛機或火箭的控制器。

大模型對於物理運動能力的幫助是有限的，AI代替人決策，機器人代替人勞動，不過大模型能做的是把成熟的物理運動能力拼接起來，完成複雜的任務。

人形機器人的操作能力和移動能力需要藉助硬件本體的硬件和算法來實現，但在過去50年的人形機器人研究歷程中，這個難關一直沒有被攻克。

掃地機器人能通過底盤滑動前行，四足機器狗可以靠四肢保持穩定和平衡，人形機器人只有兩條腿，行動時只能依賴一條腿保證整個身體的穩定和平衡。

人形機器人需要保持平衡，這也是張巍眼中人形機器人最核心的壁壘——基於感知的運動控制能力Perceptive Locomotion，將感知和控制結合起來，這讓機器人能與環境進行不需要預先設定的自由交互。

國內關於運動控制的研究並不成熟。一個好消息是，2018年，MIT仿生實驗室的兩位成員分別開源了他們在人形機器人的本體設計方案和運動控制代碼。他們採用的是准直驅電機給了行業方向，這種電機能通過電流準確反應輸出端或輸入端的力，降低運動控制的難度。

追覓科技對於跨越這個難題充滿信心，喻超表示，“我們在運動控制方面一直持續研發；同時，整個行業的火熱也會推動這一難題的研究進度。”

喻超以AI導航算法舉例：“像我們應用於掃地機器人上的算法，以及四足的導航算法，都有一些不錯的積累和實踐，這塊能力應該會比市面上大多數的公司略強一些。”

在AI識別算法的種類上，追覓的掃地機器人通過學習超過405萬組大數據，迭代超過35個版本，可識別環境、物品、人形及寵物四種類型，這樣的AI識別算法能力能夠完全遷移復用到人形機器人上，並在此基礎上訓練其理解能力。

在執行能力上，疊被子、擦玻璃、洗杯子、切土豆絲，鋪平沙發上的褶皺，這些人類能輕鬆完成的動作，對機器人來說非常難。

人形機器人需要在零部件上整體性的升級——更靈活的關節，更高功率的電機，更精確的執行器，更靈敏的傳感器等，才能即時響應地執行簡單如從地面拿起物品的動作。

它還需要執行工具，人類的手擁有22個關節，可以靈活、穩定又力度適中地完成各類動作，但機器人很難實現。靈巧手是和人形機器人身體一樣難的事情。騰訊研究院便在研究靈巧手，其“TRX-Hand” ，目前擁有3根手指、8個可獨立控制關節。

機器人硬件和大模型成熟後，機器人企業需要將大模型和人形機器人結合。大模型的語言和機器人所使用的代碼是兩套語言，輸入多模態信息後，再輸出決策指令，需要很長時間訓練，且需要大量的數據。

“機器人的泛語義任務是一件很難的事情，大模型的出現給事情帶來了希望，追覓科技也在這個方向做了相應的佈局”喻超告訴36氪。

大模型的訓練需要很多的數據，當機器人運用到細分場景時，需要收集足夠的環境內習慣數據。機器人要想完成豐富的動作，也需要在場景裡一步步迭代。

高海川告訴36氪：“大模型生成行動決策需要考慮很多信息和數據，比如物品的種類、物品的型號、房間之間的類型和連接關係，人是否會變動等。”

機器人是個軟硬結合的事情，哪怕硬件做好了，沒有軟件，也無法檢驗硬件效果。

在與36氪交流的大多數投資人眼中，人形機器人賽道太早了，且存在公司估值過高的問題。

激進的投資人選擇下注，保守的投資人卻選擇遠遠觀望。

人形機器人還處於非常早期的階段，行業對於未來期待的落地場景並未形成共識。人形機器人未來的落地場景並不明朗。

“波士頓動力每年都要發一個不同造型的機器人，恰恰說明了探索商業場景上的困境。人形機器人的可能落地場景包括工業場景，複合清潔和家庭陪伴。”陳昱表示。

人形機器人在環境相對封閉、簡單的環境更容易落地。封閉的工廠是一個首選。特斯拉便希望將人形機器人用於工廠，自家的超級工廠是試驗田。但人形機器人很難和專機比性價比，尤其是對節拍性、穩定性要求高的場景。

張巍表示：“人形機器人可以替換目前專業機器無法解決的問題，但它需要具有替換至少2、3個不同工種工人的能力，如既能搬箱子，又可以做質檢，它最終是一個通用的物理運動平台。”

在商業世界，暢想中，人形機器人可以做大量的簡單工作——在銀行、博物館等地承擔迎賓工作，在商場當導遊，在辦公室中處理打印資料等。

人形機器人公司看到的是替代三維清潔場景。目前的清潔機器人只能做地面的清潔，無法處理牆面、馬桶等豎狀牆面和異形體的清潔問題。這就是人形機器人成本和清潔工人力成本的較量了。

而真正讓人形機器人充滿幻想的，是走入千家萬戶。人形機器人具有與人相似的身體結構，能很好地適應家居環境，承擔如打掃衛生、家庭陪伴等功能。

不過，環境狹小、複雜的家居環境，以及如疊被子、洗碗、刷鞋等充滿柔性化的工作，遠超當下人形機器人的能力邊界。

做不做得出來，是企業的問題。買不買得起，也是企業的問題。

日本本田ASIMO的單台成本達到250萬美元，波士頓動力Atlas的成本為200萬美元，這樣高昂的成本距離落地非常遙遠。行業預估特斯拉2024年的造價將達到2萬美元；而小米機器人的成本會大約在60、70萬元人民幣。

如果，人形機器人的價格能降低到一台電腦、一部手機的價格，只要能做飯和能打掃衛生，想來就會有大批人買單。

2020年，人形機器人賽道還處於一片蕭瑟。不過3年時間，大模型已經讓人形機器人重現生機。行業從業者用50年的時間等來了機器人“大腦”的升級，讓人形機器人在技術有了跨越，而未來的路，需要的是跨越成本和場景的屏障。（智能湧現）