逛完世界機器人大會，投資人說再也不想投人形機器人了

2024/08/30

•

把人形機器人做得無限逼近人類，似乎是一種執念。

過去一周，我們彷彿能在世界機器人大會上看到全世界的機器人，600余件相關展品幾乎覆蓋了機器人的各條產業鏈。

機器人類型也多得令人眼花繚亂，比如“上躥下跳”的機器狗、整齊劃一“搖曳”的機械臂，還有可以做到不把酒撒出來的“送餐小能手”等。

不論是機器人數量還是參展熱度，人形機器人都堪稱“C位”。據官方表示，這是人形機器人數量最多的一屆大會，而現場幾乎一半的觀眾都集中在人形機器人公司的展台。

這些人形機器人高矮胖瘦各不相同：從僅有110cm的加速進化“小巧”型Booster T1，到足有185cm的“壯漢”型青龍機器人一應俱全。每一家機器人的機械臂形態、電池位置，臉部造型，乃至移動方式都風格各異，但他們都在賣力地表演著“絕技”。

論武，它們能打詠春、拳擊、跳“海草舞”，甚至能在有鋼管的地上跑步飄逸；論文，它們會寫毛筆字，還能做菜、洗衣、疊衣。在多個展台上，機器人們顯得一派絕活學盡，就等著進廠打工或是去客戶家服務的高昂姿態。

但一位長期關注人形機器人賽道的投資人逛完展會後，卻對騰訊科技表示：“我一個也不想投了”。

他們目前既不夠有用，又拉不開差距。

比如，工業場景人形機器人，主要任務是做揀選和小範圍的搬運、挪動，但現有的傳統自動化機器人已經有很成熟的方案，再做人形機器人意義不大。而聚焦家用場景的人形機器人主要任務就是烹飪、疊衣服、炒菜，雖然各家機器人在這類場景的完成度有差異，但投資人表示，“你能做到的對手也能做到，並不存在不可踰越的差距，只是時間問題而已”。

經騰訊科技不完全統計，此次大會一共有28家人形機器人公司參展，各家公司產品的服務場景除了科研之外，多數都集中在工業或家用場景。

騰訊科技不完全統計：世界機器人大會參展人形機器人企業一覽表｜按首字母排序

從騰訊科技的統計可以看到，這些機器人的機械性能差異不小，比如自由度、峰值扭矩等指標，最多能有5倍差距；單拿移動速度來看，最快的一級能達到7km/h以上，慢的卻只能做到2.5km/h。但在軟體基礎——大模型層面上，各家卻很難拉開大的差距。

而這本應是今年人形機器人的最大亮點。

因為比起特定應用的工業機器人，“人形”這類型的機器人設計其實並不高效。它最大的優勢就在於更能實現在人類社會中的“通用”，即人類不需要為了方便機器人的運轉而特意改造環境，人類的雙手能夠著、雙腿能抵達的地方，人形機器人也可以。

而實現“通用”的關鍵就在於有足夠強的通用模型。

對這位投資人來說，展會內軟體突破有限的人形機器人已讓他感到審美疲勞。“現在能讓我眼前一亮的，大概是真正擁有泛化能力的機器人”，比如一個會拖地的家庭服務機器人，可以不用主人發號指令，就能自己想到主動去房間鋪個床，幹個活。

騰訊科技溝通了多位關注機器人賽道的投資人，他們普遍認為，做人形機器人，硬體本體並不存在真正意義上的壁壘，軟體才是難題，因為它決定著人形機器人的泛化能力，只有擁有強大的泛化能力，人形機器人才能在多種任務場景中工作，才能更接近“通用性”。

但通往AGI是一個美好的理想，除了要奔向遠方，也要結合當下的技術條件循序漸進。

雖然今年的人形機器人賽道讓VC們略感失望，但和往年相比，我們發現這個賽道其實也有一些值得關注的新變化。

01. 人形機器人的“表情包”執念？

如果未來人形機器人想要實現真正意義上的情感陪伴，它的“臉”和“表情”會變得極為重要。

日本機器人學者、ATR石黑浩特別研究室室長石黑浩認為，“隨著我們接觸到越來越多的機器人，我們可能會逐漸接受栩栩如生的機器人，並在未來依靠它們來滿足我們的護理和其他需求。”

海銀資本創始人王煜全也有類似觀點，他曾對騰訊科技表示，機器人沒有必要像人一樣擁有雙足，但它們可以像人一樣擁有一張能做表情的“臉”，具備這項能力，機器人可以更好地勝任迎賓接待、陪伴這類需要與人類交流的工作。

關於人形機器人做不做“表情”，有兩個派別：“抽象派”和“仿生派”，前者主張用抽象的符號傳遞表情，以表達情感交流，後者主張將臉做得無限逼近真人，希望能和人類一樣，可以通過調動“肌肉”的力量驅動面部表情。

在WRC 2024上，我們觀察到，除了主流的“抽象派”，更多的“仿生派”開始入場，並且這類機器人可以做各種“表情包”。

典型的代表是國內仿生機器人公司EX集團，EX集團去年將“李白”、“杜甫”帶到世界機器人大會，今年又做出來“蘇軾”。

此外，和去年相比，今年又多出一家做表情的機器人公司“數字華夏”，它的人形機器人“夏瀾”在現場和觀眾做起了互動：

除此之外，也有很多產品並不講究把“表情”做得多麼細緻，有的壓根連“臉”都沒有，還有部分做了“臉”的公司則選擇了籠統的“頭盔”樣式。

仔細留意會發現，不論是國外波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01，還是國內智元新上的“遠征A2”、宇樹公佈的新品“G1”、優必選會進廠打工的“Walker S”等，它們都頂著一張相似的“鋼鐵”面龐。

（圖：第一排從左到右波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01；第二排從左到右：智元“遠征A2”、宇樹G1、優必選Wlaker S）

這些人形機器人面部材質幾乎都使用黑色的玻璃面罩，用LED鑲邊，宇數創始人王興興在WRC 2024之前的交流會上表示，“我對G1的頭部設計很滿意，短時間內不會改變”。

或許其中一個原因是，這類面部本身就是一個螢幕，上面可以出現任何抽象符號，方便組成表情，向人類傳遞情感。

比如，Figure01或Figure02在說話的時候，面部會呈現OpenAI的標誌性符號，雖然算不上真正的表情，但也讓和它交流的人類感受到“你正在認真聽我講話”。

其實，回溯人形機器人“鼻祖”——第一版波士頓動力機器人“液壓”Atlas的外貌，你會發現，它連基本的“臉”都不存在，更談不上有表情，它的面部看上去有點“糊弄”，只用了幾根略粗的鋼管和帶有兩個孔的器件，簡陋地搭建了一張Atlas的臉。

這可能源於波士頓動力創始人Marc Raiber的一段信念，他曾在接受訪談的時候表示，“能力、靈巧、感知和智力才是機器人的關鍵功能，其它的都不重要。”

直到2021年，一則液壓Atlas舞蹈視訊“Do You Love Me”爆紅，Marc Raiber才開始認可“仿生”對於人形機器人與人類情感交流的重要性，或許正是這一段淵源，2024年的電動Atlas才擁有了一張“頭盔式”面龐。

這類頭盔式臉龐在審美和功能性上都有一定的作用，比如它們的主色都是“高級黑”，代表著十足的科技感，並且頭盔式的設計可以減少外部環境對感測器和攝影機的損害，如灰塵、碰撞或其他物理損害。更重要的是，它們可以規避“恐怖谷效應”給人帶來的不適感。

“頭盔式”的抽象派十分受歡迎，但仿生派也一直在研究如何將機器人的表情做得更像人，這一領域主要有兩種技術路線：自主式和遠端操控式。自主式機器人通過機器學習和演算法驅動來生成面部表情，而遠端操控式機器人則依賴操作員的指令來模仿其面部表情。

例如，哥倫比亞大學工程學院的創新機器實驗室開發了一款名為Emo的機器人。該機器人採用自我監督學習框架，能夠預測人類的面部表情，甚至可以在一個人微笑前的840毫秒內做出預測，與人類同步微笑。

（論文地址：https://www.science.org/doi/10.1126/scirobotics.adi4724）

而更早的時候，有學者為了更好地練習機器人模仿人類表情，開發出開源機器人Eva，並行表論文解釋了機器人表情驅動的原理。

（論文地址：https://www.sciencedirect.com/science/article/pii/S2468067220300262）

Eva的頭部由面罩驅動機構、下頜、眼睛和頸部四個部分組成，論文中描述，“其中面罩驅動機構採用了12個MG90S伺服電機、兩個用於容納伺服電機的3D列印伺服組、一個定製的硅膠面罩、一個用於支撐面罩的3D列印頭骨以及穿過特氟龍鮑登管的鋼絲。”

這些鋼絲穿過管子，連接到頭骨內的各種伺服電機上，“為了產生面部表情，需要啟動12個伺服電機中的特定子集，從而拉動鋼絲並使面罩變形，以模擬面部肌肉在做表情時如何使皮膚變形。”簡單來說，鋼絲可以通過工作人員發出的指令，組合式地驅動多個伺服電機，將力傳導到面罩上，從而形成機器人的“表情”。

在WRC 2024上，EX機器人CEO李博陽對騰訊科技說道，“EX機器人的面部整合了幾十組自由度，並且通過EX自研的一套系統完成對表情的驅動。同時，開發一套情緒模型，便於機器人進行情感分析，並將其對應到表情上。”

把人形機器人做得無限逼近人類，似乎是一種執念，WRC 2024上的活躍的“仿生派”，正是這一執念的顯化。

02. 量產、進廠的機器人，不為打工為資料

在今年的機器人大會上，人形機器人不光數量大幅提升，這些甚至只是第一代的產品還直接紛紛宣佈量產，能夠進廠打工了。他們一路小跑，跟上了前輩特斯拉Optimus的腳步。

稚暉君創立的智元機器人，預計2024年發貨量300 台，其雙足人形機器人10月起量產，年出貨量預計200台。UniX AI的輪式人形機器人Wanda也計畫在9小規模量產，年內預計生產100台左右。在現場，優必選甚至直接搭建了一個工廠場景，去展示他們最新的人形機器人進廠操作的全流程，包括篩查車輛狀況，分類揀取產品以及搬運工作。據他們的工作人員介紹，優必選已經和汽車企業合作，真正開始在廠裡運作了。

但講到機器人的性能時，相關工作人員承認，目前只能達到人類效率的20%-30%，而且電池續航僅有兩個小時。續航短也是業內人形機器人的普遍問題。

這樣水平的機器人量產、進廠，真的是為了工業化落地嗎？並不是。

這就需要再次聊起，上文投資人曾提到的機器人的“泛化”能力，這是需要大量資料的。

那需要多少資料呢？

比如在UniX-AI的站台上，他們裝載了大模型的Wanda機器人一口氣展示了包括洗衣服、疊衣服、製作漢堡、3D清潔等多項任務。這一過程中最令人印象深刻的就是Wanda洗衣服的場景，它首先接受到人類對它的命令，之後自動尋路去尋找髒衣服，並把它投放進洗衣機中。這看起來已經頗具獨立完成全流程任務的能力了。

但這種泛化很有限。

UniX-AI創始人楊豐瑜對騰訊科技表示，像洗衣服這樣任務級的泛化，這是目前的資料和訓練能夠達成的。但能主動識別，完成一個模型處理多種任務的泛化功能，目前還需要一定時間。

在整場機器人大會中，我們能看到各種能進行拆分任務的機器人。像優必選會分揀物品的WalkerS，星塵智能能寫出一手漂亮毛筆字的S1。但真正能實現多工間泛化展示的機器人基本上沒有。

他們在固定的展位上做著各種大差不差、非常有限的工作，甚至流程看起來都很程式化。這一時間讓人恍惚，好像回到了大模型到來之前的程式設計機器人時代。

在機器人大會期間的採訪中，作為RT-X項目的參與者的Wolfram Burgard教授就認為當下的基礎模型訓練方式有著能效上的巨大問題——它需要太多的算力和資料才能達到泛化的門檻。

他舉了個例子——在RT-X資料集項目中，雖然他們收集了超過100萬個片段，覆蓋了機器人的500多項技能和在16萬項具體任務上的表現，但當桌子高度稍有不同，RT-2就可能完全無法正確進行任務了。

這就意味著，我們離真正泛化的具身智能ChatGPT時刻，可能還差著至少半個網際網路那麼大的資料量。

因此，在這場達成“泛化”的比賽裡，能夠先批次獲得資料的企業才能佔據先機。因此獲得有效資料，是很多機器人公司在台下最火熱的戰場。

智元機器人發佈會上，稚輝君就宣佈了智元的資料採集計畫。他們預計9月底建成有100台左右機器人的採樣廠，對應150個工人，接下來進入資料量產階段，目標是一個工人1000條資料/天，當前是600條/天。這就已經佔據了他們預期“量產”機器人數量的1/3。當然，投入自有回報，按他們給出的資料，這個資料工廠10天就可以收集到和RT-X資料集一樣大的量級。

而UniX-AI和星塵智能這些劍指具身智能實現的後起之秀，也強調自己在資料採集方面的投入。UniX-AI創始人楊豐瑜提到，他們在對機器人的訓練中已經用到了在虛擬環境的模擬訓練，以及視訊採集分析這些“新採集方法”得到的資料。

但據智元透露，目前這些真機採集資料非常貴。即使採用大規模的生產，成本也需要0.4元/條。即使在模擬環境下獲取的模擬資料，也需要真人資料60%-70%的成本。

那怎麼才能更好地、更便宜地收集資料呢？進廠打工也許就是個對雙方都有利的選擇。機器人能獲得一個收集實踐工作相關資料的真實場景，而相關的人力成本可能都能節省下來；相關企業則能獲得智造探索的行業經驗，又可以多一個宣發口徑。

消化了“量產”人形機器人中相當一部分的現實企業，不過是現階段人形機器人的另一個資料工廠罷了。

03. 人形機器人也走“親民”路線，那裡不對“拆”那裡

“量產”一直是人形機器人的產業難題，主要原因在於各家關鍵零部件規格不統一、參數要求參差不齊，很難形成標準化。宇樹創始人王興興在WRC 2024前也對騰訊科技說道，“每一家做具身智能的思路都不一樣，比如機器人的感測資料應該怎麼採集，要不要觸覺感測器，末端執行器應該有幾根手指，都不統一”。

儘管行業的路線還在探索，但其實很多公司都在用“模組化”思維做人形機器人，即，人形機器人就像一個“大玩具”，胳膊、機械手、底盤都可以被拆卸和安裝，而在今年的WRC 2024上，模組化設計機器人的路徑被直接呈現了出來，“人形機器人賽道軟硬體標準化程度低，將零部件模組化，其實也是一些公司在初步嘗試做標準化”，一位參加WRC 2024的業內人士對騰訊科技說道。

機器人公司嘗試模組化的主要零部件，聚焦在上臂、靈巧手、雙足，比如星動紀元Star1機器人可拆卸替換底盤，Star1的底部既可以換成雙足也可以做成輪式，“如果有需要，也可以不用底盤，只保留上半身”，星動紀元工作人員說道。

而智元機器人的“靈犀X1”機器人主打開源，電機、夾爪等核心零部件可以實現拆裝。

但末端執行器的替換，涉及到本體對不同類型夾爪的控制能力，比如，能輕鬆運作兩指夾爪、三指夾具的本體，未必能夠駕馭好五指靈巧手，“它們所牽涉到的控制能力不是一個等級的”。

04. 結語

雖然WRC 2024過後，不少人對人形機器人的應用表示懷疑和失望，在實際場景中連傳統機械臂都比不上，甚至覺得“人不如狗”，但技術的進步是循序漸進的，機器人的泛化和智能也並非一蹴而就，在這中間可能會湧現很多“中間態”的產品類型。

這些“中間態”產品在發展過程中，可能會出現一些脫離正常生長軌跡的狀況，比如讓還不成熟的人形機器人進廠“打工”，就像要求一個剛剛蹣跚學步的孩童去百米衝刺一樣，顯得有點“揠苗助長”，甚至可能醜態百出。

但人形機器人需要被“拉出去溜溜”，它只有走進人類、感知世界，才有可能真正服務於人類。 (智東西)

科技