逛完世界機器人大會,投資人說再也不想投人形機器人了



把人形機器人做得無限逼近人類,似乎是一種執念。


過去一周,我們彷彿能在世界機器人大會上看到全世界的機器人,600余件相關展品幾乎覆蓋了機器人的各條產業鏈。

機器人類型也多得令人眼花繚亂,比如“上躥下跳”的機器狗、整齊劃一“搖曳”的機械臂,還有可以做到不把酒撒出來的“送餐小能手”等。

不論是機器人數量還是參展熱度,人形機器人都堪稱“C位”。據官方表示,這是人形機器人數量最多的一屆大會,而現場幾乎一半的觀眾都集中在人形機器人公司的展台。

這些人形機器人高矮胖瘦各不相同:從僅有110cm的加速進化“小巧”型Booster T1,到足有185cm的“壯漢”型青龍機器人一應俱全。每一家機器人的機械臂形態、電池位置,臉部造型,乃至移動方式都風格各異,但他們都在賣力地表演著“絕技”。

論武,它們能打詠春、拳擊、跳“海草舞”,甚至能在有鋼管的地上跑步飄逸;論文,它們會寫毛筆字,還能做菜、洗衣、疊衣。在多個展台上,機器人們顯得一派絕活學盡,就等著進廠打工或是去客戶家服務的高昂姿態。


(星塵智能Astribot S1跳海草舞)


(逐際動力雙足機器人P1上坡)


但一位長期關注人形機器人賽道的投資人逛完展會後,卻對騰訊科技表示:“我一個也不想投了”。

他們目前既不夠有用,又拉不開差距。

比如,工業場景人形機器人,主要任務是做揀選和小範圍的搬運、挪動,但現有的傳統自動化機器人已經有很成熟的方案,再做人形機器人意義不大。而聚焦家用場景的人形機器人主要任務就是烹飪、疊衣服、炒菜,雖然各家機器人在這類場景的完成度有差異,但投資人表示,“你能做到的對手也能做到,並不存在不可踰越的差距,只是時間問題而已”。

經騰訊科技不完全統計,此次大會一共有28家人形機器人公司參展,各家公司產品的服務場景除了科研之外,多數都集中在工業或家用場景。

騰訊科技不完全統計:世界機器人大會參展人形機器人企業一覽表|按首字母排序


從騰訊科技的統計可以看到,這些機器人的機械性能差異不小,比如自由度、峰值扭矩等指標,最多能有5倍差距;單拿移動速度來看,最快的一級能達到7km/h以上,慢的卻只能做到2.5km/h。但在軟體基礎——大模型層面上,各家卻很難拉開大的差距。

而這本應是今年人形機器人的最大亮點。

因為比起特定應用的工業機器人,“人形”這類型的機器人設計其實並不高效。它最大的優勢就在於更能實現在人類社會中的“通用”,即人類不需要為了方便機器人的運轉而特意改造環境,人類的雙手能夠著、雙腿能抵達的地方,人形機器人也可以。

而實現“通用”的關鍵就在於有足夠強的通用模型。

對這位投資人來說,展會內軟體突破有限的人形機器人已讓他感到審美疲勞。“現在能讓我眼前一亮的,大概是真正擁有泛化能力的機器人”,比如一個會拖地的家庭服務機器人,可以不用主人發號指令,就能自己想到主動去房間鋪個床,幹個活。

騰訊科技溝通了多位關注機器人賽道的投資人,他們普遍認為,做人形機器人,硬體本體並不存在真正意義上的壁壘,軟體才是難題,因為它決定著人形機器人的泛化能力,只有擁有強大的泛化能力,人形機器人才能在多種任務場景中工作,才能更接近“通用性”。

但通往AGI是一個美好的理想,除了要奔向遠方,也要結合當下的技術條件循序漸進。

雖然今年的人形機器人賽道讓VC們略感失望,但和往年相比,我們發現這個賽道其實也有一些值得關注的新變化。


01. 人形機器人的“表情包”執念?

如果未來人形機器人想要實現真正意義上的情感陪伴,它的“臉”和“表情”會變得極為重要。

日本機器人學者、ATR石黑浩特別研究室室長石黑浩認為,“隨著我們接觸到越來越多的機器人,我們可能會逐漸接受栩栩如生的機器人,並在未來依靠它們來滿足我們的護理和其他需求。”

海銀資本創始人王煜全也有類似觀點,他曾對騰訊科技表示,機器人沒有必要像人一樣擁有雙足,但它們可以像人一樣擁有一張能做表情的“臉”,具備這項能力,機器人可以更好地勝任迎賓接待、陪伴這類需要與人類交流的工作。

關於人形機器人做不做“表情”,有兩個派別:“抽象派”和“仿生派”,前者主張用抽象的符號傳遞表情,以表達情感交流,後者主張將臉做得無限逼近真人,希望能和人類一樣,可以通過調動“肌肉”的力量驅動面部表情。

在WRC 2024上,我們觀察到,除了主流的“抽象派”,更多的“仿生派”開始入場,並且這類機器人可以做各種“表情包”。

典型的代表是國內仿生機器人公司EX集團,EX集團去年將“李白”、“杜甫”帶到世界機器人大會,今年又做出來“蘇軾”。


(圖:EX集團仿生機器人“蘇軾”)


此外,和去年相比,今年又多出一家做表情的機器人公司“數字華夏”,它的人形機器人“夏瀾”在現場和觀眾做起了互動:


(圖:數字華夏機器人“夏瀾”)


除此之外,也有很多產品並不講究把“表情”做得多麼細緻,有的壓根連“臉”都沒有,還有部分做了“臉”的公司則選擇了籠統的“頭盔”樣式。

仔細留意會發現,不論是國外波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01,還是國內智元新上的“遠征A2”、宇樹公佈的新品“G1”、優必選會進廠打工的“Walker S”等,它們都頂著一張相似的“鋼鐵”面龐。


(圖:第一排從左到右 波士頓動力電動Atlas、馬斯克的Optimus Gen2、Figure 01;第二排從左到右:智元“遠征A2”、宇樹G1、優必選Wlaker S)


這些人形機器人面部材質幾乎都使用黑色的玻璃面罩,用LED鑲邊,宇數創始人王興興在WRC 2024之前的交流會上表示,“我對G1的頭部設計很滿意,短時間內不會改變”。

或許其中一個原因是,這類面部本身就是一個螢幕,上面可以出現任何抽象符號,方便組成表情,向人類傳遞情感。

比如,Figure01或Figure02在說話的時候,面部會呈現OpenAI的標誌性符號,雖然算不上真正的表情,但也讓和它交流的人類感受到“你正在認真聽我講話”。


(圖:Figure02)


其實,回溯人形機器人“鼻祖”——第一版波士頓動力機器人“液壓”Atlas的外貌,你會發現,它連基本的“臉”都不存在,更談不上有表情,它的面部看上去有點“糊弄”,只用了幾根略粗的鋼管和帶有兩個孔的器件,簡陋地搭建了一張Atlas的臉。

這可能源於波士頓動力創始人Marc Raiber的一段信念,他曾在接受訪談的時候表示,“能力、靈巧、感知和智力才是機器人的關鍵功能,其它的都不重要。”


(圖:波士頓動力液壓Atlas)


直到2021年,一則液壓Atlas舞蹈視訊“Do You Love Me”爆紅,Marc Raiber才開始認可“仿生”對於人形機器人與人類情感交流的重要性,或許正是這一段淵源,2024年的電動Atlas才擁有了一張“頭盔式”面龐。

這類頭盔式臉龐在審美和功能性上都有一定的作用,比如它們的主色都是“高級黑”,代表著十足的科技感,並且頭盔式的設計可以減少外部環境對感測器和攝影機的損害,如灰塵、碰撞或其他物理損害。更重要的是,它們可以規避“恐怖谷效應”給人帶來的不適感。

“頭盔式”的抽象派十分受歡迎,但仿生派也一直在研究如何將機器人的表情做得更像人,這一領域主要有兩種技術路線:自主式和遠端操控式。自主式機器人通過機器學習和演算法驅動來生成面部表情,而遠端操控式機器人則依賴操作員的指令來模仿其面部表情。

例如,哥倫比亞大學工程學院的創新機器實驗室開發了一款名為Emo的機器人。該機器人採用自我監督學習框架,能夠預測人類的面部表情,甚至可以在一個人微笑前的840毫秒內做出預測,與人類同步微笑。


(論文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724)


而更早的時候,有學者為了更好地練習機器人模仿人類表情,開發出開源機器人Eva,並行表論文解釋了機器人表情驅動的原理。


(論文地址:https://www.sciencedirect.com/science/article/pii/S2468067220300262)


Eva的頭部由面罩驅動機構、下頜、眼睛和頸部四個部分組成,論文中描述,“其中面罩驅動機構採用了12個MG90S伺服電機、兩個用於容納伺服電機的3D列印伺服組、一個定製的硅膠面罩、一個用於支撐面罩的3D列印頭骨以及穿過特氟龍鮑登管的鋼絲。”


(Eva的伺服器組)


這些鋼絲穿過管子,連接到頭骨內的各種伺服電機上,“為了產生面部表情,需要啟動12個伺服電機中的特定子集,從而拉動鋼絲並使面罩變形,以模擬面部肌肉在做表情時如何使皮膚變形。”簡單來說,鋼絲可以通過工作人員發出的指令,組合式地驅動多個伺服電機,將力傳導到面罩上,從而形成機器人的“表情”。

在WRC 2024上,EX機器人CEO李博陽對騰訊科技說道,“EX機器人的面部整合了幾十組自由度,並且通過EX自研的一套系統完成對表情的驅動。同時,開發一套情緒模型,便於機器人進行情感分析,並將其對應到表情上。”

把人形機器人做得無限逼近人類,似乎是一種執念,WRC 2024上的活躍的“仿生派”,正是這一執念的顯化。


02. 量產、進廠的機器人,不為打工為資料

在今年的機器人大會上,人形機器人不光數量大幅提升,這些甚至只是第一代的產品還直接紛紛宣佈量產,能夠進廠打工了。他們一路小跑,跟上了前輩特斯拉Optimus的腳步。

稚暉君創立的智元機器人,預計2024年發貨量300 台,其雙足人形機器人10月起量產,年出貨量預計200台。UniX AI的輪式人形機器人Wanda也計畫在9小規模量產,年內預計生產100台左右。在現場,優必選甚至直接搭建了一個工廠場景,去展示他們最新的人形機器人進廠操作的全流程,包括篩查車輛狀況,分類揀取產品以及搬運工作。據他們的工作人員介紹,優必選已經和汽車企業合作,真正開始在廠裡運作了。


(汽車產線上的優必選人形機器人)


但講到機器人的性能時,相關工作人員承認,目前只能達到人類效率的20%-30%,而且電池續航僅有兩個小時。續航短也是業內人形機器人的普遍問題。

這樣水平的機器人量產、進廠,真的是為了工業化落地嗎?並不是。

這就需要再次聊起,上文投資人曾提到的機器人的“泛化”能力,這是需要大量資料的。

那需要多少資料呢?

比如在UniX-AI的站台上,他們裝載了大模型的Wanda機器人一口氣展示了包括洗衣服、疊衣服、製作漢堡、3D清潔等多項任務。這一過程中最令人印象深刻的就是Wanda洗衣服的場景,它首先接受到人類對它的命令,之後自動尋路去尋找髒衣服,並把它投放進洗衣機中。這看起來已經頗具獨立完成全流程任務的能力了。


(UniX-AI的Wanda機器人在展廳演示執行洗衣任務)


但這種泛化很有限。

UniX-AI創始人楊豐瑜對騰訊科技表示,像洗衣服這樣任務級的泛化,這是目前的資料和訓練能夠達成的。但能主動識別,完成一個模型處理多種任務的泛化功能,目前還需要一定時間。

在整場機器人大會中,我們能看到各種能進行拆分任務的機器人。像優必選會分揀物品的WalkerS,星塵智能能寫出一手漂亮毛筆字的S1。但真正能實現多工間泛化展示的機器人基本上沒有。


(星塵智能的S1機器人正在寫字)


他們在固定的展位上做著各種大差不差、非常有限的工作,甚至流程看起來都很程式化。這一時間讓人恍惚,好像回到了大模型到來之前的程式設計機器人時代。

在機器人大會期間的採訪中,作為RT-X項目的參與者的Wolfram Burgard教授就認為當下的基礎模型訓練方式有著能效上的巨大問題——它需要太多的算力和資料才能達到泛化的門檻。

他舉了個例子——在RT-X資料集項目中,雖然他們收集了超過100萬個片段,覆蓋了機器人的500多項技能和在16萬項具體任務上的表現,但當桌子高度稍有不同,RT-2就可能完全無法正確進行任務了。


(RT-X資料集中的資料示例)


這就意味著,我們離真正泛化的具身智能ChatGPT時刻,可能還差著至少半個網際網路那麼大的資料量。

因此,在這場達成“泛化”的比賽裡,能夠先批次獲得資料的企業才能佔據先機。因此獲得有效資料,是很多機器人公司在台下最火熱的戰場。

智元機器人發佈會上,稚輝君就宣佈了智元的資料採集計畫。他們預計9月底建成有100台左右機器人的採樣廠,對應150個工人,接下來進入資料量產階段,目標是一個工人1000條資料/天,當前是600條/天。這就已經佔據了他們預期“量產”機器人數量的1/3。當然,投入自有回報,按他們給出的資料,這個資料工廠10天就可以收集到和RT-X資料集一樣大的量級。


(智元在機器人大會上展示的資料工廠情況)


而UniX-AI和星塵智能這些劍指具身智能實現的後起之秀,也強調自己在資料採集方面的投入。UniX-AI創始人楊豐瑜提到,他們在對機器人的訓練中已經用到了在虛擬環境的模擬訓練,以及視訊採集分析這些“新採集方法”得到的資料。

但據智元透露,目前這些真機採集資料非常貴。即使採用大規模的生產,成本也需要0.4元/條。即使在模擬環境下獲取的模擬資料,也需要真人資料60%-70%的成本。

那怎麼才能更好地、更便宜地收集資料呢?進廠打工也許就是個對雙方都有利的選擇。機器人能獲得一個收集實踐工作相關資料的真實場景,而相關的人力成本可能都能節省下來;相關企業則能獲得智造探索的行業經驗,又可以多一個宣發口徑。

消化了“量產”人形機器人中相當一部分的現實企業,不過是現階段人形機器人的另一個資料工廠罷了。


03. 人形機器人也走“親民”路線,那裡不對“拆”那裡

“量產”一直是人形機器人的產業難題,主要原因在於各家關鍵零部件規格不統一、參數要求參差不齊,很難形成標準化。宇樹創始人王興興在WRC 2024前也對騰訊科技說道,“每一家做具身智能的思路都不一樣,比如機器人的感測資料應該怎麼採集,要不要觸覺感測器,末端執行器應該有幾根手指,都不統一”。

儘管行業的路線還在探索,但其實很多公司都在用“模組化”思維做人形機器人,即,人形機器人就像一個“大玩具”,胳膊、機械手、底盤都可以被拆卸和安裝,而在今年的WRC 2024上,模組化設計機器人的路徑被直接呈現了出來,“人形機器人賽道軟硬體標準化程度低,將零部件模組化,其實也是一些公司在初步嘗試做標準化”,一位參加WRC 2024的業內人士對騰訊科技說道。

機器人公司嘗試模組化的主要零部件,聚焦在上臂、靈巧手、雙足,比如星動紀元Star1機器人可拆卸替換底盤,Star1的底部既可以換成雙足也可以做成輪式,“如果有需要,也可以不用底盤,只保留上半身”,星動紀元工作人員說道。


(星動紀元Star1)

而智元機器人的“靈犀X1”機器人主打開源,電機、夾爪等核心零部件可以實現拆裝。


(智元“靈犀”系列)


但末端執行器的替換,涉及到本體對不同類型夾爪的控制能力,比如,能輕鬆運作兩指夾爪、三指夾具的本體,未必能夠駕馭好五指靈巧手,“它們所牽涉到的控制能力不是一個等級的”。


04. 結語

雖然WRC 2024過後,不少人對人形機器人的應用表示懷疑和失望,在實際場景中連傳統機械臂都比不上,甚至覺得“人不如狗”,但技術的進步是循序漸進的,機器人的泛化和智能也並非一蹴而就,在這中間可能會湧現很多“中間態”的產品類型。

這些“中間態”產品在發展過程中,可能會出現一些脫離正常生長軌跡的狀況,比如讓還不成熟的人形機器人進廠“打工”,就像要求一個剛剛蹣跚學步的孩童去百米衝刺一樣,顯得有點“揠苗助長”,甚至可能醜態百出。

但人形機器人需要被“拉出去溜溜”,它只有走進人類、感知世界,才有可能真正服務於人類。 (智東西)