大模型衝擊人形機器人賽道後,一個兆美金的新故事



1978年北京,在早稻田大學加藤一郎舉辦的座談會上,現場播放了一段WABOT-15機器人的影像。

這是世界上第一個全尺寸人形智慧型手機器人。畫面中,WABOT-15緩慢地抬起腳。它每邁一步需要45秒,僅10公分的步幅,約為成年人類六分之一,但依舊引起全場轟動。

四十五年後,位於合肥市的蔚來汽車生產車間內,一台優必選人形機器人Walker S正式進入工廠實地培訓。Walker S身高近1.7米,外形上更接近人類,搭載41個伺服關節和多個感知系統。它對環境的感知更靈敏,動作也更靈活,已經開始替代部分工人完成工作。

過去數年,中國人形機器人領域技術幾經發展迭代,無數科技公司投身其中,推動人形機器人自緩慢靜態行走、連續動態行走、高動態運動,步入今天的產業化前夜。

根據國際機器人協會預測,2021年至2030年,全球人形機器人市場的年化複合增長率將達到71%;到2030年,其產業規模可達兆美金左右,其中中國人形機器人市場規模有望達到8700億元。

很長一段時間裡,工業機器人都以傳統協作臂形態存在,執行完成產線上的單點任務。人形機器人則處於全然不同的圖景中。

它可以進行門鎖質檢、車燈蓋、板檢測、安全帶檢測、貼車標等工作,覆蓋多個生產環節,同時還能與人類員工互相配合,完成汽車裝配及質量檢查作業。比如特斯拉所釋出的柯博文(Optimus)在自家工廠工作的視訊中,柯博文能重複拿取電池、放進電池槽中並將電池排列整齊。


柯博文在車間取電池(圖源:特斯拉官方視訊)


而進入工廠只是第一步。“讓人形機器人走進千家萬戶”,是這場敘事裡所有人共同追求的終極目標。

過去由於技術不成熟,機器人只能提供case by case服務,缺乏對複雜場景的認知能力,應用空間侷限;同時在本體控制層,人形動作僵硬,需按照預設好的演算法運行,不具備更智能的靈巧操作能力。

直至2023年,大模型席捲行業,給了人形機器人具身智能這一新轉折,資本也聞風湧入。

賽迪研究院報告顯示,2023年人形機器人領域共計發生投融資案例22起,包括宇樹科技、銀河通用、達闥機器人、智元機器人和逐際動力等融資金額均超過億元;今年已發生投融資事件7起,金額最高的是宇樹近10億元的B2輪融資。

具身智能描摹出一個想像力十足的未來。大模型的加持無疑會大幅度提升機器人認知和決策能力。但市場對人形機器人的判斷,出現了兩類截然相反的聲音。

一種認為下半年將會有企業率先跑進場景,人形機器人替代人類工作處理程序加速;另一種則認為,目前人形機器人的智能化還很早期,成本、效率問題未解,更遑論形成一套清晰的商業模式。

為此,36氪走訪了數十位人形機器人從業者,希望通過本文來回答以下幾個問題:

1、對比上一代技術路徑,“新”的人形機器人企業其革命性體現在那裡?

2、從研究到產品化的過程中,有哪些比較關鍵的硬體成本?存在哪些挑戰?

3、如何看待人形機器人要重點突破的場景?現在談商業化是否為時過早?



大模型砸中機器人行業

以去年爆發的具身智能為分水嶺,從2010年開始,可以將國內人形機器人技術路徑劃分為兩個階段。

第一階段的技術路徑圍繞具體任務、從單個場景出發。這類人形機器人多以本體為基礎,通過在本地改進演算法、增加算力來增強機器人能力。先預設任務在場景中的執行邊界,使用者下發指令後,收集現有資料進行訓練,於限定範圍內窮舉出能解決任務的多個演算法,儘可能覆蓋更多路徑。

簡單來說,當我們想讓機器人倒咖啡、就設計一個倒咖啡的模型,想讓機器人在工廠裡擰螺絲、就設定一個擰螺絲的程序。

比如工業場景的搬運機器人,工程師會針對特定園區提前設定運輸線路,機器人只需在固定路徑上完成配送任務,靈活性低、但穩定性強;在多條路線的情況下,這些路徑也可以用演算法提前規劃好。然而,機器人一旦脫離該地圖所設定的任務,便無法運轉。

因此,面對新場景和任務,人形機器人都需要重新收集資料訓練、設定方案和測試,導致了極大的資源損耗。即使在生產中注入自動化屬性,對人類勞動力的釋放也十分有限。

但在新一輪人形機器人浪潮中,以具身智能為代表的技術路徑更強調泛化性,追求多場景適配。大模型能解決多種任務,這一通用能力被引入到人形機器人之後,令人們第一次看到了機器人從單任務式交付到規模化應用的可能。

“一個具體的轉變是,過去大家對機器人的要求是只需要定崗、提前把事項預編好,然後去執行就可以了。但人形機器人不是。人們希望它既能是個熟練的螺絲工、同時又具備質檢等其他工作能力,可以靈活組態,最終替代工廠裡的員工完成繁重、枯燥性工作,而不是替掉現有的重型機械臂、傳送帶等。”樂聚機器人副總裁柯真東告訴36氪。


夸父機器人在工廠內工作(圖源:樂聚機器人)


場景能否差異化的決定性因素就是泛化的大腦。這源自兩大能力提升:一是基於自然語言的理解能力。嵌入大模型互動後,機器人能聽懂語言,理解人類需求,並將其分解為序列化指令、下發讓機器人到目標地點執行任務。

第二是學習能力。非結構化的環境下,大模型加上多維感測器,能夠學習、識辨並建構環節,在打穿mobile(移動)、pick(抓取)、place(搬運)三大基礎能力之上,讓人形機器人具備多場景作業的能力。

以銀河通用的具身多模態小腦大模型為例。工作人員在後台下單一樣藥品、這是意圖;而後雙臂輪式機器人接收到指令,將其分解為具體的運動步驟。模型會先識別出藥品、鎖定其在貨架上的位置,再伸出右臂吸盤抓取,由左臂兩指夾放進籃筐內。

這一系列動作由感知模型和操作模型協同完成,全程無人工參與,當貨架上發生藥品擺放位置錯誤、倒放等狀態時,機器人會掠過它們,直接抓取後排正確的藥品。


Galbot正在撿垃圾(圖源:銀河通用)


“泛化性本質在於,任意場景、任意物體、任意情形下機器人mobile、pick、place都能成功。”北大-銀河通用具身智能聯合實驗室主任王鶴向36氪指出。

可以看出,面對突發情況時,理想狀態下的人形機器人能夠結合先前經驗學習並複製泛化。

採訪中,多位關注人形機器人賽道的投資人普遍認為,“今天人形機器人公司的優勢都屬於階段性長板,最終要形成自己的閉環,核心在於各家技術擅長點與想做的場景是否匹配、能否在場景中打通。”

在本體層,人形機器人泛化則體現為下肢形態的選擇上。

人形機器人的上肢結構相對穩定,根據移動方式,下肢可大致分為兩種,分別是以底盤為重心的輪式以及與人類相似的足式。

輪式機器人主要在平面、結構化道路上運動,如導購機器人、酒店配送機器人等。它的優勢在於技術發展成熟,方向盤和輪子兩個驅動,就可以完成前進、後退和轉彎,底盤比較重、能夠支撐機身穩定。

但其侷限性也很明顯,無法在樓梯、野外、狹窄通道、凹凸不平的地面等非結構化路面行走,對複雜地形的適應能力較差,應用場景有限。

對比之下,人形雙足機器人在空間應用的通用性更強,末端控制自由度更高,面對複雜場景時,它可以通過及時調整雙腿間重心來保持平衡,執行多種任務。這對機器人的控制能力提出了更高要求。捕捉到環境資訊後,機器人的腿要適應不同地形,並能負重。

以野外行走為例,足式機器人需要先感知並理解周圍的環境情況,是泥濘的土路還是顛簸的石子路、上下坡的地形等,這些資訊往往是動態的。根據現場環境變動,足式機器人會自主規劃新線路,並調整行走姿態和控制運動。

但目前,市場上暫時未出現一款真正達到智能水平的人形雙足機器人產品,輪式機器人成為不少公司現階段商業化的首選形態。例如1X的EVE輪式模擬機器人、銀河通用的雙臂+輪式仿生機器人、達闥機器人的Ginger系列人形服務雲端機器人,還有可根據場景選配下肢是輪式或足式的戴盟Sparky 1人形機器人等。

“歸根結底,雙足人形機器人推動了整個驅動、特別是電機驅動產業的發展。但人類大部分工作場景都是在平面中完成的,例如辦公室、工廠、購物中心等。”達闥機器人CEO黃曉慶告訴36氪,“匹配現階段機器人智能水平的前提下,輪式已經可以覆蓋很大一部分應用場景。”

人形機器人的本質是為了通用,在不同場景和任務下,將人類從危險係數大、重複枯燥的工作中釋放出來。“我們要做的是尊重能力發展的規律,現階段人形機器人哪方面能力是ready的,就完成多少工作。”王鶴說。

以銀河通用輪式機器人Galbot為例。Galbot採用人形上肢加輪式的形態,由於輪式機器人無法實現下蹲、伸高等垂直空間移動,銀河通用提出了可伸縮軀幹,蹲下手臂可以摸到地面,完全站立可以摸高達2.4米,並向櫥櫃等內部結構伸入抓取,除特殊狹窄通道外,基本可以達到跟人類相同的活動和操作空間。


Galbot將機械臂伸入櫥櫃內(圖源:銀河通用)


可以看到,具身智能從大腦層面增強了機器人對任務的理解能力、並進行邏輯推理,將人形機器人推向一個新台階。而硬體本體層面,雙足和輪式結構技術也逐漸成熟。軟硬體兩方面革新終讓多場景泛化成為可能。

但人形機器人終究要從Demo視訊跨入真實場景。目前最緊迫的難題便是如何從實驗室走向規模化。


硬體成本高、資料採集難

作為集AI技術、軟體演算法、運動控制、硬體結構等為一體的移動終端,人形機器人是目前公認的難度係數最高的產品。

與工業機器人和服務機器人相比,人形機器人的結構更複雜。比如,常見工業機器人的關節數量一般為2-10個,而人形機器人多超過40個,有近5000多個零部件,系統工程量極大,在硬體搭配、控制演算法及核心零部件選擇上都有差異。

當前,要讓人形機器人真正走進場景得以應用,首先需要跨過這些硬體的成本大山。比如特斯拉柯博文,僅絲槓關節的總價就高達16萬元。

人形機器人核心零部件中,技術難度最高分別是減速器、伺服系統和控製器,佔成本比例的60-70%。

當前關節所用的伺服電機主要從海外進口,安川、松下、三菱等日系廠商佔據國內近50%市場,價格昂貴。

減速器方面,常見的方案分為行星減速器、諧波減速器,二者在結構、工作原理、應用領域以及優缺點上存在顯著的區別。

其中,行星減速器的承載能力強、效率更高、成本低,力矩透明度較大,單級傳動減速比小,多用於對精度要求相對不高的運動結構。

而諧波減速器的優勢在於,它的體積較小、重量輕、傳動精度更高,單級傳動比大,但缺點是隨著使用時間增長,柔輪易發生疲勞破壞,承載能力和使用壽命相比行星減速器較低,成本相對較高。

目前工業界還沒有一個得到公認的減速器方案,“根據減速器性能和產品需求不同,考慮成本的選行星、做輕量化的選諧波,各家做各家的。”黃曉慶告訴36氪。

其他硬體方面,人形機器人所用到的控製器、感測器、電池系統等,和工業機器人和新能源車等領域有較大的重複性。通過復用部分傳統製造業的供應鏈資源,國產硬體供應商具備很強的低成本、大規模量產能力,可有效降低人形機器人的整機成本。

除伺服電機等零部件外,當前人形機器人大型關節的國產化率為90%,小型關節國產化率更是達到95%以上。人形機器人成本開始有下探的跡象。

5月13日,宇樹科技Unitree G1人形智能體在京東上架,售價9.9萬元起,位元斯拉柯博文喊出低於2萬美元(折合人民幣約14.5萬)的價格便宜4.6萬元,率先在人形機器人領域打響了價格戰。

“基於過去在四足狗產品的經驗,宇樹的供應鏈能力上去了,在成本控制方面做得很好。Unitree G1人形智能體9.9萬元的售價,也證明了其規模化生產的能力,對其他人形機器人企業來說是件好事。”某關注AI+機器人賽道的FA高宇說到。

即便如此,宇樹人形機器人還沒能滿足市場對價格的預期。據36氪瞭解,對比傳統工業機器人一體化關節,由於人形機器人尚處在產品化早期,因此,大部分下遊客戶對成本非常敏感。

鈦虎機器人聯合創始人易港告訴36氪,“工業領域的客戶對可承受的價格閾值更高,哪怕售價5000元、也有願意付費的客戶。但人形機器人客戶大多隻能接受1000-2000元的價格。”

人形機器人仍陷在客戶不買賬、量產難進而邊際成本無法降低的矛盾中。

硬體行業的爆發最初會依靠一些資金雄厚的冒險者開局,但行業邁向商業化最終只能依靠規模量產後不斷降低邊際成本。

“要能把研發、開模以及其他加工費用攤薄,目前很多廠家願意前期低價合作,做定製化開發。但要正兒八經有產線,得有一兩家本體公司跑出來量後才有可能。”柯真東表示。

當然,這是新行業啟動時必然跋涉的路徑。產業不斷成熟,政府政策支援,大量社會資本與各種產業基金爆發性投入,會加速國內具有競爭優勢的供應鏈形成。北航機器人研究所名譽所長、中關村智友研究院院長王田苗預測,人形機器人未來成本將下降至少50%。

根據《2024年中國人形機器人行業研究報告》,人形機器人按量產規模不同,降本大致可劃分為三個階段:小批次千台量級生產,降本20%-30%至約10萬美元;萬台等級降本50%至5萬美元;數十萬至百萬台大規模量產,降本70%-80%至2-3萬美元。

優必選副總裁、研究院執行院長焦繼超告訴36氪,目前,優必選真人尺寸工業版人形機器人Walker S的成本大約為4-5萬美元。


Walker S在蔚來車間(圖源:優必選)


另一方面,訓練資料採集的難度,是橫亙在人形機器人規模化落地面前的第二座大山。

今年4月,特斯拉推出多模態大模型Grok-1.5v,利用端到端高速大模型FSD(Full-Self Driving,完全自動駕駛)推理,將足夠多的使用者資料清理乾淨後喂給模型,以解決自動駕駛邊緣案例的線上迭代學習問題。

特斯拉柯博文能在有限簡單場景下進行自主作業,其核心依靠資料驅動:採集海量的優質資料,覆蓋各類場景和物體,並通過具身智能提煉泛化能力。

目前,人形機器人公司對資料的需求可以分為三類。

第一,通過資料理解世界規律。例如,空間記憶體在桌子和杯子兩個分離物體,把杯子從桌上拿走,可以轉移放到另一張桌子上、也可能掉落摔碎。通過大量資料學習,讓機器人理解任務意圖。

第二,借助模擬資料學習邏輯推理和決策能力。機器人完成一項任務是由系列動作構成的。讓機器人從貨架上取一瓶牛奶,從什麼角度去抓,紙殼包裝和易拉罐裝的力度等,過去並沒有資料集可學習,但借助模擬環境,可以讓機器人掌握各種抓取方法。

第三,真實場景的應用資料。比如讓機器人將給iPhone手機充電,首先需要辨識手機充電口和各類資料線插頭,經Sim-to-real transfer(模擬環境向真實世界遷移)掌握方法後,再通過Tele-operation(遙操作)方法完成。

三類資料側重點不同會影響人形機器人的精度和成功率。例如Google和特斯拉的方案,均採用真實世界資料採集為主、持續最佳化Tele-operation。特斯拉的VR Tele-operation系統,可以第一視角操控人形機器人,看其所看、動起所動,當人的手臂擺動時,機器人也會跟著運動。這套系統被特斯拉應用在其鹼電池工廠中。

“人形機器人最終落地是多種形態的,要提前做產業化佈局,就意味著它需要提前進入場景迭代,獲取資料、再不斷地迭代,去適配場景的真實需求。”星動紀元聯合創始人席悅向36氪如是說。

真實資料的增加有利於機器人提高智能水平。但要跨越鴻溝,真實資料需要提高多樣性和質量,並非單純數量堆砌。

舉個例子,鹼電池工廠的電池是固定的、外包裝使用固定的盒子,在物體位置和環境相對固定的情況下,訓練所得的資料與Imitation Learning(模仿學習)沒太大差異,機器人的智能也並沒有得到拓展和增加。

“在機器人領域,我們面臨著海量未標註的異構行為巨量資料,這使得語義與資料的精準對齊變得異常困難,其中涉及語義歧義問題、模型幻覺的安全問題,以及標準化測試平台和使用安全的評價問題等。”王田苗在採訪中向36氪指出。

優必選使用的訓練資料中,由Tele-operation所收集的真實資料佔20%,比如工具使用、工廠中的零件分揀等;像桌椅板凳、地面牆面、人類和環境等通用目標識別,則是基於其他類型機器人積累的資料,可直接用在人形機器人訓練。此外還有80%的資料通過模擬環境合成獲得。

由於真實資料稀缺,採集難度大、成本高,模擬合成資料被許多人形機器人企業視為解決資料問題的最優選。

以達闥機器人的數字孿生方案為例。公司搭建了一套即時同步、虛實轉換的資料收集系統,通過感測器,可以將人所在環境掃描並傳輸到雲端,以30Hz/秒進行重建,將機器人放置在孿生環境中進行訓練。簡而言之,就是將機器人看作一個NPC,各項任務是一個個遊戲,用AI驅動人形機器人在“遊戲”中運行。


基於RobotGPT多模態大模型(圖源:達闥機器人)


“這時候,我們要多少合成資料就有多少,需要什麼場景、也可以通過數字孿生的方式隨時搭建。當資料在時間軸上被拉長、以切片形式存在,突發問題也變成了靜止問題。”黃曉慶說。

然而,合成資料的劣勢在於,它與真實資料之間存在資料分佈的差異,即時性不強,在落地時,會面臨更高要求的精度問題。

對此王鶴表示,“這件事的解決有先例。宇樹四足狗的運動、跑跳,以及雙足行走,都是通過大規模模擬強化學習實現的。這就說明Sim2Real(從模擬到真實)雖然有gap,但是可以做得很work的。”

對於一個真正稱得上智能的人形機器人,這三種資料沒有優劣之分。但 “目前市場上,能夠在同一個階段把幾類資料都同步做好的公司幾乎沒有,普遍做法是根據自身的技術優勢,優先從擅長方向切入。”光源資本董事總經理婁洋告訴36氪。

當前,人形機器人距離里程碑式的跨越還很遙遠。只是,如今的資本並沒有技術界的耐心。他們要看到可預見的商業化路徑,沒人會為脆弱的願景買單。


機器人表演群舞“千手觀音”(圖源:達闥機器人)


商業化倒計時

今年4月,亞馬遜的媒體活動日上,Agility Robotics分享了人形機器人Digit在亞馬遜倉庫的工作畫面。

這次“員工試用期”始於2023年10月,經過三個多月實踐,Digit已經可以連續工作7.5個小時,效率為人類速度的75%,任務成功率達到97%。

亞馬遜倉庫內有75萬台物流機器人,在這之後,公司正考慮測試Digit人形機器人的物流托盤。按照人工作業5至8個小時、20-30元/小時,機器人連續工作5年即可回本。

根據高盛測算,預計2025年,少批次資金雄厚的人形機器人公司有望進入商業化試點,到2035年其替代率或從5%提高10%至15%,出貨量翻4倍、將達到140萬台。

人形機器人展現出了龐大的市場需求。但如上所述,現階段行業存在技術、成本等問題,部分國內企業仍處於產品測試階段,商業化處理程序還在早期。

當中的核心錨點,是公司能否找到擅長的應用場景。

在所有人形機器人企業中,大家都會談到的問題是——找到PMF。Product market fit(產品-市場匹配),就是產品要能夠解決真實的需求,其中產品所創造的價值往往比產品售價本身還要貴。

可以看到,當前國內外人形機器人已進入汽車生產車間、物流倉儲間,可以完成一些基礎性的工作。在席悅看來,隨著機器人運動機能進一步提升,落地場景將會從車間的單一的基礎勞動過度到複雜的柔性任務,逐步向服務業邁進,最終走進千家萬戶。

王田苗認為,人形機器人的落地會先從商務場景切入,然後進入工業場景,最後再到消費場景。而“產品化過程需要時間來產生並驗證價值,因此,基於場景的融合打磨與迭代變得至關重要。”

“當面對具體場景時,我們要解決的問題就變成了‘如何提高機器人的魯棒性’(即在異常和危險情況下、保持機器的穩定運行),讓人形機器人的適應性和部署效率,能夠在真實應用環境中切實落地。”焦繼超表示。

目前公司們主要朝三個方向掘金:

第一種是以教育科研、開發者使用者為主,用於做人形機器人技術研究、產品二次開發以及開設教育課程、比賽等;這部分訂單在早期可以為企業帶來較為穩定的收入,保持造血能力。

第二種是B端客戶,面向典型製造業、物流倉儲業、商區服務業;這批客戶當下的需求是以前期案例示範應用為主,目的是為未來批次引入人形機器人做準備。

第三種,也是所有人形機器人企業的終極目標,面向C端客戶,真正實現機器人走進千家萬戶,為每個家庭服務。

婁洋指出,以具身智能為核心的新一代人形機器人公司中,“大家當前在場景側的選取和市場端的切入上尚未達成共識。有些探索進度快,有些相對較慢,但進度更快的公司所選取的路徑,並不一定代表著該場景的最優解。目前場景落地的可行性和優劣與否還沒有明確答案。”

以工業場景為例,就存在落地成本不確定,以及資料訓練和實際應用轉化之間的錯配問題。工廠對機器人的要求通常以精準成本為導向,期待機器人能夠每天完成固定的任務,確保生產的穩定性。然而,人形機器人的智能水平提升需要更強的泛化性和應變能力。與生活場景相比,工業環境能提供給機器人的反饋和學習機會相對受限。


夸父機器人正在炒菜(圖源:樂聚機器人)


從資本視角來看,找到適配的場景以驗證技術的有效性已十分迫切。“尤其是對於那些估值普遍超過20億人民幣的第一梯隊公司。”婁洋說。

這些公司的機器人,首先要在一個特定場景中做到跟人一樣好,甚至比人做得好,包括承擔更危險的工作、實現更高的精度、解決招人難題,或是用於成本更低的自動化任務等。在單一場景驗證後,公司再考慮向更廣泛的應用場景進行技術泛化。

眼下各家在融資上仍有窗口期,絕對差距暫未被拉開。多位投資人告訴36氪,對人形機器人公司來說,接下來比拚的焦點是差異化, Demo視訊大家都有、場景實際表現才是見真章。

市場上的錢畢竟有限。頭部企業能聚攏到更多的資源,擁有更多試錯的可能,包括提高人才密度、買好的技術團隊、提升產線等。對尚未找到清晰落地場景的新團隊來說,融資的大門正在關閉。

過去10年,AI給太多行業帶來過希望和失望。具身智能的概念足夠性感,但還沒有清晰的輪廓。甚至目前人們期待的機器人未必就是長得最像人、最智能的形態。

“機器人是人形的也好、其他形態的也好,在我們看來,希望它短期內替代人類做些複雜、危險的工作,讓人們活的更輕鬆點;長期來看,更智能的人形機器人還可以為我們提供情感價值。這是場景落地真正的價值所在。”焦繼超表示。

具身智能帶來了一場顛覆式的生產力變革,但從進入產業到終極生活場景的落地,行業需要時間。在這些新的技術路徑、硬體設計、供應鏈搭建、市場需求驅動的共同作用下,我們要做的事情還有很多。 (硬氪)