大模型衝擊人形機器人賽道後，一個兆美金的新故事

2024/06/27

•

1978年北京，在早稻田大學加藤一郎舉辦的座談會上，現場播放了一段WABOT-15機器人的影像。

這是世界上第一個全尺寸人形智慧型手機器人。畫面中，WABOT-15緩慢地抬起腳。它每邁一步需要45秒，僅10公分的步幅，約為成年人類六分之一，但依舊引起全場轟動。

四十五年後，位於合肥市的蔚來汽車生產車間內，一台優必選人形機器人Walker S正式進入工廠實地培訓。Walker S身高近1.7米，外形上更接近人類，搭載41個伺服關節和多個感知系統。它對環境的感知更靈敏，動作也更靈活，已經開始替代部分工人完成工作。

過去數年，中國人形機器人領域技術幾經發展迭代，無數科技公司投身其中，推動人形機器人自緩慢靜態行走、連續動態行走、高動態運動，步入今天的產業化前夜。

根據國際機器人協會預測，2021年至2030年，全球人形機器人市場的年化複合增長率將達到71%；到2030年，其產業規模可達兆美金左右，其中中國人形機器人市場規模有望達到8700億元。

很長一段時間裡，工業機器人都以傳統協作臂形態存在，執行完成產線上的單點任務。人形機器人則處於全然不同的圖景中。

它可以進行門鎖質檢、車燈蓋、板檢測、安全帶檢測、貼車標等工作，覆蓋多個生產環節，同時還能與人類員工互相配合，完成汽車裝配及質量檢查作業。比如特斯拉所釋出的柯博文（Optimus）在自家工廠工作的視訊中，柯博文能重複拿取電池、放進電池槽中並將電池排列整齊。

而進入工廠只是第一步。“讓人形機器人走進千家萬戶”，是這場敘事裡所有人共同追求的終極目標。

過去由於技術不成熟，機器人只能提供case by case服務，缺乏對複雜場景的認知能力，應用空間侷限；同時在本體控制層，人形動作僵硬，需按照預設好的演算法運行，不具備更智能的靈巧操作能力。

直至2023年，大模型席捲行業，給了人形機器人具身智能這一新轉折，資本也聞風湧入。

賽迪研究院報告顯示，2023年人形機器人領域共計發生投融資案例22起，包括宇樹科技、銀河通用、達闥機器人、智元機器人和逐際動力等融資金額均超過億元；今年已發生投融資事件7起，金額最高的是宇樹近10億元的B2輪融資。

具身智能描摹出一個想像力十足的未來。大模型的加持無疑會大幅度提升機器人認知和決策能力。但市場對人形機器人的判斷，出現了兩類截然相反的聲音。

一種認為下半年將會有企業率先跑進場景，人形機器人替代人類工作處理程序加速；另一種則認為，目前人形機器人的智能化還很早期，成本、效率問題未解，更遑論形成一套清晰的商業模式。

為此，36氪走訪了數十位人形機器人從業者，希望通過本文來回答以下幾個問題：

1、對比上一代技術路徑，“新”的人形機器人企業其革命性體現在那裡？

2、從研究到產品化的過程中，有哪些比較關鍵的硬體成本？存在哪些挑戰？

3、如何看待人形機器人要重點突破的場景？現在談商業化是否為時過早？

大模型砸中機器人行業

以去年爆發的具身智能為分水嶺，從2010年開始，可以將國內人形機器人技術路徑劃分為兩個階段。

第一階段的技術路徑圍繞具體任務、從單個場景出發。這類人形機器人多以本體為基礎，通過在本地改進演算法、增加算力來增強機器人能力。先預設任務在場景中的執行邊界，使用者下發指令後，收集現有資料進行訓練，於限定範圍內窮舉出能解決任務的多個演算法，儘可能覆蓋更多路徑。

簡單來說，當我們想讓機器人倒咖啡、就設計一個倒咖啡的模型，想讓機器人在工廠裡擰螺絲、就設定一個擰螺絲的程序。

比如工業場景的搬運機器人，工程師會針對特定園區提前設定運輸線路，機器人只需在固定路徑上完成配送任務，靈活性低、但穩定性強；在多條路線的情況下，這些路徑也可以用演算法提前規劃好。然而，機器人一旦脫離該地圖所設定的任務，便無法運轉。

因此，面對新場景和任務，人形機器人都需要重新收集資料訓練、設定方案和測試，導致了極大的資源損耗。即使在生產中注入自動化屬性，對人類勞動力的釋放也十分有限。

但在新一輪人形機器人浪潮中，以具身智能為代表的技術路徑更強調泛化性，追求多場景適配。大模型能解決多種任務，這一通用能力被引入到人形機器人之後，令人們第一次看到了機器人從單任務式交付到規模化應用的可能。

“一個具體的轉變是，過去大家對機器人的要求是只需要定崗、提前把事項預編好，然後去執行就可以了。但人形機器人不是。人們希望它既能是個熟練的螺絲工、同時又具備質檢等其他工作能力，可以靈活組態，最終替代工廠裡的員工完成繁重、枯燥性工作，而不是替掉現有的重型機械臂、傳送帶等。”樂聚機器人副總裁柯真東告訴36氪。

場景能否差異化的決定性因素就是泛化的大腦。這源自兩大能力提升：一是基於自然語言的理解能力。嵌入大模型互動後，機器人能聽懂語言，理解人類需求，並將其分解為序列化指令、下發讓機器人到目標地點執行任務。

第二是學習能力。非結構化的環境下，大模型加上多維感測器，能夠學習、識辨並建構環節，在打穿mobile（移動）、pick（抓取）、place（搬運）三大基礎能力之上，讓人形機器人具備多場景作業的能力。

以銀河通用的具身多模態小腦大模型為例。工作人員在後台下單一樣藥品、這是意圖；而後雙臂輪式機器人接收到指令，將其分解為具體的運動步驟。模型會先識別出藥品、鎖定其在貨架上的位置，再伸出右臂吸盤抓取，由左臂兩指夾放進籃筐內。

這一系列動作由感知模型和操作模型協同完成，全程無人工參與，當貨架上發生藥品擺放位置錯誤、倒放等狀態時，機器人會掠過它們，直接抓取後排正確的藥品。

“泛化性本質在於，任意場景、任意物體、任意情形下機器人mobile、pick、place都能成功。”北大-銀河通用具身智能聯合實驗室主任王鶴向36氪指出。

可以看出，面對突發情況時，理想狀態下的人形機器人能夠結合先前經驗學習並複製泛化。

採訪中，多位關注人形機器人賽道的投資人普遍認為，“今天人形機器人公司的優勢都屬於階段性長板，最終要形成自己的閉環，核心在於各家技術擅長點與想做的場景是否匹配、能否在場景中打通。”

在本體層，人形機器人泛化則體現為下肢形態的選擇上。

人形機器人的上肢結構相對穩定，根據移動方式，下肢可大致分為兩種，分別是以底盤為重心的輪式以及與人類相似的足式。

輪式機器人主要在平面、結構化道路上運動，如導購機器人、酒店配送機器人等。它的優勢在於技術發展成熟，方向盤和輪子兩個驅動，就可以完成前進、後退和轉彎，底盤比較重、能夠支撐機身穩定。

但其侷限性也很明顯，無法在樓梯、野外、狹窄通道、凹凸不平的地面等非結構化路面行走，對複雜地形的適應能力較差，應用場景有限。

對比之下，人形雙足機器人在空間應用的通用性更強，末端控制自由度更高，面對複雜場景時，它可以通過及時調整雙腿間重心來保持平衡，執行多種任務。這對機器人的控制能力提出了更高要求。捕捉到環境資訊後，機器人的腿要適應不同地形，並能負重。

以野外行走為例，足式機器人需要先感知並理解周圍的環境情況，是泥濘的土路還是顛簸的石子路、上下坡的地形等，這些資訊往往是動態的。根據現場環境變動，足式機器人會自主規劃新線路，並調整行走姿態和控制運動。

但目前，市場上暫時未出現一款真正達到智能水平的人形雙足機器人產品，輪式機器人成為不少公司現階段商業化的首選形態。例如1X的EVE輪式模擬機器人、銀河通用的雙臂+輪式仿生機器人、達闥機器人的Ginger系列人形服務雲端機器人，還有可根據場景選配下肢是輪式或足式的戴盟Sparky 1人形機器人等。

“歸根結底，雙足人形機器人推動了整個驅動、特別是電機驅動產業的發展。但人類大部分工作場景都是在平面中完成的，例如辦公室、工廠、購物中心等。”達闥機器人CEO黃曉慶告訴36氪，“匹配現階段機器人智能水平的前提下，輪式已經可以覆蓋很大一部分應用場景。”

人形機器人的本質是為了通用，在不同場景和任務下，將人類從危險係數大、重複枯燥的工作中釋放出來。“我們要做的是尊重能力發展的規律，現階段人形機器人哪方面能力是ready的，就完成多少工作。”王鶴說。

以銀河通用輪式機器人Galbot為例。Galbot採用人形上肢加輪式的形態，由於輪式機器人無法實現下蹲、伸高等垂直空間移動，銀河通用提出了可伸縮軀幹，蹲下手臂可以摸到地面，完全站立可以摸高達2.4米，並向櫥櫃等內部結構伸入抓取，除特殊狹窄通道外，基本可以達到跟人類相同的活動和操作空間。

可以看到，具身智能從大腦層面增強了機器人對任務的理解能力、並進行邏輯推理，將人形機器人推向一個新台階。而硬體本體層面，雙足和輪式結構技術也逐漸成熟。軟硬體兩方面革新終讓多場景泛化成為可能。

但人形機器人終究要從Demo視訊跨入真實場景。目前最緊迫的難題便是如何從實驗室走向規模化。

硬體成本高、資料採集難

作為集AI技術、軟體演算法、運動控制、硬體結構等為一體的移動終端，人形機器人是目前公認的難度係數最高的產品。

與工業機器人和服務機器人相比，人形機器人的結構更複雜。比如，常見工業機器人的關節數量一般為2-10個，而人形機器人多超過40個，有近5000多個零部件，系統工程量極大，在硬體搭配、控制演算法及核心零部件選擇上都有差異。

當前，要讓人形機器人真正走進場景得以應用，首先需要跨過這些硬體的成本大山。比如特斯拉柯博文，僅絲槓關節的總價就高達16萬元。

人形機器人核心零部件中，技術難度最高分別是減速器、伺服系統和控製器，佔成本比例的60-70%。

當前關節所用的伺服電機主要從海外進口，安川、松下、三菱等日系廠商佔據國內近50%市場，價格昂貴。

減速器方面，常見的方案分為行星減速器、諧波減速器，二者在結構、工作原理、應用領域以及優缺點上存在顯著的區別。

其中，行星減速器的承載能力強、效率更高、成本低，力矩透明度較大，單級傳動減速比小，多用於對精度要求相對不高的運動結構。

而諧波減速器的優勢在於，它的體積較小、重量輕、傳動精度更高，單級傳動比大，但缺點是隨著使用時間增長，柔輪易發生疲勞破壞，承載能力和使用壽命相比行星減速器較低，成本相對較高。

目前工業界還沒有一個得到公認的減速器方案，“根據減速器性能和產品需求不同，考慮成本的選行星、做輕量化的選諧波，各家做各家的。”黃曉慶告訴36氪。

其他硬體方面，人形機器人所用到的控製器、感測器、電池系統等，和工業機器人和新能源車等領域有較大的重複性。通過復用部分傳統製造業的供應鏈資源，國產硬體供應商具備很強的低成本、大規模量產能力，可有效降低人形機器人的整機成本。

除伺服電機等零部件外，當前人形機器人大型關節的國產化率為90%，小型關節國產化率更是達到95%以上。人形機器人成本開始有下探的跡象。

5月13日，宇樹科技Unitree G1人形智能體在京東上架，售價9.9萬元起，位元斯拉柯博文喊出低於2萬美元（折合人民幣約14.5萬）的價格便宜4.6萬元，率先在人形機器人領域打響了價格戰。

“基於過去在四足狗產品的經驗，宇樹的供應鏈能力上去了，在成本控制方面做得很好。Unitree G1人形智能體9.9萬元的售價，也證明了其規模化生產的能力，對其他人形機器人企業來說是件好事。”某關注AI+機器人賽道的FA高宇說到。

即便如此，宇樹人形機器人還沒能滿足市場對價格的預期。據36氪瞭解，對比傳統工業機器人一體化關節，由於人形機器人尚處在產品化早期，因此，大部分下遊客戶對成本非常敏感。

鈦虎機器人聯合創始人易港告訴36氪，“工業領域的客戶對可承受的價格閾值更高，哪怕售價5000元、也有願意付費的客戶。但人形機器人客戶大多隻能接受1000-2000元的價格。”

人形機器人仍陷在客戶不買賬、量產難進而邊際成本無法降低的矛盾中。

硬體行業的爆發最初會依靠一些資金雄厚的冒險者開局，但行業邁向商業化最終只能依靠規模量產後不斷降低邊際成本。

“要能把研發、開模以及其他加工費用攤薄，目前很多廠家願意前期低價合作，做定製化開發。但要正兒八經有產線，得有一兩家本體公司跑出來量後才有可能。”柯真東表示。

當然，這是新行業啟動時必然跋涉的路徑。產業不斷成熟，政府政策支援，大量社會資本與各種產業基金爆發性投入，會加速國內具有競爭優勢的供應鏈形成。北航機器人研究所名譽所長、中關村智友研究院院長王田苗預測，人形機器人未來成本將下降至少50%。

根據《2024年中國人形機器人行業研究報告》，人形機器人按量產規模不同，降本大致可劃分為三個階段：小批次千台量級生產，降本20%-30%至約10萬美元；萬台等級降本50%至5萬美元；數十萬至百萬台大規模量產，降本70%-80%至2-3萬美元。

優必選副總裁、研究院執行院長焦繼超告訴36氪，目前，優必選真人尺寸工業版人形機器人Walker S的成本大約為4-5萬美元。

另一方面，訓練資料採集的難度，是橫亙在人形機器人規模化落地面前的第二座大山。

今年4月，特斯拉推出多模態大模型Grok-1.5v，利用端到端高速大模型FSD（Full-Self Driving，完全自動駕駛）推理，將足夠多的使用者資料清理乾淨後喂給模型，以解決自動駕駛邊緣案例的線上迭代學習問題。

特斯拉柯博文能在有限簡單場景下進行自主作業，其核心依靠資料驅動：採集海量的優質資料，覆蓋各類場景和物體，並通過具身智能提煉泛化能力。

目前，人形機器人公司對資料的需求可以分為三類。

第一，通過資料理解世界規律。例如，空間記憶體在桌子和杯子兩個分離物體，把杯子從桌上拿走，可以轉移放到另一張桌子上、也可能掉落摔碎。通過大量資料學習，讓機器人理解任務意圖。

第二，借助模擬資料學習邏輯推理和決策能力。機器人完成一項任務是由系列動作構成的。讓機器人從貨架上取一瓶牛奶，從什麼角度去抓，紙殼包裝和易拉罐裝的力度等，過去並沒有資料集可學習，但借助模擬環境，可以讓機器人掌握各種抓取方法。

第三，真實場景的應用資料。比如讓機器人將給iPhone手機充電，首先需要辨識手機充電口和各類資料線插頭，經Sim-to-real transfer（模擬環境向真實世界遷移）掌握方法後，再通過Tele-operation（遙操作）方法完成。

三類資料側重點不同會影響人形機器人的精度和成功率。例如Google和特斯拉的方案，均採用真實世界資料採集為主、持續最佳化Tele-operation。特斯拉的VR Tele-operation系統，可以第一視角操控人形機器人，看其所看、動起所動，當人的手臂擺動時，機器人也會跟著運動。這套系統被特斯拉應用在其鹼電池工廠中。

“人形機器人最終落地是多種形態的，要提前做產業化佈局，就意味著它需要提前進入場景迭代，獲取資料、再不斷地迭代，去適配場景的真實需求。”星動紀元聯合創始人席悅向36氪如是說。

真實資料的增加有利於機器人提高智能水平。但要跨越鴻溝，真實資料需要提高多樣性和質量，並非單純數量堆砌。

舉個例子，鹼電池工廠的電池是固定的、外包裝使用固定的盒子，在物體位置和環境相對固定的情況下，訓練所得的資料與Imitation Learning（模仿學習）沒太大差異，機器人的智能也並沒有得到拓展和增加。

“在機器人領域，我們面臨著海量未標註的異構行為巨量資料，這使得語義與資料的精準對齊變得異常困難，其中涉及語義歧義問題、模型幻覺的安全問題，以及標準化測試平台和使用安全的評價問題等。”王田苗在採訪中向36氪指出。

優必選使用的訓練資料中，由Tele-operation所收集的真實資料佔20%，比如工具使用、工廠中的零件分揀等；像桌椅板凳、地面牆面、人類和環境等通用目標識別，則是基於其他類型機器人積累的資料，可直接用在人形機器人訓練。此外還有80%的資料通過模擬環境合成獲得。

由於真實資料稀缺，採集難度大、成本高，模擬合成資料被許多人形機器人企業視為解決資料問題的最優選。

以達闥機器人的數字孿生方案為例。公司搭建了一套即時同步、虛實轉換的資料收集系統，通過感測器，可以將人所在環境掃描並傳輸到雲端，以30Hz/秒進行重建，將機器人放置在孿生環境中進行訓練。簡而言之，就是將機器人看作一個NPC，各項任務是一個個遊戲，用AI驅動人形機器人在“遊戲”中運行。

“這時候，我們要多少合成資料就有多少，需要什麼場景、也可以通過數字孿生的方式隨時搭建。當資料在時間軸上被拉長、以切片形式存在，突發問題也變成了靜止問題。”黃曉慶說。

然而，合成資料的劣勢在於，它與真實資料之間存在資料分佈的差異，即時性不強，在落地時，會面臨更高要求的精度問題。

對此王鶴表示，“這件事的解決有先例。宇樹四足狗的運動、跑跳，以及雙足行走，都是通過大規模模擬強化學習實現的。這就說明Sim2Real（從模擬到真實）雖然有gap，但是可以做得很work的。”

對於一個真正稱得上智能的人形機器人，這三種資料沒有優劣之分。但 “目前市場上，能夠在同一個階段把幾類資料都同步做好的公司幾乎沒有，普遍做法是根據自身的技術優勢，優先從擅長方向切入。”光源資本董事總經理婁洋告訴36氪。

當前，人形機器人距離里程碑式的跨越還很遙遠。只是，如今的資本並沒有技術界的耐心。他們要看到可預見的商業化路徑，沒人會為脆弱的願景買單。

商業化倒計時

今年4月，亞馬遜的媒體活動日上，Agility Robotics分享了人形機器人Digit在亞馬遜倉庫的工作畫面。

這次“員工試用期”始於2023年10月，經過三個多月實踐，Digit已經可以連續工作7.5個小時，效率為人類速度的75%，任務成功率達到97%。

亞馬遜倉庫內有75萬台物流機器人，在這之後，公司正考慮測試Digit人形機器人的物流托盤。按照人工作業5至8個小時、20-30元/小時，機器人連續工作5年即可回本。

根據高盛測算，預計2025年，少批次資金雄厚的人形機器人公司有望進入商業化試點，到2035年其替代率或從5%提高10%至15%，出貨量翻4倍、將達到140萬台。

人形機器人展現出了龐大的市場需求。但如上所述，現階段行業存在技術、成本等問題，部分國內企業仍處於產品測試階段，商業化處理程序還在早期。

當中的核心錨點，是公司能否找到擅長的應用場景。

在所有人形機器人企業中，大家都會談到的問題是——找到PMF。Product market fit（產品-市場匹配），就是產品要能夠解決真實的需求，其中產品所創造的價值往往比產品售價本身還要貴。

可以看到，當前國內外人形機器人已進入汽車生產車間、物流倉儲間，可以完成一些基礎性的工作。在席悅看來，隨著機器人運動機能進一步提升，落地場景將會從車間的單一的基礎勞動過度到複雜的柔性任務，逐步向服務業邁進，最終走進千家萬戶。

王田苗認為，人形機器人的落地會先從商務場景切入，然後進入工業場景，最後再到消費場景。而“產品化過程需要時間來產生並驗證價值，因此，基於場景的融合打磨與迭代變得至關重要。”

“當面對具體場景時，我們要解決的問題就變成了‘如何提高機器人的魯棒性’（即在異常和危險情況下、保持機器的穩定運行），讓人形機器人的適應性和部署效率，能夠在真實應用環境中切實落地。”焦繼超表示。

目前公司們主要朝三個方向掘金：

第一種是以教育科研、開發者使用者為主，用於做人形機器人技術研究、產品二次開發以及開設教育課程、比賽等；這部分訂單在早期可以為企業帶來較為穩定的收入，保持造血能力。

第二種是B端客戶，面向典型製造業、物流倉儲業、商區服務業；這批客戶當下的需求是以前期案例示範應用為主，目的是為未來批次引入人形機器人做準備。

第三種，也是所有人形機器人企業的終極目標，面向C端客戶，真正實現機器人走進千家萬戶，為每個家庭服務。

婁洋指出，以具身智能為核心的新一代人形機器人公司中，“大家當前在場景側的選取和市場端的切入上尚未達成共識。有些探索進度快，有些相對較慢，但進度更快的公司所選取的路徑，並不一定代表著該場景的最優解。目前場景落地的可行性和優劣與否還沒有明確答案。”

以工業場景為例，就存在落地成本不確定，以及資料訓練和實際應用轉化之間的錯配問題。工廠對機器人的要求通常以精準成本為導向，期待機器人能夠每天完成固定的任務，確保生產的穩定性。然而，人形機器人的智能水平提升需要更強的泛化性和應變能力。與生活場景相比，工業環境能提供給機器人的反饋和學習機會相對受限。

從資本視角來看，找到適配的場景以驗證技術的有效性已十分迫切。“尤其是對於那些估值普遍超過20億人民幣的第一梯隊公司。”婁洋說。

這些公司的機器人，首先要在一個特定場景中做到跟人一樣好，甚至比人做得好，包括承擔更危險的工作、實現更高的精度、解決招人難題，或是用於成本更低的自動化任務等。在單一場景驗證後，公司再考慮向更廣泛的應用場景進行技術泛化。

眼下各家在融資上仍有窗口期，絕對差距暫未被拉開。多位投資人告訴36氪，對人形機器人公司來說，接下來比拚的焦點是差異化， Demo視訊大家都有、場景實際表現才是見真章。

市場上的錢畢竟有限。頭部企業能聚攏到更多的資源，擁有更多試錯的可能，包括提高人才密度、買好的技術團隊、提升產線等。對尚未找到清晰落地場景的新團隊來說，融資的大門正在關閉。

過去10年，AI給太多行業帶來過希望和失望。具身智能的概念足夠性感，但還沒有清晰的輪廓。甚至目前人們期待的機器人未必就是長得最像人、最智能的形態。

“機器人是人形的也好、其他形態的也好，在我們看來，希望它短期內替代人類做些複雜、危險的工作，讓人們活的更輕鬆點；長期來看，更智能的人形機器人還可以為我們提供情感價值。這是場景落地真正的價值所在。”焦繼超表示。

具身智能帶來了一場顛覆式的生產力變革，但從進入產業到終極生活場景的落地，行業需要時間。在這些新的技術路徑、硬體設計、供應鏈搭建、市場需求驅動的共同作用下，我們要做的事情還有很多。 (硬氪)