人形機器人：通用之戰與未解之題

2024/05/01

•

不論你接受與否，人工智慧技術已經開始對於現實世界的重重改造。

消費性電子領域，手機和電腦廠商們正在將不同種類的AI大模型，植入到各種終端產品中。這些公司普遍認為，AI能大幅改善困於創新瓶頸中的產業現狀，重新激發使用者的購買需求。汽車產業，特斯拉4月初向全美國的170萬車主推送了FSD（完全自動駕駛）正式版本，端到端的神經網路AI系統讓駕駛決策更像人類司機，例如連續跨越4車道轉向。更重要的是，目前為止特斯拉FSD還沒有被爆出發生任何重大事故。

AI的下一站會在哪裡？習慣捕捉趨勢的創投人，開始在人形機器人產業集結共識。

在中國的一級市場，2023年10月，人形機器人新創公司逐際動力完成近2億元的天使和Pre-A輪融資；同年12月，成立不到一年的智元機器人拿到6億元的融資資金；2024年1月，成立不到半年的星動紀元宣布完成億元天使輪融資；2024年2月，宇樹科技完成B2輪融資，金額達10億元。

「中國機器人產業的發展經歷了好幾輪起伏。2013-2014年，工業機器人的投資開始起步；2016-2017年，協作式機器人領域又掀起了一輪投資熱潮。從2022年開始，通用人形機器人成為了行業關注的焦點。

峰瑞資本副總裁顏黔杭對鈦媒體APP表示，中國國產工業機器人的市場滲透率達到了1/3左右，整個機器人產業正逐漸成熟。而AI 大模型產生的質變，讓大家意識到機器人的智慧化程度會越來越高，並且逐步通用化。

至於通用人形機器人何時能夠真正走上產線、走進家門，業界的新創公司則有不同的判斷。逐際動力方面認為，通用人形機器人要取代產線上人類的精細操作，還需要5-8年；真正走向家用市場，則需要8到10年。宇樹科技的創始人王興興則對鈦媒體APP表示，“2025年底前，更加通用化的人形機器人會出現，我感覺已經看到了方向。”

馬斯克，一呼百應

是什麼點燃了人形機器人的「這把火」？幾乎所有的受訪者都給了一致的答案，那就是特斯拉的創始人——馬斯克。

2022年2月，特斯拉完成了Optimus開發平台製造；7個月後的特斯拉人工智慧日2.0上，馬斯克帶著Optimus平台研發的擎天柱機器人原型亮相，該款機器人已能夠獨立行走和搬運物品。 2023年年底，第二代Optimus正式亮相，重量減輕10公斤、行走速度提高30%，並擁有更靈巧的手和自由度更高的脖子。

馬斯克入局之後，人形機器人的創業潮被徹底引爆。

2023年以來，包括宇樹H1、智元遠徵A1、傅利葉GR—1、星動紀元「小星」、逐際動力CL—1、小鵬PX5在內的一批國內人形機器人產品被推出。二級市場，被稱為國內「人形機器人第一股」的優必選，盤中股價一度上漲超過88%，儘管這家公司目前的主要收入來源並非人形機器人產品。

海外市場，2023年5月，挪威人形機器人新創公司1X宣布完成由OpenAI領投的2,350萬美元A2輪融資。幾乎同時，美國人形機器人公司Figure拿到了7,000萬美元A輪融資。 2024年1月，1X再次完成1億美元B輪融資，投資人包括EQT Ventures和三星NEXT等。一個月後，Figure宣布完成6.75億美元B輪融資，投資人包括微軟、OpenAI、英偉達等。

“2022年，OpenAI還沒有發布ChatGPT，但馬斯克可能先於業界看到了GPT的能力。”

王興興對鈦媒體APP表示，馬斯克之前不論是在汽車產業還是商業航太領域，都證明了他的成功。因此，當馬斯克開始當人形機器人之後，政府、市場、資本機構都認為必須加快入場，不能等特斯拉真正做出來了大家再去追。當然，人形機器人受到關注的更本質原因是，AI大模型的出現。

根據王興興介紹，先前宇樹科技並未有涉足人形機器人賽道的想法，因為人形機器人太複雜，用傳統演算法根本沒辦法駕馭這種複雜機器。但是，目前AI技術的發展已經遠遠超出其預期。例如，以前一到兩年才能讓人形機器人學會走路，現在利用AI演算法訓練一個月就可以實現。

「傳統人形機器人的訓練演算法，相當於靠一些聰明的人類大腦去寫一些數學方程式，然後去求解這個方程，制定機器人的運動軌跡。但這些方程式有很大的局限性，一旦環境出現變化，可能就沒辦法用了，需要重新設計新的方程式。

王興興進一步解釋稱，這樣的訓練方式會導致程式碼量非常大，而且當系統複雜到一定程度，單純靠人力是無法維護這個系統的。但對於AI來說，只要模型搭建得夠好，然後不斷給AI投餵數據和算力，AI就可以不斷地試錯。利用強化學習演算法中的獎勵機制，AI就能自動把好的訓練結果留下來，壞的丟掉，訓練效率得到質的提升。

靠著AI帶來的效率提升，宇樹科技只花了半年的時間，就推出了旗下的第一款人形機器人產品。在2024年GTC大會「壓軸」環節，英偉達CEO黃仁勳與九個人形機器人一起登場。其中，左起第二個人形機器人就是是宇樹科技旗下的Unitree H1。

需要注意的是，人形機器人的這波熱潮，甚至倒逼了該領域的鼻祖——波士頓動力，做出改變。

波士頓動力是一家美國的工程與機器人設計公司，成立於1992年。 2013年，波士頓動力在美國國防部競賽中公佈了人形機器人Atlas 。

經過多次迭代之後，Atlas可以實現完成各種複雜動作，例如快速奔跑、360 度旋轉跳躍、翻越障礙物等。運動控制方面，Atlas採用的正是「大量方程式求解」的傳統演算法，並由液壓裝置提供動力。

「Atlas之前披露過的成本是200萬美元左右一台。而目前市面上在售的人形機器人，宇樹科技的產品售價約為60萬元，傅利葉則為100萬元左右。」星動紀元共同創辦人席悅對鈦媒體APP表示，這是波士頓動力和新一代人形機器人在成本上的巨大差距。

2024年4月16日，波士頓動力宣布液壓版Atlas正式「退役」。之後，波士頓動力推出了新款全電動Atlas，和目前所有的人形機器人產品一樣，利用電池提供動力來源。接下來的控制演算法，波士頓動力大概率也會引用效率更高的AI模型。

三大未解之題：大腦、小腦與本體

“人形機器人現在的熱度，相當於是一個小火苗，才剛剛開始燃燒起來。如果AI和硬體每年都持續迭代，這個行業對於現實世界的顛覆將會非常強。”

王興興表示，到明年年底前，全球至少有一家公司可以把比較通用的機器人大模型開發出來。這個基礎大模型就像是一個完整的積木，大語言模型只是其中一塊，其他組成部分還包括視覺感知、力覺感知、決策和互動等。

不過，這樣的判斷在人形機器人產業中還未達成共識。更主流的觀點認為，人形機器人想要實現更大程度的通用化，需要在大腦、小腦和本體上同時取得突破，這在短時間內幾乎是無法完成的。

所謂大腦，指的是機器人的理解能力，也就是機器人對人類指令的理解以及環境感知。小腦，指機器人的精細化動作控制能力；本體，則是構成人形機器人原型的各類零件，如關節、四肢、頭等。

「大模型的出現，主要提升了機器人的大腦能力。」峰瑞資本執行董事劉鵬琦對鈦媒體APP表示。

顏黔杭則對鈦媒體APP稱，但就像「缸中之腦」一樣，現在大模型只是一個向外輸入和輸出語言類或多模態訊息的大腦，獨立於機器或本體存在。未來大模型到底該接入什麼樣的身體，才能完全發揮通用化功能？目前，不管是投資人還是創業者，大家都在探索的一個過程中。

而在小腦方面，目前的人形機器人已經在直立行走方面取得了長足的進展，不論是平地還是崎嶇的山路。在細分場景中，Figure 01成為了第一個「拿起蘋果」的人形機器人；史丹佛團隊的Mobile ALOHA，則展現了不錯的炒菜、收拾物品等能力。

但是，人形機器人想要實現完全通用化，這些進展還遠遠不夠。無論是拿蘋果還是炒菜，體現的都是機器人的模仿學習能力，也就是透過一再模仿人類動作，學習單一技能。

「機器人跟物理世界互動的高品質數據其實難獲得，所以模仿學習有其用武之地——透過用人去教他，去累積一些數。不過當下的模仿學習只是單純地教機器人複製人的動作，但它並不能理解每一個動作的驅動要素是什麼。，模仿學習可能就無法實現。

「視覺感測器的引入，可能讓機器人不再瞎了。但還有更多其他維度的感知能力，今天的機器人都是欠缺的。」顏黔杭稱，比如觸覺、力覺的傳感器市面上雖然有，但現在目前並沒有在機器人領域普及，主要原因是這些感測器整合度低、價格貴，體積相對與人形機器人來說也太大。

「強化學習就是不斷試錯的過程，相比於模仿學習有更強的泛化性。”

星動紀元聯合創始人席悅對鈦媒體APP表示，類似於自動駕駛的訓練方式一樣，強化學習可以透過建構模擬環境，讓機器人在真實場景的模擬環境中進行訓練，在不斷地試錯中優化自己的行為。 “強化學習訓練出來以後，機器人不僅能走樓梯，它也能走雪地，也能走草地，實現更好的泛化性。”

但要注意的是，模擬環境與真實世界無法做到完全相同，現實世界的互動環境以及互動物件相比於模擬環境會更複雜。這就會導致，仿真訓練結果遷移到真實世界會出現偏差，這也是目前整個產業面臨的挑戰。

鈦媒體APP曾獨家獲悉，星動紀元已將Humanoid-Gym訓練框架進行開源。 Humanoid-Gym開源後，使用者可以藉助該框架透過sim-to-sim轉換接口，在更高精度的模擬環境Mujoco中進行機器人訓練驗證，繼而提升sim-to-real（模擬到現實）轉換的效率和成功率。

而除去大腦和小腦的訓練之外，人形機器人能否走向通用的最後一道門檻，則是本體是否可以完全承接軟體演算法傳遞的動作指令。

“人形機器人的硬體技術產品主要圍繞感測器、執行器和驅動器、能源管理及新型材料等開展工作。”

IDC中國研究經理李君蘭對鈦媒體APP表示，目前，儘管已有多種感測器應用於人形機器人，但在精度、反應速度和整合度方面仍有提升空間。同時，人形機器人的能量消耗較大，高能源效率的能源動力管理和儲能技術也是重要挑戰。

「視覺感測器的引入，可能讓機器人不再瞎了。但還有更多其他維度的感知能力，今天的機器人都是欠缺的。」顏黔杭稱，比如觸覺、力覺的傳感器有很多，但現在目前並沒有在機器人領域普及，主要原因是這些感測器整合度低、價格很貴，體積相對與人形機器人來說也太大。

也正是因為種種方面的掣肘，人形機器人的通用之路變得更加漫長。

更現實的當下，有可能的未來

當人形機器人的「通用時刻」還沒到來時，如何活下去，成為了新創公司最真實的現實處境。

“我們公司商業化上的策略是四個字——沿途下蛋。”

逐際動力方面稱，具身智慧（包括人形機器人、四足機器人等多種產品型態）的應用場景非常廣泛，相較於人形機器人，四足機器人的商業化落地能力會更強。而後者，則是逐際動力需要下的蛋——依靠四足機器人成熟的移動能力，去實現產品商業化落地。

目前，逐際動力產品包括人形機器人CL1，雙點足機器人P1以及四（輪）足機器人W1。其中，雙點足機器人P1以及四（輪）足機器人W1落地應用聚焦在工業巡檢、物流配送、特殊作業等領域。

同樣的，成立更早的宇樹科技的主要營收也來自於四足機器人。這也是宇樹科技創立初發力的業務方向，目前已經有Go2、B2、Aliengo等多個產品。公開數據顯示，目前宇樹科技的四足機器人產品佔全球出貨量的60%以上，且處於全球歷年銷售領先的位置。

星動紀元方面則表示，汽車和消費電子的細分場景，例如，工廠巡檢、汽車總裝產線的物流部分，是公司目前探索的商業化方向。同時，類似商場迎賓等服務性質的工作，也存在著商業化的可能。

「當然，對於人形機器人的創業公司而言，融資肯定是必須的。」星動紀元聯合創始人席悅對鈦媒體APP表示，因為人形機器人這個行業還太早期，技術門檻更高、研發週期相對來說也更長，早期肯定需要融資才能活下去。

事實上，人形機器人產業出現的此刻，也是國內自動駕駛產業經歷的過去。

2017-2018年間，國內開始湧現大批自動駕駛的新創公司，並吸引了大量的創投機構進場。與人形機器人類似，自動駕駛領域也需要長週期的技術開發，所以在早期對於投資機構的依賴度很強。但很快，隨著投資熱潮的褪去，自動駕駛公司的商業化能力開始受到質疑。再之後，就是大批自動駕駛的團隊解散、裁員，甚至是對簿公堂。

“從技術門檻、創始團隊和行業影響力等方面來看，人形機器人和自動駕駛的確非常像。但是，這一輪人形機器人公司的估值普遍沒有上一輪自動駕駛公司的估值高。”

一位同時在自動駕駛和人形機器人領域工作過的業內人士表示，這是一件好事，大家不用一味只去追求公司估值，而忽略了商業化。 “人形機器人這一波的創業者，部分已經看到了上一波自動駕駛發展中的問題和風險，所以會對產品商業化的認知程度更高。”

除此之外，該人士也表示自動駕駛的創業潮中，大家習慣於單打獨鬥。

但在人形機器人產業中，更強調的是合作。例如，目前北京、上海、深圳都由政府相關部門牽頭，成立了人形機器人的創新中心。由政府部門出面去拉通產業鏈的上下游，有做技術的，做機器人關節的，做商業化落地的。 “大家形成一個實體，上下游公司均是股東單位，可以整個鏈條打通。”

以北京為例，4月27日，北京人形機器人創新中心在北京經開區發布全球首個純電驅擬人奔跑的全尺寸人形機器人“天工”，能以6公里/小時的速度穩定奔跑。「天工」身高163cm，輕量化體重達43kg，機器人配備多個視覺感知感測器，搭載了每秒550萬億次操作算力、高精度的慣性測量單元(IMU)和3D視覺感測器。

記者會上，創新中心總經理熊友軍表示，為解決人形機器人產業通用問題，推動產業整體發展，北京人形機器人創新中心致力於產業關鍵共性核心技術研發，打造軟、硬兩個通用母平台。目前，已成功研發出通用人形機器人母平台「天工」。

北京經濟技術開發區相關負責人介紹，作為北京市重要的機器人產業集聚地，北京亦莊目前匯集機器人生態企業110家，形成涵蓋核心零件、整機到應用的機器人全產業鏈體系。在人形機器人領域，不僅有小米、優必選等人形機器人頭部企業落地發展，還有高精準減速器、伺服系統等人形機器人零件產品。

而在機器學習的軟體演算法層面，特斯拉FSD（完全自動駕駛）的成功，也讓人形機器人產業看到了可能的未來。

在特斯拉最新的FSD V12版本中，FSD Beta更名為FSD (Supervised)。根據特斯拉官方的說法，在車主的監督下，最新版FSD Supervised幾乎可以在任何地方駕駛特斯拉。

在FSD V12之前，特斯拉的自動駕駛方案一直依賴規則判斷，任何駕駛行為的背後都有程式碼作為支撐，FSD V11 C++程式碼多達30多萬行。而在FSD V12版本版本中，依賴手動編碼規則的方案被徹底拋棄，轉而全面採用端到端的神經網路AI系統，程式碼產業縮減到只有3000行。

特斯拉FSD的端對端方案，本質上完全基於數據驅動。透過將上千萬個甚至上億個人類駕駛視頻的高品質數據，壓縮到了大模型中，特斯拉FSD就可以AI的方式去思考——遇到場景直接輸入感測器數據，輸出轉向、制動和加速訊號，而且這個過程中沒有任何編碼。

根據特斯拉2022年10月公佈的資訊顯示，Optimus人形機器人使用與特斯拉汽車相同的完全自動駕駛（FSD）電腦，以及Autopilot相關神經網路技術。

這也意味著，人形機器人完全可以利用FSD同樣的訓練方式，走向通用之路。根據王興興介紹，目前宇樹科技人形機器人，從行走奔跑到舞蹈空翻等，已經完全採用類似端到端的解決方案，從視覺感知到腿部執行，一個模型就可以實現，沒有任何中間過程和編碼。

「人形機器人硬體部分的成熟，只是時間問題。最重要的，還是通用人形機器人的AI基礎大模型。」王興興稱，樂觀的估計，基礎大模型的突破可能會在明年年底前發生。但是，也有可能不會發生。「有時候技術的突破，需要看全球人類的運氣。就像當年如果沒有愛因斯坦，他的理論大概率也會有人發現，只不過會晚幾年到幾十年。” (鈦媒體)