高盛-中國人形機器人實地調研

我們於5月19日至20日在北京/深圳走訪了8家人形機器人企業,並於5月21日在上海舉辦的高盛科技網路會議(GSTechNet)上與3家機器人行業公司(創始人/研發負責人)進行了小組討論(共覆蓋7家私營初創企業、6名高管)。

多數行業參與者認為,機器人必須將通用智能與實際應用結合才能實現規模化。實現這一目標依賴四項核心技術:演算法、資料、算力和硬體。儘管中國在硬體供應鏈方面保持強大領先地位,但初創企業已開始致力於開發人形機器人的“大腦”。各公司普遍認為,視覺-語言-動作(VLA)模型是可行解決方案,而高品質的真實世界資料對於實現與物理世界的一致性和任務精準性愈發重要。企業正投資建設“資料工廠”以大規模收集機器人真實互動資料,我們走訪的一家公司估計,達到通用型(L3)能力需要1000萬小時的資料,需投入1億至2億美元。在計算方面,輝達的JetsonOrin仍佔主導地位,但中國企業已開始探索與華為合作。

鑑於精細運動控制和攝影機輔助物理資料收集的重要性,硬體開發的重點日益集中在配備觸覺和力反饋感測器的靈巧手上。在實際應用方面,物料搬運和分揀等工業場景常被提及為早期商業機會,而消費級應用因除技術要求外還面臨額外的安全和監管障礙,距離落地仍較遙遠。在定價方面,人形機器人價格因功能規格差異顯著(1.5萬至10萬美元),行業普遍預期規模生產和元件最佳化將推動成本下降。

總體而言,我們對人形機器人技術進展和行業長期前景持積極看法,維持行業預測:2025年全球出貨量2萬台,2035年達140萬台。

在股票影響方面,我們仍關注零部件供應商,如三花智控(買入)、雷賽智能(中性)、貝斯特(中性)、鳴志電器(中性)。我們認為,資料收集相關供應鏈企業可能成為新增受益者。關鍵觀察事件:8月15日至17日在北京舉辦的世界人形機器人大會,將設定(1)13項運動及表演賽事,如田徑、自由體操、足球比賽、單人/團體舞蹈;(2)6項應用場景賽事,包括工廠環境中的物料搬運與整理、醫療場景中的藥品分揀與拆包、酒店場景中的互動接待與清潔。我們注意到,與2025年4月19日在北京舉辦的主要展示硬體可靠性/耐用性和運動控制能力的人形機器人半程馬拉松相比,此次賽事將更全面地展示人形機器人技術(尤其是智能性、通用性和敏捷性)。

詳細要點:

人形機器人企業認為,若要實現商業化,人形機器人必須具備通用智能並能夠執行實際任務。為實現這一目標,四項核心技術至關重要:(1)演算法,(2)資料,(3)算力,(4)硬體。硬體和軟體缺一不可,發展通常呈螺旋式迭代——硬體進步推動軟體提升,反之亦然。儘管人們普遍認為中國在硬體供應鏈方面具有強大優勢,但在此次走訪中,我們注意到初創企業正加大研發投入以增強人形機器人的“大腦”。

演算法:VLA模型被視為可行解決方案

在生成式AI領域,大語言模型(LLM)通過巨量資料分析處理文字並輸出相關文字,而視覺-動作-語言(VLA)的核心架構與標準LLM並無根本差異,不同之處在於輸入變為視覺與動作的融合,輸出為機器人預期執行的動作。VLA架構是多數公司普遍接受的基礎,部分公司還將觸覺資訊作為另一種輸入整合其中。一位企業高管表示,中國在演算法結構的研究質量上可能比美國落後0.5-1年,但正快速追趕。

VLA被視為早期成功方向,但某初創企業CEO也指出,它可能並非最終解決方案,並提及深度學習中的早期循環神經網路(RNN)——雖為重要基礎,但隨著架構成熟可能被取代。儘管如此,當前圍繞VLA的工作對未來模型突破至關重要,該領域預計將經歷3-4次重大迭代。

資料:高品質資料最為關鍵

使用資料訓練模型通常分為三個步驟:

人工工作視訊預處理:教授模型常識知識和任務結構,例如教機器人逆時針打開水瓶。

監督微調(SFT):使用遠端操作收集的資料或模擬資料對演算法進行微調,提高精度。

人類反饋強化學習(RLHF):在真實複雜環境中實際執行預期動作並最佳化行為。

儘管存在爭議,但多數觀點認為高品質真實資料最為關鍵:基於上述訓練機制,當前使用三種資料——2D視訊、遠端運算元據和模擬資料。我們的訪談顯示,關於那種資料最有效訓練具身AI系統仍存爭議。有人認為模擬資料因可擴展性和低成本最具優勢,也有人強調真實資料的重要性,因其更能捕捉物理一致性(即遵循真實世界物理規律)。此外,擁有多樣化資料集以測試各種場景下的動作至關重要。在模擬環境中建構多樣化場景未必成本更低。總體而言,多數人認同“資料配方”的必要性,即三種資料的有效融合,而高品質真實資料因以下特性最為關鍵:1)精準性(動作與物理現實的匹配程度);2)多樣性(環境、物體類型和動作的可變性)。

規模需求達1000萬小時,催生“資料工廠”:某初創企業CEO估計,要達到L3級通用自主能力,需要1000萬小時的機器人真實資料。這相當於1萬台機器人或操作員持續工作2年的工作量,需投入1億至2億美元,催生了“資料工廠”概念:多家企業已將資料收集基礎設施(“資料工廠”)視為戰略投資。

關於硬體特定限制的爭議:對於從一台機器人收集的資料可在多大程度上應用於另一台機器人,存在不同觀點。有人認為“動作輸出”通常易於在機器人間遷移,也有人指出,儘管最終希望建構可跨不同形態機器人擴展的VLA模型,但當前資料仍必須與硬體緊密繫結,因模型尚處於早期階段。

即使在遠端運算元據中,也存在多種資料收集方法:

基於視覺的系統(攝影機或VR):成本最低、擴展性最強,但精度最低(釐米至分米級)。

慣性測量單元(IMU)感測器:安裝於關節處,精度達毫米級,但存在漂移/累積誤差。

光學動作捕捉系統(如辰視智能子公司FZMotion提供的解決方案,凌雲光):使用多攝影機和反游標記,精度可低於0.1毫米。

政府支援效果有限:某公司提到政府對基礎模型和部分資料提供補貼。關於政府支援的資料收集中心,即使政府共享開源資料集,可能有助於某些預訓練,但不足以實現垂直領域的微調或任務級掌握。

算力:輝達佔主導,部分企業與華為合作

由於邊緣計算限制,企業正採用“快+慢”系統:訓練或處理更複雜任務時仍需4090/3090等高端GPU,同時使用邊緣裝置Jetson(Orin、Thor)運行VLA模型以實現機載感知、規劃和輕量級推理。

但部分本土初創企業正與華為合作,顯示在地緣政治風險下建構國產計算基礎設施的努力。

硬體改進重點:靈巧手

幾乎所有受訪企業均指出,靈巧手在為近期資料收集做準備及中長期在工廠處理更複雜敏捷任務中至關重要。人形機器人的多數其他元件(如減速器、電機、絲槓)因供應商增多和行業努力已日益普及,儘管這些元件在耐用性、可靠性和散熱方面仍需改進。然而,靈巧手是主要瓶頸,原因包括:(1)不同機械設計難以平衡承重、靈活性和成本;(2)觸覺感測器性能和成本競爭力不足——觸覺感測器通過收集力、扭矩、溫度、紋理、摩擦等物理參數,對訓練和改進機器人AI模型至關重要。我們訪談的一家國內觸覺感測器公司正嘗試:(1)引入明確的資料標準,通過靈巧手簡化資料收集、處理和訓練,並通過設計、演算法和材料創新降低感測器成本,其感測器均價已比海外同類產品低50%以上。

工業場景(物料搬運/分揀)可能成為早期應用,消費級應用仍遙遠

物料搬運常被人形機器人企業視為工廠中的早期商業機會,因其跨行業需求廣泛且對任務性能(尤其是精準性和效率)的容忍度較高。某公司稱其人形機器人在物料搬運中已達到95%的精準率,另一家公司表示,該任務速度達人類勞動的30%(若機器人每天兩班倒則達60%),小規模應用預計始於2025-2026年。分揀是另一個需求更大的場景(不僅在工廠,還包括藥店等零售場景),儘管對速度的要求比物料搬運更高。企業還提到碼垛/卸垛和裝卸任務的巨大需求(如某大型電動汽車公司有2萬名工人執行此類任務),但仍存在許多技術瓶頸(如識別小物體或顏色相近的物體)。此外,儘管人形機器人製造商對長期消費級應用需求(如家務勞動)持樂觀態度,但他們指出,高度多樣化的消費環境對技術要求極高,更不用說監管和安全/隱私問題。

此外,商用機器人已部署在導引和互動接待場景,這些場景對VLA性能要求較低。據某初創企業稱,這些用例今年的出貨量超出預期。

不同規格和應用的均價差異大,成本下降潛力顯著

我們走訪的企業提供的人形機器人均價在1.5萬至10萬美元之間,主要因規格不同。行業共識表明,目前尚無滿足所有應用的通用設計。低價端產品嵌入的智能/AI能力非常有限,僅具備基本硬體規格(自由度有限,無靈巧手或視覺感測器),能夠快速完成基本動作(如行走、揮手)和預設動作(如跳舞),主要銷售給大學和AI實驗室用於研究,或企業/政府用於接待或娛樂。另一方面,高端產品通常在手臂使用諧波減速器(而非行星減速器)和滾珠絲槓(而非連桿),並配備視覺攝影機、力/扭矩感測器和帶觸覺感測器的靈巧手,旨在通過AI/自主功能在工廠環境中執行精細或重型任務。多數公司預計2025年機器人年出貨量為數百台。展望未來,所有企業均認為人形機器人具備顯著成本下降潛力,驅動力包括生產最佳化(如專用裝置和生產線)和產量提升降低單位折舊及前期開發成本(如研發和模具),這將為製造客戶帶來更好的投資回報率(ROI)。 (有道調研)