高盛-中國人形機器人的實地調研

2025年5月19-20日,高盛拜訪了北京/深圳的8家仿人機器人企業,並於5月21日在上海舉辦了一場與3家機器人行業公司(創始人/研究主管)的小組討論(總計7家私人初創企業,6位C級管理層)。大多數行業參與者一致認為,機器人必須將通用智能與實際應用相結合,才能實現規模化發展。

實現這一目標依賴於四項核心技術:演算法、資料、計算能力和硬體。

儘管中國在硬體供應鏈方面仍保持強大優勢,但初創企業已開始致力於開發仿人機器人的“大腦”。在各企業中,視覺-語言-行動(VLA)模型被認為是一種可行的解決方案,而高品質的現實世界資料也越來越重要,以實現與物理世界的一致性和任務精準性。企業正在投資建設資料工廠,以大規模收集真實機器人互動資料,我們拜訪的一家公司估計需要1,000萬小時的資料才能達到通用(L3)能力,這需要1億至2億美元的投資。在計算能力方面,輝達的Jetson Orin仍然佔據主導地位,但中國企業開始探索與華為的合作。硬體開發的一個日益重要的重點領域是靈巧手,配備觸覺和力反饋感測器,因為精細運動控制和借助攝影機進行物理資料收集的重要性。就實際應用而言,工業用例(如物料搬運和分揀)通常被提及為早期商業機會,而消費類應用由於除了技術要求外,還有額外的安全和監管障礙,因此仍顯得遙不可及。就定價而言,仿人機器人的價格差異很大,根據功能規格,從1.5萬美元到10萬美元不等,人們普遍預期隨著規模生產和零部件最佳化,成本將會降低。總體而言,我們對仿人機器人技術的進步和行業的長期前景留下了積極的印象。我們維持我們對行業的預測,即2025年預計全球出貨量為2萬台,2035年預計為140萬台。在我們看來,與資料收集相關的供應鏈股票可能是新的受益者。值得關注的關鍵事件是:8月15-17日在北京舉行的全球仿人機器人運動會,包括(1)13項體育和表演項目,如田徑、自由體操、足球比賽、獨舞/群舞;(2)6項基於應用的項目,包括在工廠環境中搬運和整理材料,在醫療環境中分揀藥品和拆包,在酒店環境中互動接待和清潔。我們注意到,與2025年4月19日在北京舉行的仿人機器人半程馬拉松(主要展示硬體的可靠性和耐久性以及運動控制能力)相比,這一活動將提供更全面的仿人技術展示(特別是在智能、泛化水平和敏捷性方面)。

詳細要點:

仿人機器人參與者認為,為了實現仿人機器人的商業化,它們必須具備通用智能,同時能夠執行實際任務。為了實現這一目標,四項核心技術是必不可少的:(1)演算法,(2)資料,(3)計算能力,(4)硬體。硬體和軟體都是不可或缺的,發展通常呈螺旋式迭代——硬體的進步推動軟體的改進,反之亦然。儘管人們普遍認為中國在硬體供應鏈方面具有強大優勢,但在這次行程中,我們聽到初創企業越來越多地致力於增強仿人機器人的“大腦”研發。

演算法——VLA模型被認為是一種可行的解決方案

在生成式人工智慧中,大型語言模型(LLM)是通過對大量文字資料進行分析來輸出最相關的文字。而視覺-行動-語言(VLA)的核心架構與標準的大型語言模型並無本質區別。不同之處在於,輸入內容變為視覺和行動的整合,而輸出則是機器人預期執行的動作。VLA結構是大多數公司普遍接受的基礎,而一些公司還將觸覺資訊作為另一種類型的輸入進行整合。一家公司的管理層評論稱,該演算法結構可能比美國的研究質量落後0.5-1年,但在中國也在迅速發展。

儘管VLA被視為一個成功的早期發展方向,但一家初創企業的首席執行官也指出,它可能並非最終解決方案,並提到了深度學習中的早期循環神經網路(RNN)——在基礎架構方面很重要,但隨著架構的成熟,可能會被取代。儘管如此,目前在VLA方面的工作對於實現未來模型的突破至關重要,預計該領域將經歷3-4次重大迭代。

資料——高品質資料最為關鍵

使用資料訓練模型通常有三個步驟:

■ 通過人類工作視訊進行預處理:向模型傳授常識性知識和任務結構,例如,教機器人逆時針方向擰開水瓶蓋。

■ 監督式微調(SFT)使用通過遠端操作收集的資料或模擬資料來微調演算法,提高精度。

■ 帶人類反饋的強化學習(RLHF)是在現實世界的複雜情境中真正實施預期動作,並最佳化行為。

儘管對於那種資料最為有效存在一些爭論,但基於上述訓練機制,目前使用了三種類型的資料——二維視訊、遠端運算元據和模擬資料。根據我們的交流,我們注意到對於那種資料最適合訓練具身人工智慧系統,目前仍存在爭議。一些人認為模擬資料最佳,因為它具有可擴展性和低成本;而另一些人則強調現實世界資料的重要性,因為它更好地捕捉了物理一致性,即遵循現實世界的物理規律。此外,擁有多樣化資料集也很重要,以便在各種情況下測試動作。此外,建構模擬環境中的多樣化環境也並不一定更便宜。總體而言,大多數人同意需要一種資料配方,即三種類型資料的有效混合,而高品質的現實世界資料最為關鍵,因為它具有:1)精準性——動作與物理現實的匹配程度;2)多樣性——環境、物體類型和動作的多樣性。

為達到L3等級通用自主能力,一家初創公司首席執行官估計需要1,000萬小時的真實世界機器人資料,這相當於10,000台機器人或操作員2年的努力,需要1億至2億美元的投資,從而催生了“資料工廠”概念:多家公司如今將資料收集基礎設施——“資料工廠”——視為一項戰略投資。

對於從一個機器人收集的資料能夠多大程度上應用到另一個機器人上,存在不同意見。一些人評論稱,通常情況下將“動作輸出”從一個機器人轉移到另一個機器人是相對容易的。另一些人則表示,儘管他們最終希望建構一個能夠適用於不同形態機器人的視覺-語言-行動(VLA)模型,但目前資料必須與硬體緊密結合,因為模型仍處於早期階段。

即使在遠端運算元據中,也有幾種不同類型的資料收集方法:

■ 基於視覺的系統(攝影機或虛擬現實):這是最便宜且最具可擴展性的方法,但精度最低(在釐米到分米等級)。

■ 慣性測量單元(IMU)感測器:安裝在關節處,精度可達毫米等級,但存在漂移/累積誤差問題。

■ 光學運動捕捉:由Luster的子公司FZ Motion(股票程式碼:688400.SS)提供的解決方案,使用多個攝影機和反游標記,能夠實現小於0.1毫米的高精度。

政府提供了基礎模型補貼和一些資料補貼。對於政府支援的資料收集中心,即使政府共享開源資料集,這可能有助於某些預訓練,但對於垂直領域的微調或任務級掌握可能還不夠。

由於邊緣計算的限制,公司採用“快速+慢速”系統:在訓練或執行更複雜任務時,仍然需要像4090/3090這樣的高端GPU。他們使用邊緣裝置Jetson(Orin、Thor)來運行VLA,用於車載感知、規劃和輕量級推理。但一些本地初創企業正在與華為合作,表明在地緣政治風險下,正在努力建構國內計算基礎設施。

幾乎所有公司都指出,靈巧手在他們為未來資料收集準備產品以及在中長期內在工廠中處理更複雜、更靈活的任務中發揮著關鍵作用。鑑於供應商數量的增加和行業努力,仿人機器人的其他元件(例如減速齒輪、電機和螺釘)越來越容易獲得,儘管這些元件的耐用性、可靠性和散熱性能仍有待改進。也就是說,靈巧手是一個關鍵障礙,主要是因為:(1)不同的機械設計使得在承載能力、靈活性和成本之間取得平衡非常困難;(2)觸覺感測器的性能和成本競爭力不夠理想,而觸覺感測器對於通過收集各種物理參數(如力、扭矩、溫度、紋理、摩擦力)來訓練和改進機器人AI模型至關重要。我們與一家國內觸覺感測器公司交談後瞭解到,他們正試圖引入一個明確的資料標準,以幫助通過靈巧手簡化資料收集、處理和訓練,並通過在設計、演算法和材料方面的創新降低感測器成本,其感測器平均售價目前比海外同行的同類產品低50%以上。

仿人機器人公司經常提到,鑑於其在不同行業中廣泛且普遍的需求以及對任務性能(尤其是精度和效率)的相對較高容忍度,工廠中的物料搬運是早期商業機會。一家公司提到,他們的仿人機器人在物料搬運方面已達到95%的精度,另一家公司表示,他們的機器人在這一任務上的速度比人工勞動快30%(如果機器人每天工作兩班,則為60%),預計2025-2026年開始小規模採用。分揀是另一個經常被提及的應用,需求甚至更大(即不僅在工廠,還在零售環境,例如藥店),儘管其對速度的要求比物料搬運更高。公司還討論了托盤化/去托盤化和裝卸任務的巨大需求(例如,一家大型電動汽車公司有20,000名工人從事這些任務),但許多技術瓶頸仍有待解決(例如,識別小物體或顏色相似的物體)。此外,儘管仿人機器人製造商對長期消費類應用需求(例如做家務)持樂觀態度,但他們指出,鑑於消費者環境的高度多樣性,技術要求極高,更不用說監管和安全/隱私問題了。此外,商業仿人機器人已經在引導和互動接待角色中得到部署,這些角色對視覺-語言-行動(VLA)性能的要求相對較低。據一家初創公司稱,這些用例的出貨量超過了他們今年的預期。

我們拜訪的公司提供的仿人機器人的平均售價從1.5萬美元到10萬美元不等,這主要是由於規格不同。行業共識表明,目前還沒有一種通用設計能夠滿足所有應用需求。低端定價的仿人機器人嵌入的智能/AI能力非常有限,只有基本的硬體規格(自由度有限,沒有靈巧手或視覺感測器)。這些低規格產品能夠快速進行基本運動(例如行走、揮手)和預程式設計的動作(例如跳舞),主要用於向大學和AI實驗室出售以供研究用途,以及向企業和政府出售用於接待或娛樂。另一方面,高規格的仿人機器人通常在手臂中使用諧波(而不是行星)減速齒輪,以及使用滾珠/滾柱絲槓(而不是連桿)代替,並配備多種感測元件,如視覺攝影機、力/扭矩感測器以及帶有觸覺感測器的靈巧手,旨在工廠環境中執行精細或重型任務,並具備AI/自主功能。大多數公司預計2025年的年出貨量將達到數百台機器人。展望未來,每家公司都看到了仿人機器人成本大幅降低的潛力,這將由生產最佳化(例如專用裝置和生產線)和更高的生產量推動,從而降低單位折舊和前期開發成本(例如研發和模具),這將為製造客戶帶來更好的投資回報率(ROI)。 (行業報告研究院)