高端的機器人數據,往往採用最樸素的採集方法。根據BusinessInsider報告,特斯拉正在利用一支資料採集團隊,來訓練Optimus機器人如何像人類一樣行動。在長達8小時的輪班中,資料採集員需要重複數百次相同的動作,包括拿杯子、擦桌子、拉窗簾等。在工作開始前,他們會收到任務指派文件和操作手冊,以確保資料收集工作正確完成。據悉,每名員工每班需收集至少4小時的可用影片素材。值得一提的是,目前特斯拉透過攝影機擷取數據,而非像過去一樣使用動作捕捉服或手動控制來訓練機器人。今年6月,在Optimus項目負責人米蘭·科瓦奇(Milan Kovac)離職後,該公司向數據採集團隊告知了這一決定:“如果不使用動作捕捉服,數據採集的規模會更大。”數據採集工作對員工體力提出了較高要求,除了環境周圍的攝像頭,每位數據採集員工還需在頭盔和沈重的背包上搭載約5台攝像頭用以全程記錄。知情人士透露,在特斯拉加州弗里蒙特工廠,數據採集員戴著耳機和背包,整理車輛零件並在傳送帶上工作。長期的體力勞動給員工的身體帶來了不小的負擔,有員工透露,由於背包重量分佈不均,其背部和頸部曾在工作期間受傷。另有員工指出,有數據採集員曾因長時間配戴頭顯設備而患上了暈動症。從資料蒐集團隊規模來看,通報指出,在鼎盛時期,特斯拉擁有超過100名員工從事資料收集工作。在此背後是馬斯克的人形機器人宏願:在今年第三季特斯拉財報會議上,馬斯克宣稱公司將實現年產100萬台Optimus的目標。他也表示,在未來,人形機器人業務將佔據特斯拉價值的80%左右。一直以來,數據都被視為人形機器人泛化能力提升的關鍵。華創證券指出,多模態訓練資料集的融合將大幅提升機器人的環境感知能力和多工處理能力。分類來看,數據主要分為真實數據與模擬數據,其中真實數據被公認為訓練效果最好的“黃金數據”,但採集成本更高,且格式不統一。相較之下,仿真資料可以大規模生成,成本低廉,但訓練出來的模型往往不適應。值此背景下,「虛實結合」是當下機器人產業採集資料的主流方案。國地共建人形機器人創新中心副總經理劉宇飛表示,已在全國8個省市開展了虛實結合的訓練場工作。 IDC中國研究經理李君蘭判斷,業界預計將基於海量高仿真物理數據,結合高品質的真實採集數據,建構堅實的數據底座,從而快速提升智慧的泛化能力。根據Research Nester今年9月發布的《數據採集系統市場規模及預測》報告,2025年數據採集系統市場規模超過24億美元,預計到2035年將達到39.8億美元,在預測期內(即2026-2035年)的複合年增長率約為5.2%。 2026年,數據採集系統的產業規模估計為25.1億美元。不過同時,有跡象表明,未來機器人訓練有望實現「AI化」。如特斯拉近日官宣在自研世界模型中訓練Optimus。東吳證券表示,目前企業多採用世界模型、遙控操作、模擬遷移、模擬訓練等方法,但都有局限性,無法獲得通用泛化能力。具身智能的學習訓練方法仍有待探索。(科創日報)