近日,德意志銀行發佈了《Humanoid Robot (III): Six visions for 2026 – Scaling, iterating and diversifying》我們摘取並翻譯了其中的部分重要內容供大家參考,原文連結在文末。一、2026全球人形機器人出貨量接近5W台,中國超3W台2025 年,估計全球人形機器人出貨量超過 15,000 台,較 2024 年的 3,000 台顯著增長。這一增長主要由中國原始裝置製造商(OEM)驅動,其中以 宇樹科技(Unitree)和 智元機器人(AGIBOT)為領軍者,得益於中國支援性的政策、較低的成本以及接納度較高的客戶群。相比之下,2025 年美國 OEM 的出貨量增長較為緩慢,這主要是由於硬體和軟體的複雜性,以及人形機器人商業可行性的尚未得到驗證。對於 2026 年,我們預計全球出貨量將接近 50,000 台。中國有望繼續保持最大的人形機器人市場地位,出貨量將翻倍以上,超過 35,000 台。由 特斯拉(Tesla)和 Figure 領銜的美國 OEM 出貨量,預計將在低基數基礎上隨著產能擴大而展現出強勁增長。從長期來看,我們認為美國 OEM 的總出貨量將逐漸與中國 OEM 趨同。此外,包括歐洲、日本和韓國在內的其他地區的人形機器人出貨量也有望增加。根據德意志銀行的預測,2026年,美國出貨量前三的公司分別為Tesla、Figure、Agility,出貨量分別為5000、2000、300,中國出貨量前三的公司分別為宇樹、智元、優必選,出貨量分別為15000、11000、3000宇樹科技(Unitree):宇樹科技首席執行長於2026年初宣佈,公司目標在2026年交付1萬至2萬台人形機器人。據悉,宇樹科技在2025年已交付超過5,500台人形機器人(不含輪式人形機器人)。另有報導指出,2025年宇樹科技獲得的訂單總額超過12億元人民幣,機器人總出貨量(包括四足機器人)超過1萬台。智元機器人(AGIBOT):智元機器人研發總監於2026年初提出目標,預計2026年累計出貨量將突破1萬台。此前在2025年12月,其首席執行長曾表示,智元機器人2025年的出貨量有望達到5,000台,銷售額將超過10億元人民幣。優必選(UBTECH):據報導,截至2025年12月,優必選已建成年產超過1,000台的工業人形機器人產能,並已交付超過500台;預計2026年其產能將提升至1萬台。二、歐美廠商定價目標區間為2萬-3萬美元,中國相對價格更低大多數美國和歐洲的人形機器人製造商的目標是,一旦實現大規模生產,其人形機器人的定價將在2萬至3萬美元之間。NEURA和1X目前已有產品落在此價格區間內。然而,根據我們的管道調研顯示,當前人形機器人的實際成本介於5萬至25萬美元之間,這表明要實現廣泛的商業化應用,仍需進一步最佳化成本。在中國,價格競爭更為激烈,宇樹科技(Unitree)和智元機器人(AGIBOT)等廠商的低端產品報價約為1萬美元。三、歐美應用場景集中在汽車和物流領域,中國資料採集與測試中心需求廣泛根據國際資料公司(IDC)的資料,2025年全球出貨的人形機器人中,37%用於娛樂和表演,其次是25%用於科研與教育,17%用於資料採集。用於展覽引導(11%)和工業製造(9%)的比例相對較小。報告還整理了優必選在2025年披露的訂單情況。在其總計14億元人民幣的訂單中,資料採集類訂單佔比最大,達到44%。這些訂單主要來自中國多個地方政府建立的人形機器人資料採集與測試中心,凸顯了政府對具身智能產業的支援。美國和歐洲的應用場景主要集中在汽車工廠和物流領域,目前仍處於概念驗證(PoC)階段。四、世界模型(World Model)正成為繼視覺 - 語言 - 動作(VLA)模型之後的下一代架構,或與其平行發展什麼是世界模型(World Model)?世界模型學習/預測環境如何演變,以及動作如何改變未來狀態,而不僅僅是將當前觀測對應到下一個動作。它與 VLA 有何不同?VLA(視覺 - 語言 - 動作)模型主要最佳化目標是從“觀測 + 指令”生成機器人動作;而世界模型則增加了對未來的顯式預測/模擬能力,從而可提升規劃能力、場景覆蓋範圍和反事實推理能力。示例: Google Genie、Nvidia Cosmos、1X World Model、Meta V-JEPA 2為什麼它很重要?增強合成資料: 世界模型可以生成或預測額外的訓練場景或世界狀態(如天氣、光照條件等),有助於擴展合成資料流水線,減少對遙運算元據的依賴,並比在現實中收集每一個邊緣案例更快地實現場景覆蓋擴張。規劃質量: 它們增加了“先預測後行動”的能力,這對於長周期人形機器人任務尤為寶貴——因為在這些任務中,動作誤差會累積。動作模型僅將當前觀測對應為下一步動作,而世界模型可以評估在不同動作選擇下接下來可能發生的情況。挑戰:資料需求高 & 計算密集: 訓練世界模型通常需要大規模、長時序的視訊或軌跡資料,以及強大的算力用於生成和 rollout(推演)。“幻覺”問題: 作為生成模型,世界模型本質上也會產生“幻覺”,這是由於長時序中預測誤差累積所致(用預測的狀態去預測下一狀態)、感測器噪聲等原因。它可能生成看似合理但物理上不正確的 rollout(例如物體憑空出現等),這可能會污染策略訓練。未來展望:我們認為,世界模型更可能演變為 VLA / 動作策略的一個互補層,而非替代品。兩者的耦合將越來越呈現閉環形態:世界模型 rollout(合成場景)→ 評分/過濾 → 後訓練資料 → 更強的 VLA;在更先進的系統中,將查詢世界模型以獲取“如果…會怎樣?”的結果 → 選擇短期計畫/子目標 → 由 VLA 執行,同時底層安全控製器確保穩定性。 (萌趣AI小棧)