機器人“大腦”將如何演進？大摩人形機器人研究報告

2026/02/28

•

《人形機器人的訊號：機器人“大腦”將如何演進？》核心內容：

一、發展路徑：VLA為主流，世界模型為前沿，中國廠商務實推進

當下，人形機器人“大腦”的主流走向是VLA（視覺 - 語言 - 動作）模型。此架構具有徑直嫁接大語言模型以及多模態視覺模型的能力，機器人能夠領會自然語言指令，進而對應為具體動作，讓其擁有比傳統分層模型更強的互動能力和泛化潛力。具有代表性的玩家涵蓋Figure、Physical Intelligence、Galbot、X Square Robot等。

然而，VLA可不是終點。報告表明，Nvidia的Jim Fan等專家對VLA提出過質疑，認為其本質依舊是“語言優先”，對物理世界的建模能力不夠，致使機器人在複雜物理互動裡表現欠佳。所以，研究機構著手探索世界模型等新型架構，像Nvidia的DreamZero、1X的世界模型、Robbyant的LingBot VA。這類模型，借助對物理世界動態之規律的學習，具備“想像”未來狀態之舉，進而提升泛化能力以及任務適應性。

在國內市場範疇之內，廠商選取了更為講求實際的路線：短期內持續對VLA予以最佳化，借由強化基礎模型（像阿里的RynnBrain）、引入推理模組、融合強化學習等途徑逐步提升能力；長期則著重於世界模型等前沿方面，不過更側重於“場景逐個實現突破”——先於具體任務當中部署機器人，憑藉真實資料回饋模型迭代，建構起“硬體迭代+資料積累+模型最佳化”的正向循環。這種漸進式智能化路徑更貼合當前技術約束，也更具落地可行性。

二、核心瓶頸：資料稀缺與算力不足，制約模型能力躍遷

具身智能規模化落地面臨兩大硬約束，一是資料質量和規模不足，二是邊緣算力瓶頸。

資料瓶頸是阻礙VLA模型發展的最大難題。不同於LLM能夠借助網際網路文字資料，機器人訓練所需的是“視覺-狀態-動作-獎勵”相互對齊的多模態資料，而這種資料的採集成本極其高昂。存在三條主要的當前資料來源路徑，一是遙操作，其資料質量高，然而效率低且成本高；二是模擬資料，其數量大，不過存在Sim2Real gap，因接觸物理、感測器噪聲等致使難以完美建模；三是人類視訊，其資料廣度大，可是與機器人控制不對齊，並且缺乏力覺、深度等資訊。報告提出了“資料金字塔”概念，即越高品質的資料越稀缺，真實世界運算元據是難以獲取的“金礦”。

此行業正於多個方面尋求突破困局：其中，模擬最佳化（像Nvidia Isaac Sim這般）會使之對真實資料的依賴得以減少；資料工廠（於中國諸多地方所建立的狀況）借由規模化遙操作來採集具備高品質的資料；跨本體資料通用性（例如Nvidia GR00T N1.6能夠支援多種型號機器人的情形）可實現資料復用率的提高；高精度動捕加第一視角視訊（就如Paxini那樣）會促使資料採集效率獲得提升標點符號。

算力瓶頸，同樣是十分嚴峻的情況。人形機器人，需要進行即時互動，沒辦法依賴於雲端大模型推理。縱然Nvidia最新Thor晶片能提供2070 TFLOPS算力，還是被多家廠商認定為不足以去支撐複雜模型推理。因而，在短時間之內，機器人模型參數的規模依舊會被控制在百億等級的範圍之內，也就是大約在~10B這個數值以內，而這同樣表明了通用智能的“湧現”還需要一段時日。

三、未來格局：規模遊戲開啟，頭部優勢持續放大

報告針對未來格局作出的判斷為，人形機器人會逐漸演變成一場“規模遊戲”，並且結構性優勢會使領先者和追趕者之間的差距被拉大。

資料飛輪效應促使頭部玩家加快勝出的速度。那些擁有大規模佈局機器人的廠商，能夠拿來更多發生在真實世界裡互動所需資料，並據此塑造出更為優質高端先進完備的策略模型，進而對產品自身性能予以提升，從而吸引到更多的客戶，最終形成一種正向的循環。與此同時，模擬這類預訓練以及世界模型，是需要大規模算力來進行投入的，頭部公司具備的在算力以及資料方面的結構性優勢，將會持續不斷地被放大。

模型供給端會分化成兩類玩家，一類是獨立模型提供商，也就是類似機器人界的“Android”，它們由科技巨頭主導，會提供通用機器人作業系統以及模型介面，另一類是全端整合者，它們依靠自有大規模機器人叢集形成資料閉環，進而持續最佳化模型能力。報告覺得，2026年在這一方向上會看到更多進展，不過依舊處於早期階段。

總結：

具身智能所處的階段是在“由VLA主導，在接下來的三到五年時間裡，行業將會呈現出“具有漸進式智能化的態勢，頭部加速朝著集中方向發展，模型供給出現分化。於從業者來講，資料採集能力以及算力部署能力會成為核心競爭力。

(TOP行業報告)