機器人“大腦”將如何演進?大摩人形機器人研究報告

《人形機器人的訊號:機器人“大腦”將如何演進?》核心內容:

一、發展路徑:VLA為主流,世界模型為前沿,中國廠商務實推進

當下,人形機器人“大腦”的主流走向是VLA(視覺 - 語言 - 動作)模型。此架構具有徑直嫁接大語言模型以及多模態視覺模型的能力,機器人能夠領會自然語言指令,進而對應為具體動作,讓其擁有比傳統分層模型更強的互動能力和泛化潛力。具有代表性的玩家涵蓋Figure、Physical Intelligence、Galbot、X Square Robot等。

然而,VLA可不是終點。報告表明,Nvidia的Jim Fan等專家對VLA提出過質疑,認為其本質依舊是“語言優先”,對物理世界的建模能力不夠,致使機器人在複雜物理互動裡表現欠佳。所以,研究機構著手探索世界模型等新型架構,像Nvidia的DreamZero、1X的世界模型、Robbyant的LingBot VA。這類模型,借助對物理世界動態之規律的學習,具備“想像”未來狀態之舉,進而提升泛化能力以及任務適應性。

在國內市場範疇之內,廠商選取了更為講求實際的路線:短期內持續對VLA予以最佳化,借由強化基礎模型(像阿里的RynnBrain)、引入推理模組、融合強化學習等途徑逐步提升能力;長期則著重於世界模型等前沿方面,不過更側重於“場景逐個實現突破”——先於具體任務當中部署機器人,憑藉真實資料回饋模型迭代,建構起“硬體迭代+資料積累+模型最佳化”的正向循環。這種漸進式智能化路徑更貼合當前技術約束,也更具落地可行性。

二、核心瓶頸:資料稀缺與算力不足,制約模型能力躍遷

具身智能規模化落地面臨兩大硬約束,一是資料質量和規模不足,二是邊緣算力瓶頸。

資料瓶頸是阻礙VLA模型發展的最大難題。不同於LLM能夠借助網際網路文字資料,機器人訓練所需的是“視覺-狀態-動作-獎勵”相互對齊的多模態資料,而這種資料的採集成本極其高昂。存在三條主要的當前資料來源路徑,一是遙操作,其資料質量高,然而效率低且成本高;二是模擬資料,其數量大,不過存在Sim2Real gap,因接觸物理、感測器噪聲等致使難以完美建模;三是人類視訊,其資料廣度大,可是與機器人控制不對齊,並且缺乏力覺、深度等資訊。報告提出了“資料金字塔”概念,即越高品質的資料越稀缺,真實世界運算元據是難以獲取的“金礦”。

此行業正於多個方面尋求突破困局:其中,模擬最佳化(像Nvidia Isaac Sim這般)會使之對真實資料的依賴得以減少;資料工廠(於中國諸多地方所建立的狀況)借由規模化遙操作來採集具備高品質的資料;跨本體資料通用性(例如Nvidia GR00T N1.6能夠支援多種型號機器人的情形)可實現資料復用率的提高;高精度動捕加第一視角視訊(就如Paxini那樣)會促使資料採集效率獲得提升標點符號。

算力瓶頸,同樣是十分嚴峻的情況。人形機器人,需要進行即時互動,沒辦法依賴於雲端大模型推理。縱然Nvidia最新Thor晶片能提供2070 TFLOPS算力,還是被多家廠商認定為不足以去支撐複雜模型推理。因而,在短時間之內,機器人模型參數的規模依舊會被控制在百億等級的範圍之內,也就是大約在~10B這個數值以內,而這同樣表明了通用智能的“湧現”還需要一段時日。

三、未來格局:規模遊戲開啟,頭部優勢持續放大

報告針對未來格局作出的判斷為,人形機器人會逐漸演變成一場“規模遊戲”,並且結構性優勢會使領先者和追趕者之間的差距被拉大。

資料飛輪效應促使頭部玩家加快勝出的速度。那些擁有大規模佈局機器人的廠商,能夠拿來更多發生在真實世界裡互動所需資料,並據此塑造出更為優質高端先進完備的策略模型,進而對產品自身性能予以提升,從而吸引到更多的客戶,最終形成一種正向的循環。與此同時,模擬這類預訓練以及世界模型,是需要大規模算力來進行投入的,頭部公司具備的在算力以及資料方面的結構性優勢,將會持續不斷地被放大。

模型供給端會分化成兩類玩家,一類是獨立模型提供商,也就是類似機器人界的“Android”,它們由科技巨頭主導,會提供通用機器人作業系統以及模型介面,另一類是全端整合者,它們依靠自有大規模機器人叢集形成資料閉環,進而持續最佳化模型能力。報告覺得,2026年在這一方向上會看到更多進展,不過依舊處於早期階段。

總結:

具身智能所處的階段是在“由VLA主導,在接下來的三到五年時間裡,行業將會呈現出“具有漸進式智能化的態勢,頭部加速朝著集中方向發展,模型供給出現分化。於從業者來講,資料採集能力以及算力部署能力會成為核心競爭力。

(TOP行業報告)