最佳VLA模型GigaBrain-0開源：世界模型驅動10倍資料，真機碾壓SOTA

2025/10/30

•

中國國內首個利用世界模型生成資料實現真機泛化的端到端VLA具身基礎模型GigaBrain-0重磅發佈。

近日，在湖北武漢東湖高新區，極佳視界與湖北人形機器人創新中心完成戰略合作簽約，並聯合發佈端到端VLA「具身基礎模型」GigaBrain-0。

這是國內首個利用「世界模型」生成資料實現真機泛化的視覺-語言-動作（VLA）基礎模型，旨在通過世界模型為中心，無論在資料側還是模型側，徹底改變通用機器人大腦的開發方式。

GigaBrain-0擁有當前最先進的VLA模型架構，同時支援圖像、點雲、文字、本體狀態的輸入，輸出結構化的任務規劃和運動規劃，並在大規模的資料上完成預訓練，可以實現更精準的移動導航和長序列的複雜操作。

搭配極佳視界自研「世界模型平台GigaWorld」，建構最完整的具身資料體系，可以快速實現多種本體上複雜的機器人移動操作任務。後續GigaBrain-0將全面開源。

項目連結: https://gigabrain0.github.io/
論文連結: https://arxiv.org/pdf/2510.19430

01. 核心演算法架構升級

針對當前機器人操作中的精準度不足和推理能力不足的問題，GigaBrain-0重點提升了3D空間感知能力和結構化的推理能力，通過引入這兩項關鍵能力，GigaBrain-0可以完成更精準的移動導航和更長序列的複雜操作，具備更強泛化性，全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類複雜、柔性、長程移動操作任務！

1. 3D空間感知能力：加入Depth輸入，更精準的移動導航

GigaBrain-0通過加入深度資訊的輸入，提升了物體3D位置和空間3D佈局的感知能力，這兩點對於精確的雙臂操作和精確的移動導航至關重要。

2. 結構化推理能力：更穩定的長程、複雜任務表現

GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出，改進了自身在開放場景中的任務規劃和運動規劃能力，極大提升了複雜、長程任務的成功率：

子目標拆解：模型在推理過程中，可以同時輸出子任務的自然語言描述，讓GigaBrain-0對於長程任務的分解更合理。
末端軌跡輸出：模型在推理過程中，增加了機械臂末端執行器運動路徑在圖像平面上2D投影的輸出，增強GigaBrain-0整體的全域動作規劃能力。

02. 全球首個「世界模型」驅動的最全資料體系

世界模型無論在資料側還是模型側，對於具身智能都有極其關鍵的價值。極佳視界通過「世界模型」為中心，打造了全球首個最全具身智能資料體系，具體包括：

Sim2Real Transfer Data：利用Isaac Sim等模擬環境合成多樣化的機器人運算元據，通過GigaWorld的Sim2Real變換，實現逼真的外觀渲染，同時保留原始場景幾何和動作語義。
Real2Real Transfer Data：將真實世界機器人採集的視訊重新渲染成外觀幾何上不同但物理上合理的變體，通過文字提示來控制前景及背景的材質、表面紋理、光照條件，同時保持機器人動作和互動的一致性。這有效地將真實資料的多樣性提高了約10倍。
View Transfer Data：利用GigaWorld的3D空間場景重建能力，將單個真實採集的資料片段生成新視角的資料片段。
Video Generation Data： GigaWorld可以根據單個輸入圖像和不同的文字提示生成多樣化的具身機器人操作視訊，並通過逆動力學模型推斷出相應的機器人動作序列，合成訓練資料。
Human Transfer Data：通過視訊變換和運動學重新導向，將大規模第一人稱視訊中的人手取代為機械臂，生成穩定且可由機器人執行的動作序列。

我們在多個任務上驗證了世界模型生成資料對於具身機器人真機操作任務的價值，結果表明通過增加世界模型生成的資料進行預訓練和後訓練，GigaBrain-0的真機操作成功率可以持續提升，並且全球首次實現了連續柔性複雜長程操作的開放世界泛化。

同時，通過混合世界模型生產的資料和真機採集資料，GigaBrain-0可以快速完成特定本體上的任務適配和泛化。

通過「世界模型」驅動的具身最全資料體系，極佳視界將持續迭代具身大模型，加速走向物理世界通用智能。

03. 高效的一腦多形跨本體適配

極佳視界聯合湖北人形機器人創新中心共同完成大規模預訓練資料的採集，資料覆蓋了工業、商業、辦公、家居、實驗室這5類場景，細分為超市、酒店大堂、咖啡店、奶茶店、便利店、餐廳、倉庫搬運、工業流水線、茶水間、住宅、公寓家居、會議室、辦公室工位、實驗室這14個具體場景。

結合場景豐富的預訓練資料和先進的模型架構，GigaBrain-0擁有優秀的任務規劃能力，進一步借助「極佳世界模型平台」，極佳視界可以在不同的本體上快速實現複雜的機器人操作任務。

極佳視界聯合湖北人形機器人創新中心，全球首次基於高整合度人形機器人本體，一鏡到底實現即時、長程、複雜、柔性操作！

接下來雙方將有更深入的合作。

04. 實驗結果

GigaBrain-0通過真實機器人實驗進行了評估，包括靈巧操作任務（如疊衣服、整理捲紙）、長程任務（如收拾桌面、倒飲料）和移動操作任務（如搬運箱子、拾取衣物）。

實驗結果表明，GigaBrain-0的成功率顯著優於現有SOTA方法。

關於極佳

極佳視界專注「世界模型平台 x 具身基礎模型」，雙輪閉環走向物理世界通用智能。

在「世界模型」方向，極佳視界是國內技術創新和產業落地的領跑者，相關產品技術廣泛應用於自動駕駛、具身智能、內容創作等相關方向。

在「具身大腦」方向，極佳視界通過全球領先的「世界模型平台」提供大規模高品質閉環資料，相比純真機資料訓練效率提升1-2個數量級以上，同時真機效果達到國內領先。

極佳視界由黃冠博士帶領團隊於2023年創立，是國內第一家專注「世界模型 x 具身大腦」方向的科技公司。

公司核心團隊包括清華、北大、中科院、中科大、WashU、CMU等全球知名院校頂尖研究人員，以及來自微軟、三星、地平線、百度、博世、NBC環球影業等全球知名企業高管，核心團隊兼具業內領先的研究能力和大規模的產業落地經驗。

極佳視界是國內少有在「世界模型」和「具身大腦」方向都擁有世界級綜合實力的團隊，在自動駕駛世界模型方向已經和多個頭部主機廠達成簽約合作，在具身世界模型、具身大腦等方向已經和多個具身本體、終端公司達成簽約合作，應用於科研、教育、展覽、資料採集、工業、服務、家庭等多個場景。

極佳視界致力通過「世界模型平台 x 具身基礎模型」，創造物理世界通用智能。 (新智元)

科技