中國國內首個利用世界模型生成資料實現真機泛化的端到端VLA具身基礎模型GigaBrain-0重磅發佈。
近日,在湖北武漢東湖高新區,極佳視界與湖北人形機器人創新中心完成戰略合作簽約,並聯合發佈端到端VLA「具身基礎模型」GigaBrain-0。
這是國內首個利用「世界模型」生成資料實現真機泛化的視覺-語言-動作(VLA)基礎模型,旨在通過世界模型為中心,無論在資料側還是模型側,徹底改變通用機器人大腦的開發方式。
GigaBrain-0擁有當前最先進的VLA模型架構,同時支援圖像、點雲、文字、本體狀態的輸入,輸出結構化的任務規劃和運動規劃,並在大規模的資料上完成預訓練,可以實現更精準的移動導航和長序列的複雜操作。
搭配極佳視界自研「世界模型平台GigaWorld」,建構最完整的具身資料體系,可以快速實現多種本體上複雜的機器人移動操作任務。後續GigaBrain-0將全面開源。
針對當前機器人操作中的精準度不足和推理能力不足的問題,GigaBrain-0重點提升了3D空間感知能力和結構化的推理能力,通過引入這兩項關鍵能力,GigaBrain-0可以完成更精準的移動導航和更長序列的複雜操作,具備更強泛化性,全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類複雜、柔性、長程移動操作任務!
1. 3D空間感知能力:加入Depth輸入,更精準的移動導航
GigaBrain-0通過加入深度資訊的輸入,提升了物體3D位置和空間3D佈局的感知能力,這兩點對於精確的雙臂操作和精確的移動導航至關重要。
2. 結構化推理能力:更穩定的長程、複雜任務表現
GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出,改進了自身在開放場景中的任務規劃和運動規劃能力,極大提升了複雜、長程任務的成功率:
世界模型無論在資料側還是模型側,對於具身智能都有極其關鍵的價值。極佳視界通過「世界模型」為中心,打造了全球首個最全具身智能資料體系,具體包括:
我們在多個任務上驗證了世界模型生成資料對於具身機器人真機操作任務的價值,結果表明通過增加世界模型生成的資料進行預訓練和後訓練,GigaBrain-0的真機操作成功率可以持續提升,並且全球首次實現了連續柔性複雜長程操作的開放世界泛化。
同時,通過混合世界模型生產的資料和真機採集資料,GigaBrain-0可以快速完成特定本體上的任務適配和泛化。
通過「世界模型」驅動的具身最全資料體系,極佳視界將持續迭代具身大模型,加速走向物理世界通用智能。
極佳視界聯合湖北人形機器人創新中心共同完成大規模預訓練資料的採集,資料覆蓋了工業、商業、辦公、家居、實驗室這5類場景,細分為超市、酒店大堂、咖啡店、奶茶店、便利店、餐廳、倉庫搬運、工業流水線、茶水間、住宅、公寓家居、會議室、辦公室工位、實驗室這14個具體場景。
結合場景豐富的預訓練資料和先進的模型架構,GigaBrain-0擁有優秀的任務規劃能力,進一步借助「極佳世界模型平台」,極佳視界可以在不同的本體上快速實現複雜的機器人操作任務。
極佳視界聯合湖北人形機器人創新中心,全球首次基於高整合度人形機器人本體,一鏡到底實現即時、長程、複雜、柔性操作!
接下來雙方將有更深入的合作。
GigaBrain-0通過真實機器人實驗進行了評估,包括靈巧操作任務(如疊衣服、整理捲紙)、長程任務(如收拾桌面、倒飲料)和移動操作任務(如搬運箱子、拾取衣物)。
實驗結果表明,GigaBrain-0的成功率顯著優於現有SOTA方法。
極佳視界專注「世界模型平台 x 具身基礎模型」,雙輪閉環走向物理世界通用智能。
在「世界模型」方向,極佳視界是國內技術創新和產業落地的領跑者,相關產品技術廣泛應用於自動駕駛、具身智能、內容創作等相關方向。
在「具身大腦」方向,極佳視界通過全球領先的「世界模型平台」提供大規模高品質閉環資料,相比純真機資料訓練效率提升1-2個數量級以上,同時真機效果達到國內領先。
極佳視界由黃冠博士帶領團隊於2023年創立,是國內第一家專注「世界模型 x 具身大腦」方向的科技公司。
公司核心團隊包括清華、北大、中科院、中科大、WashU、CMU等全球知名院校頂尖研究人員,以及來自微軟、三星、地平線、百度、博世、NBC環球影業等全球知名企業高管,核心團隊兼具業內領先的研究能力和大規模的產業落地經驗。
極佳視界是國內少有在「世界模型」和「具身大腦」方向都擁有世界級綜合實力的團隊,在自動駕駛世界模型方向已經和多個頭部主機廠達成簽約合作,在具身世界模型、具身大腦等方向已經和多個具身本體、終端公司達成簽約合作,應用於科研、教育、展覽、資料採集、工業、服務、家庭等多個場景。
極佳視界致力通過「世界模型平台 x 具身基礎模型」,創造物理世界通用智能。 (新智元)