中國具身模型狂攬全球第一!機器人的人類資料時代來了

還得是這屆00後,強得可怕!一出手,具身智能就被“整頓”得底朝天。

當別人還在Sim2Real打轉時,這支00後帶隊的靈初智能,已經開始用近10萬小時人類資料暴力拆解。

這個數字就是放到整個行業裡看,也是遙遙領先。

畢竟目前人類運算元據集大多還都集中在幾千到幾萬小時量級,最大的也不過是輝達的EgoScale,包含2萬小時人類第一視角視訊資料。

靈初這次直接上了個新台階,10萬+資料,其中1000小時還開源。

而且發佈形式也夠潮——直播show time~

AI博主弗蘭克和靈初智能的00後聯合創始人陳源培,直接手把手給你剖析的那種。(techblog指路:https://www.psibot.ai/from-human-skill-to-robotic-mastery/)

言而總之,整場直播我們復盤下來,就講兩件事:給具身智能喂什麼吃、讓具身智能長什麼樣的腦子。

說人話就是,靈初給的,是一條與眾不同的務實路徑——

不整虛的,直接對齊人類資料,再用Psi-R2Psi-W0雙系統架構平穩落地具體場景。

結果也很直觀,靈初Psi-R2迅速登頂MolmoSpace榜單

MolmoSpace由美國艾倫人工智慧研究所(AllenAI)發起,是全球具身智能領域權威基準評測平台,NVIDIA、PI等全球頂尖團隊均參與本次評測。

而靈初Psi-R2在評測中一舉超越PI、DreamZero等國際知名模型,表現也顯著優於其他基線模型,妥妥的行業第一梯隊。

在成功率這塊,也比同類VLA模型要高出近10倍。

情況就是這麼個情況,靈初一來就整了個大活,具身智能終於迎來首個直接能用的大規模人類手部操作全模態資料集。

下面就讓我們回到直播間現場,一一復盤拆解。

10萬小時,讓具身智能吃個頂飽

“為何偏偏具身智能會資料荒?”弗蘭克化身觀眾嘴替,率先給出這句經典靈魂拷問。

要回答這個問題,首先需要釐清一點,具身智能和自動駕駛、大語言模型這些AI領域存在原生的資料差異。

後者基於現實場景和網際網路,長期積累沉澱形成了海量存量資料,然後通過簡單粗暴的算力Scaling law就能實現性能穩步提升。

但具身智能則截然不同,物理世界複雜的情況讓它幾乎沒有可用的成熟資料集,也很難像網際網路產品那樣邊用邊攢資料。

可以說,影響具身智能發展的關鍵之一就是資料卡脖子。

那咋辦呢?以靈初在內的具身智能公司紛紛將目光投向人類資料

模擬資料還需要遷移處理,才能在真實機器人上使用,但人類資料就是最優秀的參考對象,資料量大而且質量高。

但事實上,這裡也同樣存在一個無法忽視的問題:人類和機器人之間存在本體差異(embodiment gap)。

直接復用顯然不行,機器人必定會出現運動學結構、動力學特性不匹配種種問題。

其次,現有的人類資料要直接給到預訓練,也是萬萬不行的。因為要麼都是些小規模開源資料,要麼就是網路上一些低品質的第一人稱視訊。

但除去人類資料,也幾乎沒有其它更好的路徑可走。靈初給出的判斷是:

具身智能要想面向真實商業化場景落地,純人類資料訓練是必要的。

一方面,使用人類資料能夠讓機器人搶先學習到人類一線的標準作業流程(SOP),而這些都是得到商業實際驗證過的,即拿即用且行之有效。

換言之,真實場景的無縫銜接能夠將資料成本降至最低,比如人類的觸覺資料收整合本,就僅為機器人的1/10以下。

另一方面,人類資料的SOP也可以使操作速度達到機械臂物理運動上限(如1200),遠超遙操作可達的800,也更適配商業工廠的高節拍要求。

所以靈初最終選擇了人類資料,並造出了首個可用於預訓練的大規模人類運算元據集。

其中,在人類資料和機器人資料的融合處理中,靈初遵循的是一條化繁為簡的思路:Raw Data In,Raw Data Out(原生資料進,原生資料出)。

捨棄人工設計的複雜資料處理,直接進行人類關節與機器人本體的運動學對齊,讓模型在海量資料中自行探索。另外,Auto Labeling也會替代人工進行資料質檢和標註,最後再交由人工稽核。

最終模型預訓練使用的資料集將包括真機資料(5417小時)和人類資料(95472小時)兩部分,總計10萬小時資料。

目前其中1000小時已開源,到年底整個資料集還將Scaling到百萬量級。

具體來講,人類封包括靈初自研外骨骼手套採集資料與裸手運算元據,覆蓋294種場景、4821種任務與1382種物體。

至於為什麼要強調觸覺資料呢?歸根結底,還是為了更好地彌補人機之間的embodiment gap。

雖然人類與機器人在多個方面差異明顯,但二者在接觸訊號上卻保持了驚人的高度一致,能夠有效補償動力學差異,以及在顯著提升世界模型能力的同時,還能更好地預測機器人與物體之間的互動情況。

這樣一整套高品質資料預訓練下來,機器人的泛化能力、長流程操作能力和操作精度都會有所突破,後續也僅僅只需要不到100條軌跡的真機資料就能完成微調。

另外值得關注的是,靈初在此期間,還發現了另一處華點:

資料訊號雜訊比才是決定人類資料能否有效支撐預訓練的核心因素。低訊號雜訊比的資料甚至還會起到反作用。

如果要想判斷資料訊號雜訊比,可以從兩方面看:

1、資料集分佈:操作任務多樣性>物體多樣性>>場景多樣性。

泛化能力其實是模型最難學會的能力之一,但如果在預訓練階段可以見到更多工和操作對象,自然而然模型接手新任務速度就越快。

2、感知模態:精準3D位姿>>觸覺模態>2D圖像特徵。

在全模態資訊中,人手全域3D位姿追蹤是2D到3D模型轉化的關鍵,也和機器人動力學特性匹配度最高。

簡單來說,靈初認為無論是精準採集的可復現資料,還是捨棄部分精度的粗糙泛化資料,都缺一不可。

二者相互補充,既保證模型精度又確保泛化。

具身智能長出雙系統新腦

所以基於以上認知,靈初全新發佈Psi雙系統架構——Psi-R2Psi-W0

先看Psi-R2,這是一款能讓機器人學習人類做事的模型,核心就是靠這10萬+的海量資料,學會精細操作。

圖像和語言指令將作為輸入,輸出預測的未來操作視訊和可執行動作,所以Psi-R2可以稱之為世界行動模型(WAM)。

其中訓練骨幹網路選用Wan2.2-IT2V-5B-480P,預訓練階段同步使用真機資料和人類資料,還搭建了一套完整的資料處理流程,從資料清洗、自動標註,到質量檢測、人工核對,Psi-W0還會幫忙檢查資料質量。

同時,採用專門技術精準捕捉人類手部動作軌跡,比如通過外骨骼手套,將動作誤差控制在亞毫米級,以確保人類的操作細節能被機器人精準模仿。

但WAM模型架構普遍存在一個bug——反應慢。單次推理要2.2秒,反映到機器人身上,就是明顯的卡頓。

於是靈初通過DiT快取、Torch編譯、模型量化等多項技術最佳化,把反應時間極限壓縮到了100毫秒以內。

再看Psi-W0,它和Psi-R2的基礎架構相似,但分工完全不同。Psi-R2是學習怎麼做,Psi-W0是協助做得更好。

首先它和Psi-R2一樣,都是基於預訓練視訊生成模型建構的,但在Psi-W0里,機器人動作是輸入,輸出的是對未來場景視訊的預測,所以Psi-W0也被定義為動作條件型世界模型(AC-WM)。

這裡就引出了另一個問題:Psi-R2也能輸出預測,那為什麼還要做Psi-W0?

答案很簡單,為了反事實推理。Psi-R2學到的只有成功的操作,比如成功抓起蘋果,但沒有辦法預測到蘋果抓不穩這類失敗情況。

但老話說得好,失敗是成功之母,機器人亦是如此。失敗經驗能夠幫助機器人避開錯誤、最佳化動作,Psi-W0就是專門負責填補這部分空白。

具體來講,兩個模型的訓練骨幹和資料格式都是一致的,只是在Psi-W0的訓練資料中額外加入了30%的失敗樣本。

顯然,Psi-R2和Psi-W0並非孤立存在,而是彼此之間協同配合。當Psi-R2學完人類操作後,Psi-W0就會模擬人類操作場景,讓Psi-R2再演練一遍,也就是進行策略評估,檢查它有沒有學漏學歪。

Psi-W0還有一項核心功能,是通過強化學習將人類資料轉換為機器人資料。

傳統方法中,資料轉換靠的是模擬環境調整,不僅複雜而且精準性不高。但用Psi-W0替代後,它就會模擬機器人視角和動作模式,再通過強化學習的試錯調優,將人類動作調整為機器人能精準執行的動作。

更厲害的是,在這個過程中還能持續生成新的優質資料,當把這些資料反向喂給Psi-R2和Psi-W0繼續學習,就能構成閉環資料飛輪

當然也可以故意給Psi-W0進行隨機擾動以模擬部分特殊場景,然後再生成目標場景和訓練資料。

高品質資料滋養模型高性能,模型場景落地反哺資料擴充。於是自然而然,輪子飛起來了。

最終整套系統能夠實現長程任務自主規劃、任務自主恢復和適配多場景複雜任務。

開源是最高效的落地槓桿

回看整場直播,無論是弗蘭克還是陳源培聊的內容,其實貫穿技術始終的都是同一個關鍵詞——落地

弗蘭克站在觀眾角度,好奇什麼時候具身智能才能落地。陳源培則站在廠商視角,給出了靈初智能的落地方案:

技術端,從大規模的真實人類資料採集,再到實際應用中的具身模型,無一不是從切實的落地場景中出發建構。

應用端,靈初智能也同時宣佈要和北京石景山共建數采廠,以及和騰訊雲、抖音、覓蜂、智域基石達成生態合作。

不難看出,靈初這家公司從誕生之初的DNA就是聚焦技術落地、提供通用全端技術。它的每一步都在驗證一個行業共識:

具身智能從誕生之初就錨定的終點,絕非實驗室,而是每一個具體可感的複雜場景。而這恰恰才是檢驗具身智能的標準所在。

在通往落地的過程中,靈初也率先意識到,單打獨鬥並非最優解,開源是必要的。

對於它們自身而言,只有開源,才能讓全行業幫助他們快速採集海量資料,才能彌補上這套資料飛輪體系中的關鍵一環。

而且AI時代,時間和資料就是最稀缺的黃金資源。越早進場、擁有越多資料,就能搶先收穫長尾效益。

再放眼整個行業,開源不僅是情懷,也是打破技術封閉孤島的鑰匙。它能夠建立起廣袤的開發者生態,通過標準化的資料管線和預訓練底座,讓具身智能不再是孤立的廠商個體。

而全行業開源共建,還能反向喂養靈初這類硬核玩家,讓他們集中精力攻堅最難的技術瓶頸。集眾智,才是具身智能跑贏節拍、實現商業落地的唯一捷徑。

而靈初無疑是當中走得最快最穩的一位明星選手。

最後化用一句老話,用來描述我眼中的靈初智能——有仰望星空的勇氣,亦有腳踏實地的努力。

具身智能正在因這場青春風暴而面目一新。(量子位)