一年磨一劍,今年最炸機器人Demo來了!1億美元種子輪團隊出手,單個模型解鎖單手打蛋解魔方彈鋼琴

看過的人已經傻眼了,因為這可能是今年為止最炸的機器人demo。

剛剛,Genesis AI發佈首個機器人基礎模型GENE-26.5,讓機器人能自主打雞蛋,擰試管蓋,彈鋼琴,玩魔方,切番茄。

全程自主運行,1倍速,同一個模型。

亮相後,前1x副總裁Eric Jang宋舒然教授等業內大佬紛紛轉發評論,表示讚歎。

如果你對這個半路殺出的團隊感到陌生,下面這個gif可能會讓你想起些什麼。

一年多以前,他們在GitHub上發佈了那個炸穿網際網路的Genesis物理引擎。

一句話生成物理世界,28.6k Star,學術圈半壁江山參與。

創始團隊在2025年中拿了1.05億美元種子輪出來創業,沉默了將近一年。

現在回來了。

今年為止最炸的機器人demo

GENE-26.5的demo大概是機器人領域今年到目前為止最值得認真看的,咱們來速通一下。

烹飪場景

四分鐘,20個子任務串成完整流水線。單手打蛋,五指配合控制裂紋走向。

雙手切番茄,一隻手調整角度,另一隻手下刀。毛巾、鹽磨、打蛋器、刀、鏟、煎鍋輪番上陣。

搞笑的是,打完雞蛋他還拿毛巾擦了一下手,怪乾淨的……

實驗室移液操作

從抓移液器到裝離心機,全流程毫米級精度。最難的是擰試管蓋和手內換握姿勢。

解魔方

雙臂協作,連續空中翻轉,即時閉環。

此前不靠專用夾具完成魔方的標竿還是2019年OpenAI那隻單手,Genesis稱這是通用雙臂系統的首次。

圖源:OpenAI

做冰沙

語言指令驅動的長序列任務,固體、可變形物體、液體全涉及。

吸管翻轉

測試極脆弱半透明物體的處理,最後一步手內翻轉需要多根手指高度同步。

多物體抓取

單手同時抓四個不同尺寸物體,四種抓握方式平行,展示靈巧手相比傳統夾爪的效率差距。

線束整理

汽車產業的「聖盃任務」。雙手操控柔性線纜打捆、掛架、纏膠帶,公認最難的工業操控任務之一。

彈鋼琴

Rush-E,約130BPM,專門壓測控制棧極限,策略用RL在模擬中單獨訓練。

以上大多數複雜技能,GENE只需要不到1小時的任務專屬機器人資料,不到200個episode。

值得一提的是,Genesis CEO周銜在接受Business Insider採訪時表示:

烹飪大多數步驟成功率在90%到95%,但單手打蛋和用刀轉移切好的番茄只有50%到60%。整體操作速度大約是人類的六七成。

全端怎麼做的

Genesis部落格裡說了一句話把整個技術思路講透了,操控不是一個純模型訓練問題,是一個系統問題。任何一層的短板都會傳導到整個系統。

所以他們選擇每一層都自己做。

硬體,一雙和人手一樣大的手

Genesis在demo中使用的靈巧手,20個可反向驅動的自由度,與人手1:1尺寸匹配,手掌和手指覆蓋柔軟材料模擬皮膚接觸力學。

這種設計讓人手動作可以直接對應到機械手上,不需要複雜的重新導向演算法。

值得一提的是,不少業內人士指出這雙手與國內靈巧手公司舞肌科技(Wuji Tech)的產品高度相似。

Genesis官方部落格將其稱為Genesis Hand 1.0,但未詳細說明硬體來源。

回到手的尺寸上,為什麼要做到與人手1:1,是因為機器人領域存在一個叫「具身差距」的老問題,人手和機械手形態不一樣,人類動作資料就沒法直接遷移到機器人上。

Genesis的解法很粗暴,把手做成一模一樣,差距就消失了。

控制棧也一併重寫。Genesis把機械臂供應商的出廠控製器整個換掉,自研中介軟體跑在PREEMPT_RT即時核心上,EtherCAT通訊500Hz,端到端延遲最低壓到3毫秒。

原廠控製器畫一個15釐米的圓追蹤誤差20毫米,換上Genesis的控製器後降到2毫米,提升一個數量級。單關節追蹤延遲從80毫秒降到9毫秒。

這層的意義在於,當訓練資料來自人類動作而不是機器人遙操作時,控制系統的延遲和誤差會在訓練訊號和實際執行之間製造鴻溝。延遲越低,人類資料就越好用。

資料,讓工人上班順便採集

在資料採集方面,Genesis主要採用一雙與靈巧手配套的資料採集手套。

機器人手和人手尺寸一致,手套記錄的手指運動可以無損對應到機器人上,不需要複雜的重新導向演算法。硬體成本是傳統方案的百分之一,採集效率是遙操作的五倍。

資料引擎總共有三層來源。

手套資料提供最高保真度的手部運動和觸覺訊號。第一人稱視訊捕捉自然行為和任務多樣性。第三人稱網際網路視訊提供海量覆蓋。

三層資料在質量和規模上做了帕累托分佈,Genesis和合作夥伴已經收集了超過20萬小時的多模態資料。

Genesis總裁Gervet對TechCrunch說了一句有意思的話,這隻手套可以讓實驗室技術員、製造業工人在干日常工作的時候順便採集資料,不打斷工作流。

當然TechCrunch也追問了一個尖銳的問題,工人會願意戴著手套和攝影機來訓練最終可能取代自己的機器人嗎?

Gervet的回答是,這個得看客戶和員工之間怎麼談,具體細節還沒敲定。

模型,一個統一的軌跡聯合分佈

GENE-26.5的模型目標是學一個能同時吸收語言、視覺、本體感覺、觸覺和動作的統一模型。用flow matching對軌跡建模聯合分佈,捕捉多模態的未來可能性。

幾個關鍵設計。

第一,支援異構、部分可觀測資料的可擴展訓練,第一人稱視訊流、手套資料、機器人控制資料、網際網路視訊,不需要顯式對齊就能一起訓練。

第二,同一個模型處理所有任務,控制、狀態估計、逆動力學、目標推斷都變成對聯合分佈的條件查詢,缺失的模態通過去噪推斷。

第三,可以靈活吸收預訓練模型的先驗,VLM提供語義理解,世界模型提供時序和物理動態。

簡單說就是一個模型吃所有模態的資料,做所有類型的任務。demo裡展示的幾個場景,除了鋼琴演奏是單獨用RL訓練的之外,其餘全部共享同一套權重。

訓練和評估,模擬是加速器

Genesis團隊在部落格裡放了三張scaling曲線,透露了訓練recipe的關鍵資訊。

預訓練階段,open-loop評估顯示模型規模和計算量增加時驗證損失持續下降,符合經典的scaling law。

但他們強調open-loop指標對機器人來說遠遠不夠,關鍵是closed-loop表現,就是模型的動作會影響後續觀測的閉環場景。

這裡Genesis物理引擎的老本行就派上用場了。他們用最新版Genesis World模擬器做大規模閉環評估,不需要在模擬資料上做任何co-training,模擬環境的保真度已經足夠直接評估真實世界訓練的模型。

每個資料點對應200個評估設定和超過150小時的機器人執行時間,整張圖如果在真實世界跑需要2700個人-機器人小時。結論是預訓練資料量越大,zero-shot泛化能力越強。

到fine-tuning階段回到真實世界。他們專門構造了預訓練中完全沒見過的新任務,在超低資料量條件下測試,每個任務只用20到30分鐘的資料。

demo裡展示的那些複雜技能,大多數隻需要不到1小時的任務專屬機器人資料,換算下來不到200個episode。預訓練規模越大,fine-tuning也越快、資料需求越少、最終表現越好。

周銜對TechCrunch說,模型迭代速度的真正瓶頸是評估,模擬幫他們大幅加速了這個循環。

從物理引擎到通用機器人

2024年底,CMU博士周銜牽頭開源了Genesis物理引擎。

這款純Python模擬平台比輝達Isaac Gym快10到80倍,GitHub上迅速成為最大的具身智能開放原始碼專案,吸引了20多個研究機構參與。

周銜本科畢業於新加坡南洋理工,是Genesis物理引擎的發起人。

2025年初,Genesis AI在法國註冊成立,由周銜擔任CEO,總裁是Théophile Gervet,同樣來自CMU,曾在具身智能獨角獸Skild AI任早期研究員,後加入Mistral AI做研究科學家。

兩人師出同門,導師都是Katerina Fragkiadaki。

成立幾個月後,團隊拿到1.05億美元種子輪,Eclipse和Khosla Ventures領投,Google前CEO Eric Schmidt、法國電信大亨Xavier Niel個人參投,法國國家投資銀行Bpifrance也在投資方名單裡。

作為參考,此前具身智能賽道最大的種子輪是Physical Intelligence的7000萬美元。

拿到錢之後,團隊沒有急著發產品,而是花了將近一年時間悶頭搭全端。

今天,GENE-26.5。模型、硬體、控制棧、模擬器,一次性全部亮相。團隊從創始時的幾個人擴展到60人,巴黎、加州、倫敦三地辦公,歐美大約四六開。已經收集了超過20萬小時的多模態資料,正在與多個行業客戶洽談合作。

周銜告訴TechCrunch,接下來很快會公佈第一個通用機器人,全身的,不只是手。 (量子位)