一年磨一劍，今年最炸機器人Demo來了！1億美元種子輪團隊出手，單個模型解鎖單手打蛋解魔方彈鋼琴

2026/05/07

•

看過的人已經傻眼了，因為這可能是今年為止最炸的機器人demo。

剛剛，Genesis AI發佈首個機器人基礎模型GENE-26.5，讓機器人能自主打雞蛋，擰試管蓋，彈鋼琴，玩魔方，切番茄。

全程自主運行，1倍速，同一個模型。

亮相後，前1x副總裁Eric Jang，宋舒然教授等業內大佬紛紛轉發評論，表示讚歎。

如果你對這個半路殺出的團隊感到陌生，下面這個gif可能會讓你想起些什麼。

一年多以前，他們在GitHub上發佈了那個炸穿網際網路的Genesis物理引擎。

一句話生成物理世界，28.6k Star，學術圈半壁江山參與。

創始團隊在2025年中拿了1.05億美元種子輪出來創業，沉默了將近一年。

現在回來了。

今年為止最炸的機器人demo

GENE-26.5的demo大概是機器人領域今年到目前為止最值得認真看的，咱們來速通一下。

烹飪場景

四分鐘，20個子任務串成完整流水線。單手打蛋，五指配合控制裂紋走向。

雙手切番茄，一隻手調整角度，另一隻手下刀。毛巾、鹽磨、打蛋器、刀、鏟、煎鍋輪番上陣。

搞笑的是，打完雞蛋他還拿毛巾擦了一下手，怪乾淨的……

實驗室移液操作

從抓移液器到裝離心機，全流程毫米級精度。最難的是擰試管蓋和手內換握姿勢。

解魔方

雙臂協作，連續空中翻轉，即時閉環。

此前不靠專用夾具完成魔方的標竿還是2019年OpenAI那隻單手，Genesis稱這是通用雙臂系統的首次。

做冰沙

語言指令驅動的長序列任務，固體、可變形物體、液體全涉及。

吸管翻轉

測試極脆弱半透明物體的處理，最後一步手內翻轉需要多根手指高度同步。

多物體抓取

單手同時抓四個不同尺寸物體，四種抓握方式平行，展示靈巧手相比傳統夾爪的效率差距。

線束整理

汽車產業的「聖盃任務」。雙手操控柔性線纜打捆、掛架、纏膠帶，公認最難的工業操控任務之一。

彈鋼琴

Rush-E，約130BPM，專門壓測控制棧極限，策略用RL在模擬中單獨訓練。

以上大多數複雜技能，GENE只需要不到1小時的任務專屬機器人資料，不到200個episode。

值得一提的是，Genesis CEO周銜在接受Business Insider採訪時表示：

烹飪大多數步驟成功率在90%到95%，但單手打蛋和用刀轉移切好的番茄只有50%到60%。整體操作速度大約是人類的六七成。

全端怎麼做的

Genesis部落格裡說了一句話把整個技術思路講透了，操控不是一個純模型訓練問題，是一個系統問題。任何一層的短板都會傳導到整個系統。

所以他們選擇每一層都自己做。

硬體，一雙和人手一樣大的手

Genesis在demo中使用的靈巧手，20個可反向驅動的自由度，與人手1:1尺寸匹配，手掌和手指覆蓋柔軟材料模擬皮膚接觸力學。

這種設計讓人手動作可以直接對應到機械手上，不需要複雜的重新導向演算法。

值得一提的是，不少業內人士指出這雙手與國內靈巧手公司舞肌科技（Wuji Tech）的產品高度相似。

Genesis官方部落格將其稱為Genesis Hand 1.0，但未詳細說明硬體來源。

回到手的尺寸上，為什麼要做到與人手1:1，是因為機器人領域存在一個叫「具身差距」的老問題，人手和機械手形態不一樣，人類動作資料就沒法直接遷移到機器人上。

Genesis的解法很粗暴，把手做成一模一樣，差距就消失了。

控制棧也一併重寫。Genesis把機械臂供應商的出廠控製器整個換掉，自研中介軟體跑在PREEMPT_RT即時核心上，EtherCAT通訊500Hz，端到端延遲最低壓到3毫秒。

原廠控製器畫一個15釐米的圓追蹤誤差20毫米，換上Genesis的控製器後降到2毫米，提升一個數量級。單關節追蹤延遲從80毫秒降到9毫秒。

這層的意義在於，當訓練資料來自人類動作而不是機器人遙操作時，控制系統的延遲和誤差會在訓練訊號和實際執行之間製造鴻溝。延遲越低，人類資料就越好用。

資料，讓工人上班順便採集

在資料採集方面，Genesis主要採用一雙與靈巧手配套的資料採集手套。

機器人手和人手尺寸一致，手套記錄的手指運動可以無損對應到機器人上，不需要複雜的重新導向演算法。硬體成本是傳統方案的百分之一，採集效率是遙操作的五倍。

資料引擎總共有三層來源。

手套資料提供最高保真度的手部運動和觸覺訊號。第一人稱視訊捕捉自然行為和任務多樣性。第三人稱網際網路視訊提供海量覆蓋。

三層資料在質量和規模上做了帕累托分佈，Genesis和合作夥伴已經收集了超過20萬小時的多模態資料。

Genesis總裁Gervet對TechCrunch說了一句有意思的話，這隻手套可以讓實驗室技術員、製造業工人在干日常工作的時候順便採集資料，不打斷工作流。

當然TechCrunch也追問了一個尖銳的問題，工人會願意戴著手套和攝影機來訓練最終可能取代自己的機器人嗎？

Gervet的回答是，這個得看客戶和員工之間怎麼談，具體細節還沒敲定。

模型，一個統一的軌跡聯合分佈

GENE-26.5的模型目標是學一個能同時吸收語言、視覺、本體感覺、觸覺和動作的統一模型。用flow matching對軌跡建模聯合分佈，捕捉多模態的未來可能性。

幾個關鍵設計。

第一，支援異構、部分可觀測資料的可擴展訓練，第一人稱視訊流、手套資料、機器人控制資料、網際網路視訊，不需要顯式對齊就能一起訓練。

第二，同一個模型處理所有任務，控制、狀態估計、逆動力學、目標推斷都變成對聯合分佈的條件查詢，缺失的模態通過去噪推斷。

第三，可以靈活吸收預訓練模型的先驗，VLM提供語義理解，世界模型提供時序和物理動態。

簡單說就是一個模型吃所有模態的資料，做所有類型的任務。demo裡展示的幾個場景，除了鋼琴演奏是單獨用RL訓練的之外，其餘全部共享同一套權重。

訓練和評估，模擬是加速器

Genesis團隊在部落格裡放了三張scaling曲線，透露了訓練recipe的關鍵資訊。

預訓練階段，open-loop評估顯示模型規模和計算量增加時驗證損失持續下降，符合經典的scaling law。

但他們強調open-loop指標對機器人來說遠遠不夠，關鍵是closed-loop表現，就是模型的動作會影響後續觀測的閉環場景。

這裡Genesis物理引擎的老本行就派上用場了。他們用最新版Genesis World模擬器做大規模閉環評估，不需要在模擬資料上做任何co-training，模擬環境的保真度已經足夠直接評估真實世界訓練的模型。

每個資料點對應200個評估設定和超過150小時的機器人執行時間，整張圖如果在真實世界跑需要2700個人-機器人小時。結論是預訓練資料量越大，zero-shot泛化能力越強。

到fine-tuning階段回到真實世界。他們專門構造了預訓練中完全沒見過的新任務，在超低資料量條件下測試，每個任務只用20到30分鐘的資料。

demo裡展示的那些複雜技能，大多數隻需要不到1小時的任務專屬機器人資料，換算下來不到200個episode。預訓練規模越大，fine-tuning也越快、資料需求越少、最終表現越好。

周銜對TechCrunch說，模型迭代速度的真正瓶頸是評估，模擬幫他們大幅加速了這個循環。

從物理引擎到通用機器人

2024年底，CMU博士周銜牽頭開源了Genesis物理引擎。

這款純Python模擬平台比輝達Isaac Gym快10到80倍，GitHub上迅速成為最大的具身智能開放原始碼專案，吸引了20多個研究機構參與。

周銜本科畢業於新加坡南洋理工，是Genesis物理引擎的發起人。

2025年初，Genesis AI在法國註冊成立，由周銜擔任CEO，總裁是Théophile Gervet，同樣來自CMU，曾在具身智能獨角獸Skild AI任早期研究員，後加入Mistral AI做研究科學家。

兩人師出同門，導師都是Katerina Fragkiadaki。

成立幾個月後，團隊拿到1.05億美元種子輪，Eclipse和Khosla Ventures領投，Google前CEO Eric Schmidt、法國電信大亨Xavier Niel個人參投，法國國家投資銀行Bpifrance也在投資方名單裡。

作為參考，此前具身智能賽道最大的種子輪是Physical Intelligence的7000萬美元。

拿到錢之後，團隊沒有急著發產品，而是花了將近一年時間悶頭搭全端。

今天，GENE-26.5。模型、硬體、控制棧、模擬器，一次性全部亮相。團隊從創始時的幾個人擴展到60人，巴黎、加州、倫敦三地辦公，歐美大約四六開。已經收集了超過20萬小時的多模態資料，正在與多個行業客戶洽談合作。

周銜告訴TechCrunch，接下來很快會公佈第一個通用機器人，全身的，不只是手。 (量子位)