【新智元導讀】全球首個1毫秒級人體動作捕捉系統FlashCap,通過閃爍LED與事件相機結合,實現1000Hz超高影格率捕捉。無需昂貴裝置或強光環境,低成本穿戴服即可精準捕捉極速動作。團隊同步開源715萬幀的FlashMotion資料集與多模態模型ResPose,顯著提升運動分析精度,推動體育、VR與機器人領域邁向高動態智能新階段。在頂級體育賽事中,決定勝負的往往在毫秒之間。然而,為了在短跑、攀岩、雪橇等極速運動中捕捉這些稍縱即逝的瞬間,業界目前的妥協方案,往往是動輒部署造價數十萬、且對光照、頻寬、儲存要求極其苛刻的高速光學相機或是精度與穩定性要求極高、部署與維護成本同樣不菲的專用計時裝置。那麼,能否用一套低成本、且擺脫強環境光依賴的人體動作捕捉服,實現1000Hz的毫秒級人體動捕?現有人體動作捕捉服達不到1000Hz毫秒級動捕,為了打破這個影格率天花板,廈門大學ASC實驗室與上海科技大學另闢蹊徑,聯合提出了業界首個基於閃爍LED燈與事件相機的毫秒級動捕系統FlashCap。目前,該工作已正式被電腦視覺頂會CVPR 2026接收。為推動該領域的持續突破,研究團隊將全面開源核心成果:開放高達715萬幀的高頻動作捕捉資料集;動靜結合的多模態超高時間解析度動捕演算法ResPose。圖1:FlashCap效果圖為什麼動作捕捉需要邁入1000Hz 時代?在競速體育、高保真虛擬現實(VR)以及精密機器人遙操作等領域,人體的高速微動態(如急速揮手、瞬間發力或高頻震顫)往往發生在幾毫秒之間。傳統的120Hz動作捕捉系統在應對此類高速運動時,會產生嚴重的幀間資訊丟失。現有方案通常依賴時域插值演算法來重建缺失的運動軌跡,但這不可避免地會引入顯著的插值誤差,導致動作過度平滑或產生違背物理規律的畸變。因此,想要真正實現毫秒級的高逼真人體動態還原,突破1000Hz的捕捉影格率是一個繞不開的核心門檻。圖2:插值結果與1000Hz GroundTruth對比圖為什麼1000Hz的動作捕捉這麼難?現有的公開人體運動資料集,標註影格率最高只能勉強撐到120Hz。對於高速動態運動,容易產生嚴重的插值誤差而如果直接使用傳統的工業級高速相機(>1000Hz),則面臨著讓人頭疼的「三高」問題:極高的成本: 一台NAC等級的高速相機動輒超過4.5萬美元,是事件相機的9倍之多 。極高的光照門檻: 必須在強光環境下才能保證畫面不糊。極高的硬體負擔: 巨大的頻寬和儲存需求,讓日常部署幾乎成為不可能。其他諸如慣性感測器(IMU)方案,雖然擺脫了光照限制,但存在不可避免的積分漂移誤差,且頻率也難以突破千赫茲大關。FlashCap給關節點打上摩斯密碼面對這個死胡同,研究團隊另闢蹊徑,提出了 FlashCap 方案。這套可攜式裝置的原理極其巧妙:穿戴閃爍LED: 在人體的關鍵骨骼節點上佩戴微型 LED 發光模組 。頻閃編碼身份: 每個LED會以極高的頻率(例如4000Hz)進行閃爍,並擁有獨特的亮暗時間配比(On-time / Off-time),就好比給每個關節發了一套專屬的摩斯密碼。事件相機精準捕獲: 使用高時間解析度、極低頻寬的事件相機,非同步捕獲這些極速的明暗變化訊號。通過配套的自動化標註流水線(密度聚類、頻率識別、噪聲過濾),FlashCap能夠直接從雜亂的事件流中精準解析出原生的1000Hz人體2D姿態標籤 。 無需十萬美元的裝置,無需強環境光照,更沒有巨大的資料儲存壓力,高精度、低成本的1000Hz的真值資料就此製作完畢。圖3:FlashCap系統圖FlashMotion資料集基於FlashCap系統,研究團隊採集並開源了FlashMotion資料集。不僅多模態(囊括事件流、RGB、LiDAR點雲和 IMU),更在資料維度上完成了真正的降維打擊:1000Hz標註影格率: 將公開姿態資料集的時間解析度上限,一口氣提升了將近一個數量級(從120Hz飆升至 1000Hz)。715萬標註幀: 包含240個動作序列,覆蓋20名受試者的11大類快速動作(如極速踢腿、快速交叉雙手、瞬間跳躍等)。表1:FlashMotion資料集與現有資料集對比ResPose動靜結合,巧妙搞定高速微動態空有標竿級的高頻資料,如果沒有匹配的演算法,依然是高射炮打蚊子。面對1000Hz的超高頻資料流,傳統基於慢速RGB幀逐幀計算的姿態估計模型,往往會面臨算力與時延的雙重崩塌。為此,研究團隊設計了一個極其優雅且高效的基礎模型ResPose,核心演算法哲學可以概括為八個字:RGB定大局,Event 抓微調:RGB分支(全域錨點): 利用低頻的 RGB 圖像提取出穩定的人體結構先驗,確立低頻但較為準確的靜態錨點。Event分支(殘差): 引入混合SNN-CNN編碼器專門處理高頻事件流。模型會在 RGB 錨點周圍進行局部擷取,精準捕捉微秒級的運動殘差。多模態Transformer融合: 將低頻全域結構與高頻局部殘差送入Transformer進行時空特徵對齊,並施加嚴格的運動學約束,輸出平滑且精準的毫秒級高頻姿態。圖3:ResPose網路圖實測效果如何?在超高頻姿態估計任務中,ResPose交出了一份極其亮眼的答卷:相較於傳統先提RGB特徵後強行插值的方案,它將平均關節位置誤差(MPJPE)大幅砍掉了約40%!輸出的運動軌跡徹底告別了演算法腦補帶來的抖動與穿模,真正做到了如絲般順滑且完美貼合真實物理動態。而在更硬核的精準動作計時(PMT)任務中(例如要求精準定格拳擊手揮拳擊中目標的那一毫秒):傳統的 RGB 方法(如 ViTPose) 面對高速動態直接捕捉缺失,時間誤差高達 50 毫秒以上 。常規多模態方案: 同樣難以招架 1000Hz 的高頻特徵對齊,紛紛敗下陣來。ResPose憑藉優雅的動靜融合架構一騎絕塵,直接將時間誤差硬生生壓縮到了個位數毫秒等級(例如拳擊動作僅 4.8 毫秒誤差)!表2:超高頻姿態估計任務。表3:精準動作計時任務估計時間的平均誤差(單位:毫秒)。探尋人類高速動作的極限長久以來,人體姿態估計(HPE)社區一直被低頻資料集所束縛,忽視了真正決定運動勝負和動作自然度的高速微動態 。FlashCap以一種極具極客精神和實用主義的方式,推開了通往超高時間解析度運動理解的大門。這不僅對於體育賽事的極致分析具有顛覆性意義,也將為下一代具身智能(如高動態機器狗、人形機器人的精細控制)提供極其寶貴的資料基石。作者介紹論文第一作者來自廈門大學空間感知與計算實驗室(ASC Lab)2024級碩士生吳澤凱、2023級碩士生范書琪,通訊作者為廈門大學沈思淇副教授,並由劉夢茵、羅裕華、林心成、顏明、吳俊豪、林修弘、馬月昕研究員(上海科技大學)、溫程璐教授、許嵐研究員(上海科技大學)、王程教授共同合作完成。研究團隊長期聚焦於3D人體姿態估計、快速人體運動捕捉及相關多模態資料集建構。 (新智元)