#1000Hz | 熱門關鍵字 | 鉅亨號

【新智元導讀】全球首個1毫秒級人體動作捕捉系統FlashCap，通過閃爍LED與事件相機結合，實現1000Hz超高影格率捕捉。無需昂貴裝置或強光環境，低成本穿戴服即可精準捕捉極速動作。團隊同步開源715萬幀的FlashMotion資料集與多模態模型ResPose，顯著提升運動分析精度，推動體育、VR與機器人領域邁向高動態智能新階段。在頂級體育賽事中，決定勝負的往往在毫秒之間。然而，為了在短跑、攀岩、雪橇等極速運動中捕捉這些稍縱即逝的瞬間，業界目前的妥協方案，往往是動輒部署造價數十萬、且對光照、頻寬、儲存要求極其苛刻的高速光學相機或是精度與穩定性要求極高、部署與維護成本同樣不菲的專用計時裝置。那麼，能否用一套低成本、且擺脫強環境光依賴的人體動作捕捉服，實現1000Hz的毫秒級人體動捕？現有人體動作捕捉服達不到1000Hz毫秒級動捕，為了打破這個影格率天花板，廈門大學ASC實驗室與上海科技大學另闢蹊徑，聯合提出了業界首個基於閃爍LED燈與事件相機的毫秒級動捕系統FlashCap。目前，該工作已正式被電腦視覺頂會CVPR 2026接收。為推動該領域的持續突破，研究團隊將全面開源核心成果：開放高達715萬幀的高頻動作捕捉資料集；動靜結合的多模態超高時間解析度動捕演算法ResPose。圖1：FlashCap效果圖為什麼動作捕捉需要邁入1000Hz 時代？在競速體育、高保真虛擬現實（VR）以及精密機器人遙操作等領域，人體的高速微動態（如急速揮手、瞬間發力或高頻震顫）往往發生在幾毫秒之間。傳統的120Hz動作捕捉系統在應對此類高速運動時，會產生嚴重的幀間資訊丟失。現有方案通常依賴時域插值演算法來重建缺失的運動軌跡，但這不可避免地會引入顯著的插值誤差，導致動作過度平滑或產生違背物理規律的畸變。因此，想要真正實現毫秒級的高逼真人體動態還原，突破1000Hz的捕捉影格率是一個繞不開的核心門檻。圖2：插值結果與1000Hz GroundTruth對比圖為什麼1000Hz的動作捕捉這麼難？現有的公開人體運動資料集，標註影格率最高只能勉強撐到120Hz。對於高速動態運動，容易產生嚴重的插值誤差而如果直接使用傳統的工業級高速相機（>1000Hz），則面臨著讓人頭疼的「三高」問題：極高的成本：一台NAC等級的高速相機動輒超過4.5萬美元，是事件相機的9倍之多。極高的光照門檻：必須在強光環境下才能保證畫面不糊。極高的硬體負擔：巨大的頻寬和儲存需求，讓日常部署幾乎成為不可能。其他諸如慣性感測器（IMU）方案，雖然擺脫了光照限制，但存在不可避免的積分漂移誤差，且頻率也難以突破千赫茲大關。FlashCap給關節點打上摩斯密碼面對這個死胡同，研究團隊另闢蹊徑，提出了 FlashCap 方案。這套可攜式裝置的原理極其巧妙：穿戴閃爍LED：在人體的關鍵骨骼節點上佩戴微型 LED 發光模組。頻閃編碼身份：每個LED會以極高的頻率（例如4000Hz）進行閃爍，並擁有獨特的亮暗時間配比（On-time / Off-time），就好比給每個關節發了一套專屬的摩斯密碼。事件相機精準捕獲：使用高時間解析度、極低頻寬的事件相機，非同步捕獲這些極速的明暗變化訊號。通過配套的自動化標註流水線（密度聚類、頻率識別、噪聲過濾），FlashCap能夠直接從雜亂的事件流中精準解析出原生的1000Hz人體2D姿態標籤。無需十萬美元的裝置，無需強環境光照，更沒有巨大的資料儲存壓力，高精度、低成本的1000Hz的真值資料就此製作完畢。圖3：FlashCap系統圖FlashMotion資料集基於FlashCap系統，研究團隊採集並開源了FlashMotion資料集。不僅多模態（囊括事件流、RGB、LiDAR點雲和 IMU），更在資料維度上完成了真正的降維打擊：1000Hz標註影格率：將公開姿態資料集的時間解析度上限，一口氣提升了將近一個數量級（從120Hz飆升至 1000Hz）。715萬標註幀：包含240個動作序列，覆蓋20名受試者的11大類快速動作（如極速踢腿、快速交叉雙手、瞬間跳躍等）。表1：FlashMotion資料集與現有資料集對比ResPose動靜結合，巧妙搞定高速微動態空有標竿級的高頻資料，如果沒有匹配的演算法，依然是高射炮打蚊子。面對1000Hz的超高頻資料流，傳統基於慢速RGB幀逐幀計算的姿態估計模型，往往會面臨算力與時延的雙重崩塌。為此，研究團隊設計了一個極其優雅且高效的基礎模型ResPose，核心演算法哲學可以概括為八個字：RGB定大局，Event 抓微調：RGB分支（全域錨點）：利用低頻的 RGB 圖像提取出穩定的人體結構先驗，確立低頻但較為準確的靜態錨點。Event分支（殘差）：引入混合SNN-CNN編碼器專門處理高頻事件流。模型會在 RGB 錨點周圍進行局部擷取，精準捕捉微秒級的運動殘差。多模態Transformer融合：將低頻全域結構與高頻局部殘差送入Transformer進行時空特徵對齊，並施加嚴格的運動學約束，輸出平滑且精準的毫秒級高頻姿態。圖3：ResPose網路圖實測效果如何？在超高頻姿態估計任務中，ResPose交出了一份極其亮眼的答卷：相較於傳統先提RGB特徵後強行插值的方案，它將平均關節位置誤差（MPJPE）大幅砍掉了約40%！輸出的運動軌跡徹底告別了演算法腦補帶來的抖動與穿模，真正做到了如絲般順滑且完美貼合真實物理動態。而在更硬核的精準動作計時（PMT）任務中（例如要求精準定格拳擊手揮拳擊中目標的那一毫秒）：傳統的 RGB 方法（如 ViTPose）面對高速動態直接捕捉缺失，時間誤差高達 50 毫秒以上。常規多模態方案：同樣難以招架 1000Hz 的高頻特徵對齊，紛紛敗下陣來。ResPose憑藉優雅的動靜融合架構一騎絕塵，直接將時間誤差硬生生壓縮到了個位數毫秒等級（例如拳擊動作僅 4.8 毫秒誤差）！表2：超高頻姿態估計任務。表3：精準動作計時任務估計時間的平均誤差（單位：毫秒）。探尋人類高速動作的極限長久以來，人體姿態估計（HPE）社區一直被低頻資料集所束縛，忽視了真正決定運動勝負和動作自然度的高速微動態。FlashCap以一種極具極客精神和實用主義的方式，推開了通往超高時間解析度運動理解的大門。這不僅對於體育賽事的極致分析具有顛覆性意義，也將為下一代具身智能（如高動態機器狗、人形機器人的精細控制）提供極其寶貴的資料基石。作者介紹論文第一作者來自廈門大學空間感知與計算實驗室（ASC Lab）2024級碩士生吳澤凱、2023級碩士生范書琪，通訊作者為廈門大學沈思淇副教授，並由劉夢茵、羅裕華、林心成、顏明、吳俊豪、林修弘、馬月昕研究員（上海科技大學）、溫程璐教授、許嵐研究員（上海科技大學）、王程教授共同合作完成。研究團隊長期聚焦於3D人體姿態估計、快速人體運動捕捉及相關多模態資料集建構。 (新智元)