不久之前理想汽車就已經發表了多篇在人工智慧領域的研究工作。
與此同時,小米集團明確了新一年的目標:今年將投入70億以上資金用於AI研發,約佔總研發經費的1/4。
重點聚焦AI基礎設施、大模型開發及應用場景搭建。這意味著,繼造車之後,AI將成為雷軍的下一個“新戰場”。
作為當下汽車市場最炙手可熱的新星,小米汽車怎麼可能不發力?
這不,小米汽車聯合南京大學、西湖大學發表了最新的研究成果。
你是否想過,自動駕駛汽車如何在複雜路況下 “預見未來”?
傳統方法依賴海量真實資料,但極端場景難以覆蓋。
現在提出的MiLA 框架,讓 AI 不僅能生成高保真的駕駛視訊,還能 “看” 得更遠、“記” 得更準!
這項突破不僅解決了資料稀缺難題,更讓自動駕駛系統在模擬環境中就能 “經歷” 百萬種極端場景,未來或徹底改變行業格局!
🔍 痛點直擊:資料收集的 “不可能三角”
成本高:一輛自動駕駛測試車日均採集成本超萬元,極端場景可遇不可求。
誤差累積:現有模型生成的視訊超過 8 秒就會 “失真”,無法滿足長期預測需求。
場景單一:真實資料難以覆蓋暴雨、夜間等複雜環境,導致模型泛化能力受限。
→ MiLA 如何破局?
從 “視訊生成” 入手,打造了首個能生成長達1分鐘連貫視訊的世界模型,通過多檢視高保真模擬,讓 AI 在虛擬環境中自主 “學習” 各類極端場景!
【論文標題】
MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
原始碼見文末
近年來,資料驅動技術極大地推動了自動駕駛系統的發展,但對罕見且多樣的訓練資料的需求仍是一項挑戰,這需要在裝置和人力上投入大量資源。
世界模型能夠預測和生成未來的環境狀態,通過合成帶註釋的視訊資料進行訓練,為解決這一問題提供了有前景的方案。
然而,現有方法難以在不累積誤差的情況下生成長期連貫的視訊,尤其是在動態場景中。
為解決這一問題,提出了MiLA,這是一種新穎的框架,可生成長達一分鐘的高保真、長時間視訊。
MiLA採用Coarse-to-(Re)fine的方法,既穩定視訊生成,又糾正動態對象的失真。
此外,還引入了時間漸進去噪調度器和聯合去噪校正流模組,以提高生成視訊的質量。
在nuScenes資料集上進行的大量實驗表明,MiLA在視訊生成質量方面達到了最先進的性能。
資料驅動方法在自動駕駛系統中取得顯著成功,但建構強大的系統需要收集長尾和罕見場景資料,這在裝置和人力資源方面需要大量持續投入。
世界模型系統能夠理解和預測未來環境狀態,通過處理歷史觀察和人類指令生成場景表示,有效應對分佈外挑戰。
近年來,能生成高品質視訊的世界模型框架取得進展,但在生成連貫的長時間資料時仍面臨兩個主要挑戰:
一是誤差累積問題,大多數方法採用逐批策略生成視訊,會導致誤差在生成過程中累積,降低長期視訊中靜態背景和動態對象的質量。
二是難以在長序列中保持場景一致性,現有方法雖嘗試通過引入額外控制訊號解決,但在不依賴這些訊號的情況下學習保持時空一致性的表示仍有待探索。
4.1 模型概述
採用基於DiT的視訊生成模型Open-Sora框架作為MiLA的骨幹架構。
使用傅里葉嵌入和MLP對輸入條件參數進行編碼,實現靈活條件嵌入。
通過擴展DiT塊的空間感受野,實現多檢視增強空間注意力。
引入整流流,用於在兩個分佈之間進行轉換(上圖)。
4.2 長視訊生成框架
採用Coarse-to-(Re)fine的pipeline。
Coarse過程使用低影格率嵌入預測anchor幀作為參考,(Re)fine過程採用循環策略。
結合先前(Re)fine過程的高影格率幀和Coarse過程的低影格率anchor幀,更好地捕捉運動動態和理解環境。
並在(Re)fine過程中加入校正模組調整anchor幀中不現實的運動(上圖)。
4.3 聯合去噪和校正流
針對分治框架中anchor幀導致的時間相乾性降低問題,提出聯合去噪和校正流模組。
通過分解anchor幀噪聲,加入特定噪聲最佳化低影格率anchor幀和高影格率插值幀,解決運動不一致問題。
4.4 時間漸進去噪調度器
設計特定的去噪調度器,根據與條件幀的距離確定去噪步數和規模。
使早期幀在少數步驟內快速達到接近去噪狀態,後續幀的去噪調度器遵循慢-快模式,提高整體視訊保真度(圖4b)。
損失函數:在訓練階段,每次迭代隨機採樣一個時間戳,最小化預測流與真實流之間的差異,通過二進制掩碼區分噪聲anchor幀。
評估結果
定性結果:圖6展示了MiLA在生成高保真多檢視駕駛場景視訊方面的有效性,其預測的輪廓在細節上明顯優於Vista。
圖5對比了MiLA的Coarse-to-(Re)fine框架與循環和分治框架生成的視訊,結果表明該框架在長期視訊生成中能保持保真度,且減少了動態對象的失真。
定量結果:在nuScenes驗證集上對比多種方法,表1顯示MiLA在多檢視和前檢視生成的FID和FVD指標上均顯著超越當前最先進方法。
表2表明在長視訊生成方面,MiLA同樣表現出色。
消融研究
設計模組的效果:表4的消融實驗表明,整合TPD和JDC模組可有效提升整體生成質量。
JDC的效果:圖7展示了參數對anchor幀校正效果的關鍵影響,需仔細校準噪聲水平以平衡偽影抑制和運動保真度。
TPD的效果:表3記錄了TPD的作用,在生成不同幀數和影格率視訊的實驗中,證明了設計的漸進式去噪調度器的有效性。
MiLA是一種基於先前幀和未來路標點生成駕駛場景視訊的視訊生成世界模型框架。
通過提出Coarse-to-(Re)fine的框架生成低影格率anchor幀,然後插值高影格率幀並聯合恢復anchor幀,並設計JDC和TPD模組增強時間一致性。 (AcademicDaily)