AI視訊生成革命!MIT領銜豪華天團讓生成效率暴漲370%,成本直降4.4倍

【新智元導讀】刷到1分鐘AI短影片別只顧著點贊,背後的算力成本讓人驚嘆。MIT和輝達等提出的徑向注意力技術讓長視訊生成成本暴降4.4倍,速度飆升3.7倍,AI視訊的未來已來!

刷到1分鐘的AI生成短影片時,你可能想像不到背後的算力成本。

傳統的視訊擴散模型,處理視訊時採用密集注意力機制。

這種方法雖然能保證畫質,但計算量大得嚇人,生成10秒視訊就要燒掉數千元算力費用,隨著視訊長度增加,算力需求呈指數級飆升。

最近,MIT輝達等研究人員發明的「徑向注意力」技術,不僅讓長視訊生成速度提升3.7倍,還能把訓練成本砍掉4.4倍。

論文連結:https://www.arxiv.org/abs/2506.19852 程式碼連結:https://github.com/mit-han-lab/radial-attention/

徑向注意力

在擴散模型的加持下,高品質視訊生成逐漸從科幻變成現實。

但視訊的時間維度給算力增加了不少負擔,導致訓練和推理長視訊的成本飆升。

生成10秒視訊就要燒掉數千元算力費用,價格之高令人望而卻步。

對此,團隊從熱力學借了點靈感:「沒有任何傳播是無損的;訊號、影響、注意力都會隨著距離衰減。」

他們發現視訊擴散模型裡的注意力分數同樣遵循這個規律——softmax後的權重隨著token間的空間和時間距離遞減。

這種「時空能量衰減」現象與自然界訊號的物理衰減不謀而合。

這會不會就是視訊生成降本增效的關鍵?

為進一步證實這種猜想,團隊提出了「徑向注意力」(Radial Attention):一種計算複雜度僅為O(nlog n)的稀疏注意力機制。

區別於之前SVG每次推理對空間/時間注意力進行動態選擇,徑向注意力用的是一種統一且高效的靜態掩碼。

這種掩碼把空間和時間注意力合二為一,帶來了更靈活、更快的長視訊生成體驗。

而且,這種簡潔的靜態注意力掩碼讓每個token只關注附近空間的鄰居。隨著時間距離的拉長,注意力窗口逐漸收縮。

相比傳統的O (n²)密集注意力,徑向注意力不僅大幅提升了計算效率,還比線性注意力擁有更強的表達能力。

在這項注意力機制創新的加持下,高品質視訊生成變得更快、更長。

訓練和推理的資源消耗極大地降低,為視訊擴散模型打開了新的可能。

效果有多驚豔?實測資料來說話

研究團隊在三個主流模型上做了測試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數規模的場景。

Mochi 1可以生成長達5秒、480p解析度、162幀的視訊;HunyuanVideo可以生成長達5秒、720p解析度、125幀的視訊;Wan2.1-14B可以生成長達5秒、720p解析度、81幀的視訊。

速度提升1.9倍到3.7倍

在默認視訊長度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。

當視訊長度擴展到4倍時,速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!

以前一小時才能生成的視訊,現在喝杯咖啡的功夫就搞定了。

表1展示了在HunyuanVideo和Wan2.1-14B的默認生成長度下,徑向注意力與三個強稀疏注意力基線的比較。

在相同的計算預算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視訊質量,同時在相似性指標(PSNR、SSIM、LPIPS)上始終優於STA和PA,並與SVG的質量相匹配。

在單個H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實現了1.9倍和1.8倍的端到端加速,與理論計算預算節省(1.8倍和1.7倍TFLOPs)相匹配。

儘管STA通過使用 FlashAttention-3(FA-3)產生了略高的加速,但視覺質量明顯下降。

訓練費用最多節省4.4倍

長視訊生成最燒錢的其實是訓練階段。用徑向注意力配合LoRA微調技術,訓練成本直接大幅下降。

對於企業來說可是天大的好消息,以前做一個長視訊項目可能要投入幾十萬,現在可能只需要幾萬塊。

表2提供了2倍和4倍原始長度的視訊生成結果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。

當生成長視訊時,未經進一步調優的原始模型表現出顯著的質量退化,尤其是在4倍視訊長度擴展時。

雖然RIFLEx在2倍長度外推時提高了性能,但其質量在此之後惡化,表明擴展能力有限。

空間和時間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全域感受野,但未能捕捉時空相關性,導致質量下降。

有趣的是,PA在微調後視覺獎勵有很大提高,表明其原始稀疏模式與預訓練的注意力分佈不一致。

微調允許模型適應施加的注意力稀疏性,改善對齊和質量。

SANA將softmax注意力取代為線性注意力,需要大規模重新訓練,並且在基於微調的視訊長度擴展下失敗。

相比之下,徑向注意力實現了與LoRA微調密集注意力模型相當的質量。甚至在默認視訊長度下,比預訓練模型略微提高了視覺獎勵。

由於O(nlog n)複雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓練加速,如表2和圖2所示。

生成4倍長的視訊時,可以節省高達4.4倍的訓練成本,並實現高達3.7倍的推理加速。

最關鍵的是,速度和成本降下來了,畫質還沒縮水。

在HunyuanVideo上,徑向注意力的PSNR值達到27.3,和原始模型基本持平;視覺獎勵分數0.134,甚至比密集注意力的0.133還高一點點。

不只是快:徑向注意力的「隱藏技能」

很多技術升級都需要重新訓練模型,但徑向注意力不需要。

它可以直接應用在預訓練好的模型上,通過簡單的 LoRA 微調就能實現加速。

徑向注意力的一個關鍵優勢是與預訓練的特定任務LoRA(如藝術風格遷移)的無縫相容性,這對創作者太友好了。

如圖8所示,將擴展長度LoRA與現有風格LoRA結合使用,在實現長視訊生成的同時保留了視覺質量。

研究團隊還觀察到,合併LoRA生成的內容風格與原始LoRA略有不同。

這種差異主要歸因於用於訓練擴展長度LoRA的相對較小的資料集,這可能引入輕微的風格偏差,與風格LoRA相互作用。

在更全面的資料集上訓練長度擴展LoRA,預計將有助於緩解這個問題。

以前生成1分鐘的AI視訊是很多中小團隊不敢想的,現在徑向注意力讓這事變得可行了。

以後,我們可能會看到更多AI生成的長視訊內容,像短影片平台的劇情號。 (新智元)