Open-Sora 2.0全面開源,20萬復刻百萬級大片!11B媲美閉源巨頭,224張GPU創奇蹟


【新智元導讀】潞晨科技正式推出 Open-Sora 2.0——一款全新開放原始碼的SOTA視訊生成模型,僅20萬美元(224張GPU)成功訓練商業級11B參數視訊生成大模型。開發高性能的視訊生成模型通常耗資高昂:Meta的視訊模型訓練需要6000多張GPU卡片,投入數百萬美元。在多項關鍵指標上,它與動輒百萬美元訓練成本的模型分庭抗禮,全面提升視訊生成的可及性與可拓展性。

今天,視訊生成領域迎來開源革命!

Open-Sora 2.0——全新開放原始碼的SOTA(State-of-the-Art)視訊生成模型正式發佈,僅用20萬美元(224張GPU)成功訓練出商業級11B參數視訊生成大模型,性能直追HunyuanVideo和30B參數的Step-Video。

權威評測VBench及使用者偏好測試均證實其卓越表現,在多項關鍵指標上媲美動輒數百萬美元訓練成本的閉源模型。

此次發佈全面開源模型權重、推理程式碼及分佈式訓練全流程,讓高品質視訊生成真正觸手可及,進一步提升視訊生成的可及性與可拓展性。

GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora


體驗與指標雙線上

震撼視覺:Open-Sora 2.0 Demo先行

觀看宣傳片,體驗Open-Sora 2.0的強大生成能力:

動作幅度可控:可根據需求設定運動幅度,以更好地展現人物或場景的細膩動作。




畫質與流暢度:提供720p高解析度和24 FPS流暢視訊,讓最終視訊擁有穩定影格率與細節表現。




支援豐富的場景:從鄉村景色到自然風光場景,Open-Sora 2.0生成的畫面細節與相機運鏡都有出色的表現。



11B參數規模媲美主流閉源大模型

· 媲美HunyuanVide和30B Step-Video

Open-Sora 2.0採用11B參數規模,訓練後在VBench人工偏好(Human Preference)評測上都取得與用高昂成本開發的主流閉源大模型同等水平。

· 使用者偏好評測

在視覺表現、文字一致性和動作表現三個評估維度上,Open Sora在至少兩個指標上超越了開源SOTA HunyuanVideo,以及商業模型Runway Gen-3 Alpha等。以小成本獲取了好性能。


· VBench 指標表現強勢

根據視訊生成權威榜單VBench的評測結果,Open-Sora模型的性能進步顯著。

從Open-Sora 1.2升級到2.0版本後,與行業領先的OpenAI Sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實現了性能的全面追平。

此外,Open-Sora 2.0在VBench評測中取得的分數已超過騰訊的HunyuanVideo,以更低的成本實現了更高的性能,為開源視訊生成技術樹立了全新標竿!



實現突破:低成本訓練與高效能最佳化

Open Sora自開源以來,憑藉其在視訊生成領域的高效與優質表現,吸引了眾多開發者的關注與參與。

然而,隨著項目的深入推進,也面臨著高品質視訊生成成本居高不下的問題。

為解決這些挑戰,Open Sora團隊展開了一系列卓有成效的技術探索,顯著降低了模型訓練成本。

根據估算,市面上10B以上的開源視訊模型,動輒需要上百萬美元的單次訓練成本,而Open Sora 2.0將該成本降低了5-10倍。


作為開源視訊生成領域的領導者,Open-Sora不僅繼續開源了模型程式碼和權重,更開源了全流程訓練程式碼,成功打造了強大的開源生態圈。

據第三方技術平台統計,Open-Sora的學術論文引用量半年內獲得近百引用,在全球開源影響力排名中穩居首位,領先所有開放原始碼的I2V/T2V視訊生成項目,成為全球影響力最大的開源視訊生成項目之一。


模型架構

Open-Sora 2.0延續Open-Sora 1.2的設計思路,繼續採用3D自編碼器Flow Matching訓練框架,並通過多桶訓練機制,實現對不同視訊長度和解析度的同時訓練。

在模型架構上,引入3D全注意力機制,進一步提升視訊生成質量。同時,採用最新的MMDiT架構,更精準地捕捉文字資訊與視訊內容的關係,並將模型規模從1B擴展至11B

此外,借助開源圖生視訊模型FLUX進行初始化,大幅降低訓練成本,實現更高效的視訊生成最佳化。

高效訓練方法和平行方案全開源

為了追求極致的成本最佳化,Open-Sora 2.0從四個方面著手削減訓練開銷。

首先,通過嚴格的資料篩選,確保高品質資料輸入,從源頭提升模型訓練效率。

採用多階段、多層次的篩選機制,結合多種過濾器,有效提升視訊質量,為模型提供更精準、可靠的訓練資料。


其次,高解析度訓練的成本遠超低解析度,達到相同資料量時,計算開銷可能高達40倍

256px、5秒的視訊為例,其tokens數量約8千,而768px的視訊tokens數量接近8萬,相差10倍,再加上注意力機制的平方級計算複雜度,高解析度訓練的代價極其昂貴。

因此,Open-Sora優先將算力投入到低解析度訓練,以高效學習運動資訊,在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。


與此同時,Open-Sora優先訓練圖生視訊任務,以加速模型收斂。

相比直接訓練高解析度視訊,圖生視訊模型在提升解析度時具備更快的收斂速度,從而進一步降低訓練成本。

在推理階段,除了直接進行文字生視訊(T2V),還可以結合開源圖像模型,通過文字生圖再生視訊(T2I2V),以獲得更精細的視覺效果。

最後,Open-Sora採用高效的平行訓練方案,結合ColossalAI和系統級最佳化,大幅提升計算資源利用率,實現更高效的視訊生成訓練。為了最大化訓練效率,我們引入了一系列關鍵技術,包括:

  1. 高效的序列平行和ZeroDP,最佳化大規模模型的分散式運算效率。
  2. 細粒度控制的Gradient Checkpointing,在降低視訊記憶體佔用的同時保持計算效率。
  3. 訓練自動恢復機制,確保99%以上的有效訓練時間,減少計算資源浪費。
  4. 高效資料載入與記憶體管理,最佳化I/O,防止訓練阻塞,加速訓練流程。
  5. 高效非同步模型保存,減少模型儲存對訓練流程的干擾,提高GPU利用率。
  6. 算子最佳化,針對關鍵計算模組進行深度最佳化,加速訓練過程。

這些最佳化措施協同作用,使Open-Sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高品質視訊生成模型的訓練。

高壓縮比AE帶來更高速度

在訓練完成後,Open-Sora面向未來,進一步探索高壓縮比視訊自編碼器的應用,以大幅降低推理成本。

目前,大多數視訊模型仍採用4×8×8的自編碼器,導致單卡生成768px、5秒視訊耗時近30分鐘

為解決這一瓶頸,Open-Sora訓練了一款高壓縮比(4×32×32)的視訊自編碼器,將推理時間縮短至單卡3分鐘以內,推理速度提升10倍


要實現高壓縮比編碼器,需要解決兩個核心挑戰:如何訓練高壓縮但仍具備優秀重建效果的自編碼器,以及如何利用該編碼器訓練視訊生成模型

針對前者,Open-Sora團隊在視訊升降採樣模組中引入殘差連接,成功訓練出一款重建質量媲美當前開源SoTA視訊壓縮模型,且具備更高壓縮比的VAE,自此奠定了高效推理的基礎。


高壓縮自編碼器在訓練視訊生成模型時面臨更高的資料需求和收斂難度,通常需要更多訓練資料才能達到理想效果。

為解決這一問題,Open-Sora 提出了基於蒸餾的最佳化策略,以提升AE(自編碼器)特徵空間的表達能力,並利用已經訓練好的高品質模型作為初始化,減少訓練所需的資料量和時間。

此外,Open-Sora還重點訓練圖生視訊任務,利用圖像特徵引導視訊生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內達到一定生成效果。

Open-Sora認為,高壓縮比視訊自編碼器將成為未來降低視訊生成成本的關鍵方向

目前的初步實驗結果已展現出顯著的推理加速效果,希望能進一步激發社區對這一技術的關注與探索,共同推動高效、低成本的視訊生成發展。


加入Open-Sora 2.0,共同推動AI視訊革命

今天,Open-Sora 2.0正式開源!

GitHub開源倉庫:https://github.com/hpcaitech/Open-Sora
技術報告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

歡迎加入Open-Sora社區,探索AI視訊的未來!

Open-Sora 2.0,未來已來。讓我們用更少的資源、更開放的生態,創造屬於下一代的數字影像世界! (新智元)