不是5秒,不是10秒,更不只是1分鐘。
AI視訊生成,正式迎來無限時長的時代!
來,話不多說,直接來看一部AI版《羅馬假日》:
而就是這麼一部小短劇片段,它的“起點”,僅僅就是一張照片和一句Prompt:
身著優雅西裝的歐美男子與一位美女漫步在羅馬街頭,分享各自的生活趣事,眼神中滿是欣賞;夕陽西下,餘暉灑在兩人臉上,彼此深情對視。
或許你會說,這不就是AI一口氣生成出來的37秒視訊嗎?
非也,非也。
它創作出來的方式,實則是先生成一個30秒的視訊,然後用一套“Extend(擴展)大法”繼續去延長視訊的時間。
方法就是pick剛才已經生成的視訊,再來一句Prompt:
兩個人擁抱到了一起。
最後,在前面所有畫面人物都沒有發生變化的同時,AI根據後續的Prompt,繼續擴展了7秒鐘。
通過這種方式,如果你想繼續延長視訊的情節和時長,只需反覆上述操作即可。
這就是無限時長的由來了。
而這個AI,正是崑崙萬維最新升級的SkyReels-V2。作為全球首個無限時長視訊生成模型,實現了電影級理解,並且全面開源。
整體體驗下來,它的特點可以總結為一句話——很懂拍電影。
不僅在時長方面可以做到無限,對視訊內容的連續性、鏡頭的自如切換,以及主體的一致性等等都做到了不錯的把控。
那麼崑崙萬維為什麼要搞這樣的一個AI呢?
這是因為全球AI視訊生成領域正面臨三大核心痛點:
這也正是SkyReels-V2要解決的問題。
接下來,為了把這種效果體現得更加明顯一些,我們繼續一波實測走起。
這一次,我們以5秒為一個單位,一點一點地把玩一下這個無限生成模式。
先“喂”給SkyReels-V2這樣的一張靜態圖片:
然後我們先讓這張漫畫風的圖片,按照物理規則動起來:
保持漫畫風格,畫面中的樹、湖面、男孩的頭髮,隨風飄動。
繼續用Prompt來擴展後續視訊內容:
男孩子突然發現魚漂和魚竿開始抖動,臉上露出驚喜的表情。
男孩立馬站起身來,雙手用力拽魚竿。
男孩身子往後退,用力拽魚竿,沒釣到魚。
就在這麼5秒、5秒的擴展之後,我們就完成了一小段動漫的場景:
值得一提的是,剛才我們完整展示的2個視訊的BGM,同樣也是由崑崙萬維的音樂生成AI——Mureka來生成的哦~
除此之外,官方這次也展示了幾個不錯的效果。
例如女生化妝的AI視訊生成:
以及水母在海洋徜徉:
那麼在看完效果之後,接下來的一個問題就是:如何做到的?
在科普SkyReels-V2技術之前,我們還應當先瞭解一下當前視訊生成模型在技術上普遍存的問題。
歸結來看,主要分為三點,即:
對此,崑崙萬維團隊提出的SkyReels-V2,便是通過結合多模態大語言模型(MLLM)、多階段預訓練、強化學習和擴散強制框架,實現了在提示遵循度、視覺質量、運動動態和時長方面的突破性進展。
首先,SkyReels-V2的首要創新是設計了一套全面的視訊結構化表示方法,將通用描述與專業鏡頭語言相結合。
這個系統包括主體描述(類型、外觀、動作、表情、位置等)、鏡頭中繼資料(鏡頭類型、鏡頭角度、鏡頭位置等)、攝影機運動(例如推拉搖移等專業運動參數)。
為實現上述專業維度的高精度標註,研發團隊針對性訓練了多個專家級模型。
例如鏡頭標註器,它可精確識別鏡頭類型、角度與位置,在測試中分別取得 82.2%、78.7% 和 93.1% 的精準率。
表情標註器則能深度解析七種基礎情緒及其強度變化,平均精度達到 85%;還有攝影機運動標註器,採用6DoF坐標參數化運動,單類型運動識別精準率89%。
這些專家模型與基礎MLLM的知識被蒸餾到統一的SkyCaptioner-V1模型中,最終形成了一個平均精準率達76.3%的專業視訊標註系統,尤其在鏡頭相關欄位上表現突出(鏡頭類型識別精準率93.7%)。
除此之外,SkyReels-V2還採用一個三階段漸進解析度預訓練框架:
訓練中採用雙軸分桶框架(時長桶×寬高比桶)和FPS歸一化技術,有效處理視訊資料的時空異質性。最佳化器使用AdamW,學習率從1e-4逐步降至2e-5,確保穩定收斂。
而針對視訊生成中常見的運動質量問題(幅度不當、主體變形、物理規律違反等),團隊設計了半自動偏好資料收集管道。
它包含兩種類型的資料,一個是人工標註資料,由專業人員評估運動質量,形成1200個視訊測試集;另一個是自動生成資料,通過漸進失真建立技術模擬各種運動缺陷。
基於這些資料,團隊訓練了專門的獎勵模型,並應用流匹配直接偏好最佳化(Flow-DPO)技術,通過三階段訓練(每階段20k資料)顯著提升了運動質量。
SkyReels-V2的核心突破是擴散強迫(Diffusion Forcing)技術,將傳統擴散模型轉化為支援無限長度生成的架構。
這個技術同樣包含三個關鍵點。
一是幀導向機率傳播(FoPP)時間步調度器,它通過動態程式設計計算非遞減噪聲計畫,將組合空間從O(1e48)減少到O(1e32)。
二是自適應差異(AD)時間步調度器,可以支援從同步擴散(s=0)到自回歸生成(s=T)的靈活調整。
最後則是上下文因果注意力,通過推理時快取歷史樣本的K、V特徵,顯著降低計算開銷。
這一框架使模型能夠以前一視訊段的最後幾幀為條件,生成新的幀序列,理論上支援無限長度擴展。為防止誤差累積,團隊採用輕微噪聲標記已生成幀的穩定化技術。
從崑崙萬維以及第三方測試結果來看,在SkyReels-Bench評估中,SkyReels-V2在指令遵循方面取得了顯著進展,同時在保證運動質量的同時不犧牲視訊的一致性效果。
在VBench1.0自動化評估中,SkyReels-V2在總分(83.9%)和質量分(84.7%)上均優於所有對比模型,包括HunyuanVideo-13B和Wan2.1-14B。這一結果進一步驗證了SkyReels-V2在生成高保真、指令對齊的視訊內容方面的強大能力。
以上便是SkyReels-V2能夠解鎖如此實力背後的關鍵技術了,並且已經全部開源。
在解讀完技術之後,我們還有個話題值得聊一聊——SkyReels-V2的問世,意味著什麼?
歸結為一句話,或許就是:
正在重塑、改寫創意內容產業的DNA。
SkyReels-V2展現的不僅是技術能力,更是一種新型創作哲學的雛形。
當AI能夠理解並執行“日落時分的海灘漫步”這樣的抽象指令,並自主處理鏡頭運動、場景過渡等專業細節時,人類的角色正在從執行者轉變為“創意導演”——專注於概念構思與審美判斷等高層次創造活動。
這種人機協作模式指向了一個更為深刻的變革:藝術創作的重心從技藝展示轉向思想表達。
創作者可以將更多精力投入敘事結構、情感傳遞和概念創新等真正體現人類獨特性的領域,而將技術實現交由AI處理。
這或許正是文藝復興時期“藝術家作為思想家”理想在數字時代的全新詮釋。
而目光聚焦於崑崙萬維本身,可以說它再一次走到了生成式AI大浪潮的前面:不僅有技術,還有產品,更是做到了全面開源。
據高盛預測,到2027年AI生成視訊市場規模將突破兆美元,而崑崙萬維SkyReels-V2的橫空出世,正以“無限時長+電影級質量+精準控制”三位一體的突破性技術,率先打開這片藍海市場!
至於SkyReels-V2及其後繼技術將如何繼續改寫創意產業的DNA,取決於我們如何以智慧與遠見引導這場變革。
不過可以肯定的一點是,當技術最終成功隱入創作的背景,成為思維的自然延伸時,人類講故事的方式,以及通過故事理解世界的方式,都將發生我們今日難以想像的深刻轉變。
最後,體驗地址放下面了,感興趣的小夥伴快去嘗鮮吧~
SkyReels官網地址:
https://www.skyreels.ai/home
GitHub地址:
[1]https://github.com/SkyworkAI/SkyReels-V2
[2]https://github.com/SkyworkAI/SkyReels-A2
HuggingFace地址:
[1]https://huggingface.co/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
[2]https://huggingface.co/Skywork/SkyReels-A2
論文地址:
[1]https://arxiv.org/abs/2504.13074
[2]https://arxiv.org/pdf/2504.02436 (量子位)