力壓OpenAI、Google，快手掏出最強視訊大模型，可靈2.0一句話搞定特效

2025/04/16

•

基礎模型+創作工具全端升級，可靈AI 2.0究竟有何不同？

智東西4月15日報導，就在剛剛，可靈AI面向全球正式發佈可靈2.0視訊生成模型及可圖2.0圖像生成模型，繼續大幅領先業內前沿模型。可靈2.0在文生視訊領域較OpenAI Sora實現367%的勝負比，在圖生視訊領域較GoogleVeo2實現了182%的勝負比。

與可靈1.6相比，可靈2.0模型在動態質量、語義響應、畫面美學等維度有明顯進步。在下方案例中，可靈2.0精準呈現了日光從清晨到正午再到傍晚的變化，還使用了延時攝影的風格。

可圖2.0模型在指令遵循、電影質感及藝術風格表現等方面顯著提升，色彩和光影更為高級，情緒表達更具感染力，並新增了60余種風格化效果。

在本次2.0模型迭代中，可靈AI還正式發佈AI視訊生成的全新互動理念Multi-modal Visual Language（MVL），讓使用者能夠利用圖像參考、視訊片段等多模態資訊，將腦海中的複雜創意直接高效地傳達給AI，或是對視訊、圖像等多模內容進行編輯。

使用者可以將視訊、圖片等作為元素上傳，並直接將其嵌入至提示詞中。這些元素能在畫面內以合乎邏輯的方式組合，進一步提升畫面的可控性。

可靈2.0系列模型發佈即上線，使用者現在已經可以在可靈AI官網和App內免費體驗其生成效果。

體驗連結：https://klingai.com/cn/

快手高級副總裁、社區科學線負責人蓋坤介紹，自去年6月發佈以來，可靈AI已累計完成超20次迭代。截至目前，可靈AI全球使用者規模突破2200萬，過去的10個月裡，其月活使用者量增長25倍，累計生成超過1.68億個視訊及3.44億張圖片。

然而，現有的視訊生成模型仍存在語義遵循能力差、動態質量不佳等問題，妨礙了創作者表達、控制生成結果的能力。可靈AI全系模型進行的本次升級，正是為瞭解決這些問題。

據快手副總裁、可靈AI負責人張迪介紹，可靈2.0的升級主要有三方面：語義響應、動態質量與畫面美學。

升級後的可靈2.0可以更準確地反映人物表情、動作的變化，動作的豐富度、真實性有明顯提升。在下方案例中，可靈2.0為準確描繪了提示詞中“手錘桌子起身”的效果，而可靈1.6並沒有完全還原。

可靈2.0也告別了視訊生成模型的通病——運動速度不合理。在下方馬飛速奔馳的畫面中，可靈2.0的生成結果不再是慢動作，鏡頭表現更加真實。可靈團隊還對其生成畫面的複雜動作、動作幅度進行最佳化。

生成大片感的畫面對可靈2.0來說也不是問題。下方這一畫面中，無論是人物奔跑的動作，還是後方爆炸的效果，都十分逼真，角色演繹生動。

可靈2.0對時間的理解能力提升，能幫助創作者生成更連貫、更具有故事性、延續性的畫面。

圖像生成模型可圖2.0的升級同樣是在指令遵循方面。下方這一案例的提示詞中具有“伺服電機”、“機械女神”、“壁畫”、“拉斐爾《雅典學院》的古典平衡感”等諸多要素，可圖2.0的生成結果很好地還原了相關要素，

可圖2.0能更好地展現提示詞中對於色彩、光影的表述，對人物情緒的呈現更具感染力。下方4張圖片均為可圖2.0的生成結果，若未經提示，或許許多人都會認為這是某部電影的截圖。

張迪在發佈會現場分享了可靈2.0和可圖2.0能力升級背後的技術創新。

可靈團隊為可靈2.0採用了全新設計的DiT架構，這提升了其視覺、文字模態的資訊融合能力。全新設計的VAE架構則使複雜動態場景下畫面的過度更順暢，質感更自然。同時，可靈團隊還首次系統性研究了視訊生成DiT架構的Scaling Law特性。

在模型訓練、推理策略方面，可靈2.0在後訓練階段利用了強化學習技術，這提升了其對複雜運動場景、主體互動的生成能力，也強化對運鏡語言、構圖術語等專業表達的理解與響應能力。

張迪透露，目前可靈平台上高達85%的視訊生成任務為圖生視訊任務。由此看來，更強的生圖能力也成為創作者所需工具。

此次可圖2.0的技術創新包括全新升級的文字表徵處理鏈路、全面升級的資料體系和多樣性以及全新的提示詞工程和去噪策略。

升級後的可圖2.0會深度思考使用者的提示詞，其逐步自適應的Diffusion去噪策略，可以最佳化出圖細節，提升影像品質。

面向視覺創作者，可靈還推出了視訊、圖像多模態編輯能力，這些能力基於可靈提出的視覺生成互動理念Multi-modal Visual Language（MVL）。

蓋坤介紹，可靈團隊發現，文字不足以向模型精準描述複雜動作、複雜表情等內容，可靈希望定義一種人與AI互動的全新語言，讓模型能更好地理解人的想像力。

利用MVL技術，創作者可以利用視訊、圖像、文字等多模態資訊，定義畫面內人物的長相、著裝、表情以及畫面背景等。

在這一過程中，文字扮演了語義骨架的作用，多模態描述子（MMW）能嵌入這一骨架，擴展描述的完備性、精準性。未來，可靈還計畫支援文字+MMW動作描述檔案，畫面角色的運動軌跡也能完全可控。

本次可靈AI 2.0的升級，不僅包括基礎大模型的能力提升，還有面向創作者日常生產流程的全端工具最佳化，蓋坤稱，可靈AI的願景是“讓每個人都能用AI講出好故事”。

日前，在快手2025財年電話會議上，快手集團高管也分享了類似的觀點，快手認為AI對其發展至關重要，將給予堅定、長期的投入，可靈會在技術升級的同時，進行全球市場和品牌營運活動。快手的目標是，將可靈打造為營收規模世界第一的AI視訊應用。 (智東西)