基礎模型+創作工具全端升級,可靈AI 2.0究竟有何不同?
智東西4月15日報導,就在剛剛,可靈AI面向全球正式發佈可靈2.0視訊生成模型及可圖2.0圖像生成模型,繼續大幅領先業內前沿模型。可靈2.0在文生視訊領域較OpenAI Sora實現367%的勝負比,在圖生視訊領域較GoogleVeo2實現了182%的勝負比。
與可靈1.6相比,可靈2.0模型在動態質量、語義響應、畫面美學等維度有明顯進步。在下方案例中,可靈2.0精準呈現了日光從清晨到正午再到傍晚的變化,還使用了延時攝影的風格。
可圖2.0模型在指令遵循、電影質感及藝術風格表現等方面顯著提升,色彩和光影更為高級,情緒表達更具感染力,並新增了60余種風格化效果。
在本次2.0模型迭代中,可靈AI還正式發佈AI視訊生成的全新互動理念Multi-modal Visual Language(MVL),讓使用者能夠利用圖像參考、視訊片段等多模態資訊,將腦海中的複雜創意直接高效地傳達給AI,或是對視訊、圖像等多模內容進行編輯。
使用者可以將視訊、圖片等作為元素上傳,並直接將其嵌入至提示詞中。這些元素能在畫面內以合乎邏輯的方式組合,進一步提升畫面的可控性。
可靈2.0系列模型發佈即上線,使用者現在已經可以在可靈AI官網和App內免費體驗其生成效果。
體驗連結:https://klingai.com/cn/
快手高級副總裁、社區科學線負責人蓋坤介紹,自去年6月發佈以來,可靈AI已累計完成超20次迭代。截至目前,可靈AI全球使用者規模突破2200萬,過去的10個月裡,其月活使用者量增長25倍,累計生成超過1.68億個視訊及3.44億張圖片。
然而,現有的視訊生成模型仍存在語義遵循能力差、動態質量不佳等問題,妨礙了創作者表達、控制生成結果的能力。可靈AI全系模型進行的本次升級,正是為瞭解決這些問題。
據快手副總裁、可靈AI負責人張迪介紹,可靈2.0的升級主要有三方面:語義響應、動態質量與畫面美學。
升級後的可靈2.0可以更準確地反映人物表情、動作的變化,動作的豐富度、真實性有明顯提升。在下方案例中,可靈2.0為準確描繪了提示詞中“手錘桌子起身”的效果,而可靈1.6並沒有完全還原。
可靈2.0也告別了視訊生成模型的通病——運動速度不合理。在下方馬飛速奔馳的畫面中,可靈2.0的生成結果不再是慢動作,鏡頭表現更加真實。可靈團隊還對其生成畫面的複雜動作、動作幅度進行最佳化。
生成大片感的畫面對可靈2.0來說也不是問題。下方這一畫面中,無論是人物奔跑的動作,還是後方爆炸的效果,都十分逼真,角色演繹生動。
可靈2.0對時間的理解能力提升,能幫助創作者生成更連貫、更具有故事性、延續性的畫面。
圖像生成模型可圖2.0的升級同樣是在指令遵循方面。下方這一案例的提示詞中具有“伺服電機”、“機械女神”、“壁畫”、“拉斐爾《雅典學院》的古典平衡感”等諸多要素,可圖2.0的生成結果很好地還原了相關要素,
可圖2.0能更好地展現提示詞中對於色彩、光影的表述,對人物情緒的呈現更具感染力。下方4張圖片均為可圖2.0的生成結果,若未經提示,或許許多人都會認為這是某部電影的截圖。
張迪在發佈會現場分享了可靈2.0和可圖2.0能力升級背後的技術創新。
可靈團隊為可靈2.0採用了全新設計的DiT架構,這提升了其視覺、文字模態的資訊融合能力。全新設計的VAE架構則使複雜動態場景下畫面的過度更順暢,質感更自然。同時,可靈團隊還首次系統性研究了視訊生成DiT架構的Scaling Law特性。
在模型訓練、推理策略方面,可靈2.0在後訓練階段利用了強化學習技術,這提升了其對複雜運動場景、主體互動的生成能力,也強化對運鏡語言、構圖術語等專業表達的理解與響應能力。
張迪透露,目前可靈平台上高達85%的視訊生成任務為圖生視訊任務。由此看來,更強的生圖能力也成為創作者所需工具。
此次可圖2.0的技術創新包括全新升級的文字表徵處理鏈路、全面升級的資料體系和多樣性以及全新的提示詞工程和去噪策略。
升級後的可圖2.0會深度思考使用者的提示詞,其逐步自適應的Diffusion去噪策略,可以最佳化出圖細節,提升影像品質。
面向視覺創作者,可靈還推出了視訊、圖像多模態編輯能力,這些能力基於可靈提出的視覺生成互動理念Multi-modal Visual Language(MVL)。
蓋坤介紹,可靈團隊發現,文字不足以向模型精準描述複雜動作、複雜表情等內容,可靈希望定義一種人與AI互動的全新語言,讓模型能更好地理解人的想像力。
利用MVL技術,創作者可以利用視訊、圖像、文字等多模態資訊,定義畫面內人物的長相、著裝、表情以及畫面背景等。
在這一過程中,文字扮演了語義骨架的作用,多模態描述子(MMW)能嵌入這一骨架,擴展描述的完備性、精準性。未來,可靈還計畫支援文字+MMW動作描述檔案,畫面角色的運動軌跡也能完全可控。
本次可靈AI 2.0的升級,不僅包括基礎大模型的能力提升,還有面向創作者日常生產流程的全端工具最佳化,蓋坤稱,可靈AI的願景是“讓每個人都能用AI講出好故事”。
日前,在快手2025財年電話會議上,快手集團高管也分享了類似的觀點,快手認為AI對其發展至關重要,將給予堅定、長期的投入,可靈會在技術升級的同時,進行全球市場和品牌營運活動。快手的目標是,將可靈打造為營收規模世界第一的AI視訊應用。 (智東西)