「這可能是你現在能用上的，最好的文生視頻產品」

2024/06/14

•

AI 生成影片這件事因為Sora 的出現而被吊足了胃口。但因為遲遲沒有多少人真的能用上，也沒有足夠好卻易用的同類產品在之後出現，這股新鮮勁好像在最初的一鼓作氣之後，又慢慢洩了。

直到最近一位一直關注文生視訊產品的朋友拉我進了一個影片創作者的群組聊天。

這裡甚至有Sora 剛出來時候的那股興奮勁，這個人數迅速擴張的創作者群裡，每天有各種新生成的影片被不同的創作者陸續扔進來。一段瘋狂麥斯的飆車戲、一個關於健身者的採訪，甚至是一段「一個男人叫小帥」的電影剪輯惡搞——你能感覺到那種巨大的熱情。

——而當這種創作熱情和創意能夠透過一個產品被高完成度的表達出來時，創作者們的滿足感。

「用一句簡單而高級的話評價：這已經不像AI 畫的了。」

這個突然讓所有人興奮起來的文生視訊產品叫「可靈」，來自快手的研發團隊。而國內在AI 影片生成這件事上，好像終於真的來了一個值得注意的玩家。

幸運的人開始「整活」，還有一大堆排隊的

我想先給你們看，我看到了什麼。

實話說，目前的AI 能力已經可以滿足一般的宏大場景生成（不要太計較的話），但人物特寫往往是個大部分產品不會去碰的雷區。

原因首先是AI 的生成能力往往對物體邊緣的呈現效果不好（例如手指尖、彎曲的手肘、髮絲）。

再者，我們對自己了解的東西總是分外苛刻，畫面裡人物的表情有一點點不自然，或者皮膚的質地有微弱的失真，就很容易被發現。展現AI 生成能力，如無必要不用這麼搬石頭砸自己的腳。

但有說一，我看了一遍視頻，又退出來看了一遍內容描述，才確定——這真不是真人拍攝......

髮絲被風吹動的反應，紅色長袍在邊緣的擺動，畫面中女人的神情，塑造出了一個非常接近真實場景的氛圍。

也是類似的沙漠場景，另一位創作者把影片主角換成了一輛車，靈感是瘋狂麥斯。

沙漠場面在文生影片的展示裡屢見不鮮，畫面大差不差的情況下，差別就在細節了。

對揚沙的表現讓人印象深刻。

影片裡的皮卡車從多個「機位」駛過，車子、道路和路邊的房屋都可以算是主角，揚沙卻是內容創作者最難用Prompt 照顧到的東西，換句話說，揚沙的表現一定程度上表現了「可靈」自身的素質。

這個影片裡對側拍或正面視角時候車背後的揚沙，以及賽車手下車時靴子周圍的煙塵. 都已經非常逼真。一輛快報廢的雪佛蘭El Camino SS 真的進到沙漠，身後大概也就是這副樣子了。

還有很多。例如另一個採茶的片段。

無論是遠景時對茶樹細節的展現，或是特寫時茶葉邊緣和採茶老人手指邊緣的處理表現都可以算是優異。

老實說，當AI 離開沙漠飆車這種獵奇的場景，開始安靜下來展現你生活周圍最熟悉的場景，這感覺反而更讓人有點不寒而慄。

不過天馬行空的創作者對「可靈」的期待遠不止於此。

一位創作者嘗試用「可靈」來實現一個無限場景之間的穿梭。

也有腦洞大的創作者嘗試用「可靈」來做「這個男人叫小帥」風格的電影剪輯影片。

怎麼說呢，一年前好萊塢的編劇們開始下定決心未來要與AI 一同工作，轉眼一年後搞電影二創從業者們也要開始習慣與AI 同行了。

作品中的劇情足夠起伏，不同鏡頭之間的轉場又足夠絲滑，放在真實的影視作品二創作品中足以亂真。而更詭異的地方在於，這種電影剪輯視頻，甚至只需要一個腳本，而不需要有一部完整的電影在前。

而至少現在看來，已經有人可以用「可靈」生成非常有電影質感的短片了。

或許等AI 的生成能力再上一個台階，以後丟給他一個3 分鐘的電影剪輯影片或短片，它能夠還給你一部完整的電影？

扯遠了... 但至少現在「可靈」已經足夠讓人興奮，並且誰也不知道它目前的上限在哪裡。甚至創作者們自發性的組織了一個文檔，以便在各個維度對「可靈」做新的嘗試和交流。

雖然粗暴，但交通事故、打架確實是測試模型對複雜事件、多人互動下物理表現的足夠有說服力的場景...

「可靈」對人物群像和雨天的結合場景，表現的也不錯。

這個測試影片讓人印像很深。見慣了Prompt 指哪兒打哪兒，但少見讓AI 去扮演第三人稱的角色，在非標準視角下去構建一個畫中畫的場景。

不過後來我才知道，聚在這群裡的是最幸運的一群人。因為他們中的大多數人最早拿到了內測機會——甚至好多人把排隊排到了社交平台X 上。

「如何獲得它！」

一位Youtube 作品觀看次數達到5 億次的影片製作人在X 上「大聲疾呼」。

X 用戶@Proper 甚至為了能拿到「可靈」的內測機會，用別的文生圖產品做了一張「為了用『可靈』我願意做任何事」的海報。

也倒不奇怪，「可靈」在6 月6 日上線之後，很快就因為驚豔的素質進入了大量關注文生視頻產品的人的視線，比如YC 創始人Garry Tan。

在X 上非常活躍的Garry Tan 前幾天轉發了一個幾秒鐘的影片——一個戴眼鏡的小男孩正在大口吃著漢堡，大口咬下去的時候眼睛會用力的閉起來，再睜開眼的時候，已經咬的滿嘴都是。

「Oh man this is me.（天哪，這就是我！）」

Garry Tan 被這個影片驚艷到了，而這個作品就是由「可靈」生成的。

事實上，「可靈」上線到現在，已經在海外吸引了創作者關注。目前推特平台上單篇貼文閱讀量已經超過600 萬，按讚1 萬+；youtube 影片最高播放量2.6 萬次。

這樣一個在國內和海外難得的獲得了共識的文生視頻產品，背後是什麼？

「可靈」是如何長成的？

對於快手的研發團隊來說，要在這場文生影片的產品競爭中脫穎而出，意味著「可靈」需要擺脫影像產生+時序模組的組合，走向一條更原生的文生影片路線，這又進一步變成了三個需要尋找的核心答案：

一條合適的技術路線、訓練效率的保證以及如何為「可靈」未來的進化留出成長空間。

在技術路線上，「可靈」大模型採用了類Sora 的DiT 結構，這是將Transformer 技術應用於擴散過程的新型架構。在傳統的擴散模型中，U-Net 通常基於卷積網絡構建，而“可靈”則用Transformer 取代了這一部分，這一改變帶來了幾個顯著的技術優勢。

首先，Transformer 架構因其自註意力機制，能夠更靈活地處理長距離依賴關係，這使得「可靈」在處理複雜資料結構時，如視訊和影像序列，具有更強的表達能力。其次，與U-Net 相比，Transformer 提供了更好的擴展性，讓模型更有效率地處理大規模資料集，同時提高了模型的收斂速度。

此外，「可靈」大模型也對隱空間編/解碼和時序建模進行了最佳化。透過3D VAE 網絡，模型實現了對視訊資料的時空壓縮，減少了資訊冗餘，同時保持了較高的重建品質。而全注意力機制的引入，進一步提升了模型對複雜時空動態的捕捉能力，確保了在維持運算效率的同時，增強了模型的預測與生成效能。

「可靈」對揚沙、水流的理解正得益於這種自研模型架構及Scaling Law 所帶來的強大建模能力。

在追求訓練效率的過程中，「可靈」大模型並未遵循業界普遍採用的DDPM（Denoising Diffusion Probabilistic Models）方案，而是選擇了flow 模型作為其擴散模型的基礎。這種模型擁有更簡潔的傳輸路徑，從而提高了運算效率。

快手大模型團隊透過使用分散式訓練集群，結合算子優化和重算策略的改進，顯著提升了硬體的利用率。這種優化策略不僅提升了訓練效率，也使得資源得到了更合理的分配。

而在訓練策略上，「可靈」大模型採取了分階段的方法來逐步提高輸出的解析度。在訓練的初級階段，模型著重於透過大量資料來增強對概念多樣性的理解，而這一階段的目標是透過數量來提升模型的學習和建模能力。

隨著訓練的深入，進入高解析度階段，資料的品質變得特別關鍵。在這一階段，模型的訓練重點轉向提升性能和增強細節表現，以確保生成的圖像或影片在細節上更加豐富和精確。

透過這種分階段的訓練策略，「可靈」大模型能夠在訓練的每個階段都實現最佳化和提升，有效結合了資料量和資料質的優勢。

而由於目前的「可靈」大模型仍在一個早期的階段，因此模型訓練中的另一個困難是需要為「可靈」留出足夠的成長空間，也就是足夠的擴展性來應對未來更複雜的需求。

快手大模型團隊在基礎模型研發的基礎上，進一步擴展了其多維度能力，其中長寬比的處理是關鍵之一。

有別於主流模式通常在固定解析度上進行訓練，「可靈」採用了一種更為靈活的方法。這種方法避免了傳統訓練方式中因前處理邏輯而對原始資料構圖造成的破壞，從而在處理真實世界中多變的長寬比資料時，能夠保留資料的原始構圖，產生更優質的構圖結果。

為了滿足未來對影片生成時長的需求，團隊還開發了一個基於自回歸的視訊時序拓展方案。此方案能夠應對數分鐘甚至更長的影片內容生成，同時保持生成效果的穩定性，避免出現明顯的品質退化。

此外，「可靈」不僅限於文字輸入，它還支援多種控制資訊的輸入，包括相機運鏡、幀率、邊緣、關鍵點、深度等。這些控制資訊的引入，大大豐富了使用者對生成內容的控制能力，使得「可靈」能夠更精準地響應用戶的創作意圖，產生符合預期的影片內容。

「可靈」有別於其他文生視訊產品的地方，是背後快手的研發團隊在模型研發過程中有一個明確的使用者視角。

用戶在可見的未來會對一款文生視訊產品有哪些使用上的需求和習慣，這一定程度上決定了「可靈」的成長路線。這也是為什麼「可靈」在第一個版本的體驗上就顯得趁手，引起巨大的使用熱情。

而快手做AI 產品的決心，就藏在這番創作者的熱鬧裡。

快手的決心

「即使遇到各種各樣的問題，可靈仍然是目前普通人能用到的，最好的AI 視訊產品」——這是相當一部分人在上手可靈之後的評價。

這聽起來很矛盾，但話裡卻顯示著目前文生視訊產品普遍存在的問題。

隨著Sora 掀起生成式AI 從文生圖轉向文生影片轉向，大量類Sora 產品湧現。一番景像看起來很美，但落到實處，從模型對文字的理解能力、對物理規律的理解能力，到視頻的生產效率，甚至像空頭支票一樣的內測通過週期都會成為問題。文生影片這個熱鬧的賽道，在幾個月後逐漸變成一場在發布會與PPT 層面對標Sora 的盛宴，卻在實際使用體驗上荒蕪一片。

甚至Sora 本身也沒有逃離這個問題——人人都在為Sora 叫好，卻幾乎沒有人用過Sora。

在第一批「可靈」的使用者中，另一個值得一提的是傅盛用「可靈」直接「復刻」Sora 氣球人的視頻，從最終視頻的效果來看，「可靈」的複刻版本在一些細節上離Sora 放出的宣傳片仍有差距，但至少你已經可以花幾十分鐘用“可靈”搓出這個還不夠完美的版本，而Sora 的氣球人到現在仍然只是一個宣傳影片。

目前「可靈」文生視訊模型已經在快影APP 中正式開啟邀測，目前開放的版本支援720P 影片生成，豎版影片產生能力也即將開放。除了文生視頻，快手還基於可靈大模型推出了其他應用，如“AI 舞王”已在快手和快影APP 中上線。

保證模型在一定水準之上，然後盡可能讓大家先玩起來——這或許是「可靈」與同類型產品之間在體驗上最大的差異點。

6 月6 日，快手首次向外界釋出了「可靈」AI 影片大模型。當天是快手13 歲的生日，這足見快手對「可靈」的重視。

讓所有人先玩起來，則是務實的快手在13 年後面對這場全新的AI 變革時所下的決心。(極客公園)