AI視訊突飛猛進這一年，國產之光可靈AI笑到最後

2024/12/31

•

這樣一張照片，是實拍還是AI生成？

2024最火AI爆款可靈，年末又捲了一波：

旗下文生圖模型——可圖，完成了1.5版本升級，分分鐘生成平面大片。

還推出了“AI模特”等全新功能。

搭配AI換裝（原AI試衣），奇蹟暖暖的快樂誰又懂了(doge）。

不得不說，上線半年，可靈AI不僅在視訊生成賽道上引領全球風潮，產品體驗也越來越全面。

實際上，AI視訊被引爆的這一年，雖然笑在最前的是OpenAI的Sora，但論笑到最後笑得最好，可能非可靈AI莫屬。

在2024這一年裡，可靈率先成為了全球首個使用者可用的視訊生成大模型，並且在短短6個月已經歷10餘次迭代——平均每個月有兩次以上新動作。

AI視訊領域，都是被可靈AI支配的一年。

可靈AI上新「年末大禮包」

總結之前，我們還是先拆個箱，康康可靈AI準備的年終禮物，順帶實測一波~

第一樣就是全新上線的可圖1.5圖像模型。

這次主打「畫面質量」和「人像美感」再上新台階。

話不多說，我們打開可靈AI中文官網，點進AI圖片頁面，並切換到最新可圖1.5模型。

第一關當然是人像生成。為了上難度，我們特意丟給它一大堆攝影專業名詞：

一位身著紅色長裙的舞者，背對鏡頭，頭微微側轉至四分之三角度，柔和的聚光燈（暖光）灑在她的側臉上，凸顯出精緻的輪廓。她的裙襬隨風輕揚，周圍是飄散的紅色花瓣，彷彿在空中翩翩起舞。背景是一片深邃的黑暗，只有幾束冷光從側面投射，形成強烈的冷暖對比。舞者的手腕上戴著一串金色的手鏈，反射出微弱的光芒。大光圈拍攝，花瓣在空氣中呈現出動態模糊的效果，彷彿時間在這一刻凝固。

OMG，效果一出來，確實令人驚豔。（更像寫真而不是一眼AI）

擦亮雙眼又仔細對照一遍提示詞，幾乎100%還原了。

而且可以看到，整體構圖和光影很協調，畫面真實自然，很像大家生活中拍的藝術寫真。

五個字：美就完事了！

當然除了人像，我們也進一步考察了可圖1.5對更豐富的細節層次的掌控程度。

一座古老的江南水鎮，夜幕降臨，青石板路被細雨打濕，映出朦朧的倒影。一艘烏篷船靜靜停靠在石橋邊，船篷上覆蓋著斑駁的茅草，船內擺放著竹製茶几和青瓷茶具，透出古樸的韻味。船頭懸掛著一盞紙燈籠，散發出柔和的紅光，與水面上的倒影交相輝映。

很好，畫面感這不就來了。看來江南水鎮、青石板、烏篷船……這一連串細節也難不倒它，不僅色彩還原自然，而且層次感豐富。

一連串試玩下來，先給可圖1.5的“審美能力”蓋個章。

對了悄咪咪透露，以上生圖過程都是免費的，新使用者送了366個積分，一張圖竟然只消耗1積分。（玩的時候還驚了一下，一下子可以免費生成幾百張大片）

與此同時，我們也測了一波“AI模特”功能，目前主要看到電商&創意行銷以及網友整活兩種玩法。

先說整體印象，第一次接觸這個功能就發現操作非常簡單，幾乎人人都能立馬上手。

以電商場景舉例，我們可以直接選想要的模特類型（包括性別、年齡、膚色），並自由加入描述。

這裡要插一句，如果不知道如何描述，還能點選“推薦嘗試”，直接用範本或照著範本改。

多次嘗試後發現“AI模特”出圖非常穩定，搭配“AI換裝”後，感覺非常有希望取代需要店家花錢的真人實拍。

這還不算完，我們再疊一個buff——可靈圖生視訊能力。

讓模特轉身，展示身上服裝搭配。

可以看到，商品展示不用進棚就能分分鐘“拍攝”完成。

這下，從模特生成到商品動態視訊展示一站式搞定，直接省下了團隊、裝置、攝影棚和後期剪輯的成本。

順便一提，可靈AI這次還新增了尾幀生成能力，並升級了對口型功能。

前者指可靈1.5模型（圖生視訊）高品質模式下，已支援僅使用尾幀向前生成5秒或10秒的視訊（類似只給一個大結局，AI猜前情）。

後者指為了使人物配音更加生動自然，新增10款高品質音色，並加入了7種不同情感的選擇（包括高興、悲傷、憤怒等）。

看完上述新功能，網友們想要整活的心也是攔不住了。

好傢伙！馬斯克也愛上了東北大花。（bushi

皮衣老黃變身“皮草老黃”可還行。

總之大家已經在期待可靈AI的2025年了。

6個月迭代10餘次，可靈AI的“爆款”之路

可靈AI這波可以說是從年中捲到了年末。

從市場的角度觀察，儘管在2024年率先掀起視訊生成模型革新浪潮的，是OpenAI的Sora。

但若要論2024年AI視訊生成領域的最大贏家，可靈AI卻是當仁不讓的答案。

根據官方資料，7月份，可靈AI上線1個月，就有“超50萬人申請，開放給超30萬使用者使用，生成超700萬條短影片”。

截至12月10日，可靈AI使用者量已經超過600萬，累計生成超6500萬個視訊和超1.75億張圖片。

國內，從微信指數來看，在6月份可靈AI正式發佈之後，2024年下半年可靈AI熱度已經壓過了Sora，僅在OpenAI“雙12”期間，Sora終於落地兌現之時被短暫反超。

海外，根據Similarweb資料，截至9月24日，可靈AI總訪問量已達3370萬次。11月份最新資料則顯示，可靈AI單月總訪問量超過900萬，超過Runway的700萬和Pika的500萬，是視訊生成應用中當之無愧的“當紅炸子雞”。

此前，Stability AI前CEO Emad Mostaque也曾感嘆：中國AI視訊生成這次已經遙遙領先。

事實上，儘管發佈晚了4個月，可靈AI卻是第一個真正做到讓視訊生成新範式大餅落地、人人可用的AI視訊生成產品，也從一開始就奠定了最前沿技術實實在在產品化、商業化的基調：

6月6日，文生視訊功能“上線即可用”。

7月6日，WAIC 2024上，可靈AI Web端在千呼萬喚中火速上線，現場氛圍被認為“可能是本屆WAIC上歡呼最多的一場發佈”。

7月底，可靈AI全面開放內測，並面向全球上線會員體系。到了8月23日，OpenAPI也上線推出，開啟B端合作。

在2024年第三季度業績電話會上，快手CEO程一笑透露：

目前可靈AI的商業化單月流水超千萬人民幣，進展符合我們的預期，未來我們還將探索更多元的變現模式，我們有信心在明年實現可靈收入規模的快速增長。

所以，回顧過去6個月，可靈AI“爆款”之路如何進階？核心關鍵詞已經逐漸清晰：

快速、可用。

具體可以分為幾個方面來看。

產品功能

首先，是產品功能的快速完善，和產品矩陣的穩步搭建。

6月6日發佈即上線，可靈AI就支援生成2分鐘、30fps的視訊，並且支援多種寬高比。

15天之後，可靈AI正式推出“圖生視訊”功能，並行布業內領先的“視訊續寫”功能。

值得一提的是，圖生視訊功能擁有很強的逼近世界運行規律的能力，還表現出了很強的泛化能力。

比如水墨畫這樣的資料其實在可靈訓練過程中接觸非常少，但加上簡單的提示詞，可靈就能讓水墨畫中的動物自然、真實地運動起來。

7月6日，可靈AI Web端上線，進一步把視訊生成、圖像生成和編輯服務一站式化。

7月下旬，英文Web端KingAI.com面向全球發佈，也標誌著可靈成為首個全球使用者可用的真實影像級視訊生成大模型。

時間來到9月份，可靈AI依然更新不斷：

“運動筆刷”功能上線即爆火，在𝕏等社交平台上刷屏。

還推出了“對口型”等功能。

11月，可靈AI推出獨立APP，形成多端跨平台產品矩陣。

同時繼續在功能上解決AI視訊生成痛點：AI定製模型（人臉模型）上線，攻克人物一致性難題。

基礎模型能力

從技術角度值得關注的是，支撐產品快速進化的，是可靈AI團隊堅實的基礎模型能力。

6月上線的版本，是基於可靈1.0模型。Web端上線時，就已迎來基礎模型的升級，包括畫質提升：

生成時長擴展到一次10s，以及首尾幀控制和鏡頭控制等可控性升級。

9月19日，也就是可靈上線第3個月，可靈1.5模型推出。在快手內部測評中，1.5版本相比於1.0，整體效果提升了95%。

具體而言，相較於可靈1.0，可靈1.5模型在提示詞理解、物理規律、畫面動態質量上均有提升。

比如對“一個中國女孩緩慢看向鏡頭，背景是模糊的城市夜景，主角被正前方的人工光源照亮，強調出面部輪廓，鏡頭緩慢地移動到主角的面部上”這段提示詞，可靈1.0效果是這樣的：

而1.5明顯在光線、構圖、空間規律上都呈現出更高的生成質量。

就在12月19日，可靈基座模型再次升級，1.6版本模型現已上線。

3個月左右一個大版本更新的同時，從可靈AI團隊公開發表的一系列論文中，也可以一窺其技術積累。

比如和中科大、北京大學聯合發表的《Towards Precise Scaling Laws for Video Diffusion Transformers》，探索了Scaling Law在視訊生成模型中的精準建模，率先提出新的Scaling Law，以實現視訊擴散模型中，對模型大小和最佳超參數的精準預測和計算。