今年2 月OpenAI 發布Sora 後,投資人對視頻生成模型的判斷更趨割裂:有人認為,OpenAI 已碾壓其他公司,創業機會不再;另一派觀點是,Sora 證明視頻生成模型路線清晰、成果可複製,反而會給更多公司機會。
樂觀者已用錢做出了選擇。 《晚點LatePost》獨家獲悉,螞蟻集團已於近期獨家投資了中國視頻生成大模型公司愛詩科技的A2 輪,該輪金額超過1 億元人民幣。
接近螞蟻的人士說,螞蟻除自研大模型並落地應用外,也在持續關注行業的前瞻探索,圍繞大模型技術能力、產業應用和AI 算力等核心技術和生態,已陸續投資了智譜AI、月之暗面等大模型新創公司及專注多模態的生數科技等。
愛詩科技成立於2023 年4 月,目前團隊約有30 人,創辦人兼CEO 王長虎曾任字節跳動視覺技術負責人,在視訊理解、資料處理、內容安全和視訊生成等領域都有累積。
愛詩科技既做影片生成大模型,也做面向內容創作者和一般人的影片生成產品。
愛詩科技自稱為2023 年6 月以來就嘗試DiT(Diffusion Transformer)架構,這是一種2022 年底被提出的新型擴散模型,DiT 也被認為是Sora 背後的架構。
今年1 月,愛詩科技上線了影片產生產品PixVerse,用戶在PixVerse 網頁版介面輸入文字或圖片就能產生影片。目前PixVerse 產生的影片長度為4 秒。
根據第三方監測平台SimilarWeb 的數據,上線3 個月來,PixVerse 的月訪問量超過115 萬,上線早兩個月的Pika 是226 萬,去年中旬就可以產生18 秒視頻的Runway 的月訪問量則超過668 萬,該數據不包括Runway 在App 端的數據,大量Runway 用戶可能會直接使用App。目前PixVerse 和Pika 尚沒有App。
PixVerse 距離Runway 仍有較大差距,但網頁端訪問量與Pika 已在一個數量級。 PixVerse 的跳出率比Pika 和Runway 低10%,這可能指向更好的可用性。
在廣告、影視等領域,現在不少從業者已習慣先用Midjourney 產生圖片,再轉給PixVerse 產生影片。
Sora 激起了更多視訊模型和應用的競爭。
據了解,今年一季度,位元組AI 研發團隊提升了視訊生成模型的優先級,此前優先級最高的是大語言模型和文生圖模型。原Google 資深科學家蔣路在2 月加入位元組跳動,他曾是Google 影片生成模式VideoPoet 計畫的負責人。位元組先前已推出視訊生成模式MagicVideo-V2。
同樣在影片領域有數據和經驗累積的騰訊,在去年12 月和今年1 月分別發布了 AnimateZero 和VideoCrafter2 兩個模型。
阿里2020 年就在做多模態大模型,它在去年下半年發布了影片生成模型I2VGen-XL。
創業公司中,國內的視訊生成產品已有右腦科技的Vega AI、MewXAI 的藝映AI、HiDream.ai(智象未來)的Pixeling、新壹科技的一幀秒創,以及Never Ends 和Morph Studio等。
目前大部分的影片生成產品可以生成時長大多在4 到7 秒,而Sora 能一次生成60 秒影片。從發佈時展示的例子來看,Sora 產生的影片在畫面的運動平滑度、動作連續性、物理真實性和成像品質上都表現較好。
王長虎認為,15 秒的影片長度是個節點:15 秒意味著能呈現一套完整動作、傳達一段有意義的內容。要把影片長度從4 秒做到15 秒,考驗的是模型能力,包括理解提示指令(prompt)、模擬物理世界的規律、產生準確的畫面動作等等。具備產生15 秒影片的能力,就具備在更長時間的影片裡保證畫面主體和背景一致性的能力。從15 秒再到60 秒,按照Scaling Law 逐步擴大即可。
不少從業人員和投資人認為,Sora 之所以會表現出更強的能力,源自於背後OpenAI 的多模態模型GPT-4V,而GPT-4V 的能力又建立在GPT-4 的理解能力上,所以大語言模型能力強的公司,更有可能做好視訊生成模型等多模態模型。
Sora 雖然發布效果驚艷,卻至今仍未對更多開發者和一般用戶開放。這和OpenAI 以往的風格不同——從2020 年的GPT-3 開始,OpenAI 每發布一個產品,都會迅速讓更多人用起來。
Sora 的反常可能因為產品還不夠成熟。目前業界的訊息是,Sora 產生60 秒的影片需要20-30 分鐘,這意味著昂貴的運算成本,越多人用成本越高。也有人認為,Sora 生成影片的品質可能還不夠穩定,年初震撼世界的幾個影片可能是挑選後的最佳結果。
提高穩定性和效果的同時降低成本,也是所有視訊模型公司和試圖做影片生成的大語言模型公司接下來要解決的問題。
王長虎先前表示,如果去年有更多的資源和算力,愛詩科技可以比Sora 更早做出能生成60 秒影片的模型。現在,更多的錢已經到位。 (文丨王與桐 編輯丨程曼祺)
《晚點LatePost》獨家獲悉,原天圖資本VC 基金管理合夥人潘攀已於4 月初加入茶顏悅色,擔任該公司策略負責人。
1979 年出生的潘攀畢業於湖南大學金融學專業,2008 年進入私募股權基金國信弘盛從事投資業務,最高任投資副總監。 2013 年底,他加入天圖資本,並在五年後成為了天圖最年輕的合夥人。
在天圖期間,潘攀參與了百果園的投資。 2023 年1 月,這家在全國140 多座城市擁有超5600 家門市的水果零售企業成功登陸港交所,天圖資本在其上市時的帳面回報達1.29 倍。
相較於百果園,潘攀負責的另一個計畫奈雪的茶為天圖帶來了更高的回報。 2015 年,他在投資奈雪的茶時,這家茶飲品牌僅有兩家店。隨後促成了它與百果園、八馬茶葉的策略合作。 2021 年6 月奈雪的茶上市時,天圖資本持股11.18%,為佔股最大的機構投資人,此項目為天圖帶來超9 倍的帳面回報。
2018 年1 月,潘攀將目光聚焦在上過大學的湖南長沙,並投資了茶飲品牌茶顏悅色。目前,天圖資本對茶顏悅色佔股超14.54%,也是其最大的外部投資機構股東。
十年前成立的茶顏悅色擴張緩慢——長期只在長沙開店,直到2020 年底才在大本營長沙以外開出第一家店。據了解,目前茶顏悅色門市總數達600 多家且均為直營。相較之下,比它晚創立三年、擁有類似產品和市場定位的霸王茶姬,憑藉加盟模式快速擴張。根據官方數據,霸王茶姬在國內已開出4,150 家店;在馬來西亞、新加坡和泰國等地開出100 多家海外店。
2022 年,隨著中國新式茶飲產業競爭日益激烈,茶顏悅色明顯加快了發展節奏,並先後推出了鴛央咖啡(100+ 家門市)、古德墨檸(50+ 家門市)、小神閒茶館(20+ 家店)和晝夜詩酒茶·藝文小酒館(7 家店)四個子品牌。店型上,茶顏悅色也推出了重線下會員體驗的遊園會、茶葉鋪子和文化概念店。在長沙面積最大的一間茶顏悅色門店內,鴛央咖啡入駐在了佔地約500 平米左右的前廳,後院則開闢了一家為“小神閒” 的中式茶館。
一位茶顏悅色員工告訴《晚點LatePost》,他所在部門在過去一年擴招了30%,目前全公司員工人數已超6,500 人。
今年3 月,有媒體引述知情人士稱,茶顏悅色已經選定了中金公司和摩根士丹利負責香港IPO 事宜,最早可能在2024 年進行香港IPO,預計募集資金數億美元。 (晚點LatePost)