深扒Sora:一場投資過億的錄像暴力美學|Future


視訊模型「GPT」時刻來臨,新的大模型拉力賽開啟。


兩週前,Sora現世,在AI領域又投下一顆重磅炸彈。在示範影片中可以看到,Sora已經能產生含有多個角色進行特定運動複雜場景


Sora生成的視頻,圖源:OpenAI


OpenAI在技術報告中稱:“Sora這類視頻生成模型是世界的模擬器。Sora是能夠理解和模擬現實世界模型的基礎,我們相信這種能力將成為實現AGI的重要里程碑。”

也有人並不認同這種描述,Meta首席科學家Yann LeCun(楊立昆)認為:“僅根據文字提示生成逼真的視頻,並不代表模型理解了物理世界。”

Sora為何會形成如此驚豔的效果?我們透過研究技術報告、訪談多位行業人士後發現,Sora背後雖然並非採用了多石破天驚的技術路線,但在視頻模型技術路線尚未收斂的當前情況下,Sora達成的出色效果明顯降低了其他市場參與者在技術路線上的試誤成本,也在影片產生的設計邏輯等產品想法上提供了可參考的理念。

Sora會為業界帶來怎樣的劇變?接下來視訊模型產業又將如何把握這次的挑戰和機會?

「Sora給這個方向上的同行們指明了一條路,即Transformer也可以在視頻模態下表現出很好的湧現能力。」線性資本投資副總裁白則人向36氪表示。

他認為,這會推動其他視訊大模型公司加速研發節奏,迎來新的創業機會,開源技術接下來也會進一步發展。

對於更多人而言,Sora解鎖了對多模態影片大模型的新想像。OpenAI再次憑一己之力把多模態視訊大模型推向了新的高度。在此之前,影片領域,受制於技術難度和資料集等難題,一直未出現類似ChatGPT、Midjourney這樣的現象級產品。


Sora驚艷效果帶來的啟示:圖片+影片混合訓練

從產品細節來看,與其他同類模型相比,Sora生成的影片在長度、內容一致性、連貫性和解析度方面表現出明顯的優勢。


Sora生成的視頻,圖源:OpenAI


從目前OpenAI發布的demo效果中可以看到,在生成的一分鐘影片內,可以明顯感覺到影片中的場景伴隨鏡頭運動進行變化,並且保持內容一致性。

這是先前我們在使用Pika和Runway等視訊模型產品時很難體驗到的。例如,在《實測Pika1.0,砸了3.9億元,真實效果不如宣傳|產品觀察》中,我們發現Pika把靜態的圖片轉化成一段動態影片之後,影片中的人臉出現變形,且比照片顯示更虛一點。


以這張模特兒圖片為例,上傳照片給Pika,圖片來自IC photo


Pika基於上述圖片生成的動態視頻


影片生成能力相比文生圖,技術難度更複雜。AI生成影片工具不僅需要掌握基礎的自然語言理解能力,還需要在畫面流暢度、風格準確性、穩定性、一致性、動作連貫性等方面有較好的表現。

Sora做到了其他產品都沒實現的一分鐘時長。而從技術實現來看,要讓一個模型生成的影片從4秒延長到10秒,背後涉及的技術問題就極為複雜。

其中,有一個重要的考量維度是視訊生成邏輯問題:是image-to-video(圖像到視訊)路線,即先生成圖像,再由圖像生成視訊;還是video-native(視訊原聲)的設計概念,即把圖像和視訊進行統一編碼,混合訓練。

「如果選擇image-to-video(圖像到視頻)路線,用一幀一幀的圖像去組成視頻,比如先生成一個由32幀圖像構成的一個4s視頻,把這個視頻最後一幀畫面拿出來,作為下一個4s視頻的起點。這種方式理論上可以,但是過程中誤差會累計,且視頻生成涉及到內容連續性問題,讓問題變得更複雜。所以,最終第10s的畫面會和初始視頻相差甚遠。」智象未來CTO姚霆表示。

Pika曾在一次訪談中提到這種路線面臨的挑戰,「當影片很長時,確保每一幀都協調一致是個相當複雜的問題。在訓練時,處理視訊資料時要處理多張圖片,如何將100幀圖片傳輸到GPU上就是其中一個挑戰。而在推理時,由於涉及到生成大量幀,推理速度相對於單張圖片會更慢,計算成本也會增加。”

Sora採用了混合訓練的方式。在技​​術報告中,OpenAI提到,採用將圖片和影片混合訓練的方式以patch(視覺補丁)作為視訊數據,來訓練視訊模型。

姚霆認為,OpenAI採用的這種video-native的設計理念,把圖像作為單幀視頻很自然地加入模型的訓練,所以,Sora模型可以無縫切換為圖像生成模型,這會促使技術人員去重新思考影片生成的設計邏輯。

他提到:「這也給了我們啟發,從Sora效果中,我們看到,圖像和視頻的混合訓練很重要,如果缺失了這一點,很難達到這樣的高度。當然,這也證明OpenAI把技術架構之間耦合得很好。”


Sora生成的視頻,圖源:OpenAI


此外,對於Sora生成的影片中展示出的流暢運鏡畫面,也有人猜測,結合團隊有專職數位內容的工作者來看,Sora在訓練數據裡包含了3D渲染數據,讓它相比其他產品更擅長生成運鏡畫面,模擬3D視覺效果。

這些都是Sora驚豔的效果背後的一些產品設計細節。

驚艷之餘,另一個值得思考的問題是,雖然OpenAI把Sora稱為世界的模擬器,但從目前的效果也可以看到其中的限制。

「Sora未必真正的理解這個世界。」UCL計算機系教授汪軍告訴36氪。

他舉了一個例子,在現實的物理環境中,當一個玻璃瓶打碎時,會和其他物體的碰撞,這要符合物理規律現象。「如果Sora透過預測下一個token來產生視頻,如何建立一個真正符合邏輯和物理規律的世界模型就會成為一個挑戰,就像語言模型一樣,有些模型可能只關註生成人類可以理解的語言,但這並不意味著它們真正理解了物理邏輯。”


Sora的成功,是OpenAI暴力美學的再次勝利

OpenAI官網資訊可以看到,Sora團隊成立時間還未超過1年,核心團隊共有15人,成員中甚至還有00後。

Sora為何能在這麼短的時間內做到如此好的效果到現在都還是一團迷霧。在這次Sora技術部落格中,OpenAI也提到,不會分享技術細節,只提供了模型設計理念和demo視頻,按照OpenAI越來越不Open的路子來看,未來我們也無法得知更多技術有效資訊.

很多人都在探討Sora的技術路線。目前,主流的視訊模型框架有兩種:Diffusion model(擴散模型)和Auto-regressive model(自回歸模型),後者就是先前被許多人熟知的GPT模型。一直以來,視訊生成模型的主流模型框架一直都未像語言模型一樣收斂成一個確定性路線。


圖片由智象未來CTO姚霆製作

智象未來CTO姚霆告訴36氪,兩大路線的區別在於:「Diffusion model(擴散模型)基於擴散模型加噪去噪的機制可以更好地結構化,並產生較高質量畫質的視頻內容,而Auto-regressive model(自回歸模型)更適合長上下文語境理解,天然適配多模態對話的生成方式。”

在具體的技術實現中,兩大路線之下也會繼續衍生出不同的細分架構。例如,Diffusion模型路線之下,Gen-2、Pika就採用了U-net(卷積神經網路)架構,也有公司把U-net架構換成Transformer架構,採用DiT(Diffusion Transformer)架構。

Sora被認為就是採用了DiT的架構。這是目前市場的廣泛猜測,主要依據是2023年Sora研發負責人之一Bill Peebles與紐約大學助理教授謝賽寧曾發表的DiT(擴散Transformer)論文《Scalable Diffusion Models with Transformers》。

根據36氪了解,國內的多模態視訊模型新創公司愛詩科技在創立之初就選擇了這條路線,而另一家新創公司HiDream智象未來也採用了DiT架構。姚霆稱:“其實我們在圖像生成模型上已經自研驗證了一套成熟的DiT架構,相較於U-Net,DiT架構靈活度更高,且能增強圖像、視頻的生成質量。”

所以單從技術路線來看,Sora選擇的技術架構並不是多稀缺的選擇,只是早前各家視訊模型公司考量不同,選擇不同。

「技術路線Sora展示的資訊中並沒有很特別的東西。OpenAI肯定有自己獨特的訓練方法。」汪軍告訴 36氪。

他提到,「透過大規模的訓練,使得能夠利用海量的數據和計算資源,將工程方面做得非常出色,在我看來,算力和數據尚未到上限,還有進一步發展的空間,可以進一步挖掘數據潛力,在文本、圖像甚至視頻上進行更深入地處理,將模型能力提升至新的高度。”

所以,雖然沒有進行底層技術路線創新,但OpenAI的強大之處在於,在這個路線上不斷實踐大算力、大數據的暴力美學——通過大力出奇蹟的方式,依靠細緻的工程化創新,推進模型湧現能力的持續優化。

OpenAI在報告中提到:我們的結果表明,擴展視訊生成模型是構建物理世界通用模擬器的一條有前途的途徑——「在相同的樣本下,隨著訓練計算規模的增加,視訊品質顯著提高,也會表現出許多有趣的新興功能,使Sora能夠模擬現實世界中人、動物和環境的某些方面。”

此外,OpenAI也在論文中提到Sora也結合了GPT等產品能力。

姚霆認為,Sora強大建立在過去對DALL-E和GPT模型的研究之上。「Sora是OpenAI整合自己語言(GPT)、視覺理解(GPT4-V)和圖像生成(DALL-E)多種能力的一個出口,它使用DALL·E 3的重述提示詞技術,為視覺訓練數據產生高度描述性的標註,因此能夠更忠實地遵循使用者的文字指令。”

目前,關於Sora參數量、訓練資料的各種猜測甚囂塵上,出入也很大,有人猜Sora的模型參數規模是百億級別,訓練成本是千萬美元級別,也有人覺得參數規模可能只有3B,但數據標註成本不低,更有人認為Sora的推理算力需求是GPT-4的1000倍以上。

出門問創辦人李志飛稱,Sora用的訓練資料可能是數百萬小時:「一般影片的解析度超過128*128,最終的Tokens量應該至少是十萬億等級。如果Sora用了500萬小時視訊資料訓練,那它使用的資料量大約相當於Youtube上9天的資料產出量。”

參數和數據量只是模型的其中一個方面,相比文本模型而言,視頻模型的數據複雜度更高,維度更多,優質數據來源更少,數據標註難題更大,這些都是視頻模型公司在具體模型訓練中所面臨的工程化難題。

此刻,對於其他視訊大模型公司而言,Sora驚豔的能力一方面驗證了DiT架構,減少了在技術架構選擇上的試錯成本,能更快往前發展,另一方面,他們也需要面對更有挑戰性的現實難題——在沒有OpenAI那樣強大的人才和算力儲備下,如何加強演算法、資料等各環節的工程化能力來追趕Sora。


國內視訊模型公司如何把握機會?

在Sora發布之後,有人悲觀,認為:「Sora出現,其他視頻公司都歇菜了」「國內外差距被進一步拉大」;也有人在剖析了更多細節之後認為視頻模型的機會在被Sora激發之後,會迎來全新的發展空間。

一方面,Sora的技術路線有借鏡意義,能夠讓其他公司避免路線搖擺,加速進行產品,另一方面Sora帶動市場更受關注之後,會吸引更多的人才、算力、數據、資金,迎來新的創業機會。

從Sora目前的進展可以看出,尚未實現即時更新,等待影片產生的時間也比較漫長。這意味著,Sora尚未經歷ChatGPT這樣大規模用戶的運行考驗,其模型的計算資源和最佳化程度尚未達到理想狀態,還需要時間進行繼續迭代。這給其他公司留下了時間和空間。

根據Reddit社群上的網友爆料,OpenAI在展示Sora功能時,主要使用了預先選擇的示例,並未允許公眾通過自定義提示詞來生成視頻,且生成一個1分鐘的視頻,Sora需要超過1個小時的渲染時間。

愛詩科技的創辦人王長虎稱,在他看來,目前Sora的技術發展相當於在GPT2和GPT3之間,還沒到GPT4的水平,留給市場的空間很大。

線性資本投資副總裁白則人告訴36氪:「模型的發展會加速催生更繁榮的上層應用,帶來更多的應用創新機會,其中包括視頻模型方向,也包括結合多模態的應用場景。但如何做出差異和建立長期護城河,是產品層創業公司一直面臨的挑戰,創業團隊更需要關注模型之外的壁壘建立,更回歸產品體驗、應用場景和商業本質。

市場進展方面,中國許多企業也早有佈局。首先,大廠在視訊領域的動作不斷,基本上在推進語言模型業務的同時也佈局了視訊模型業務:

  • 字節旗下剪映最近動作頻頻,目前,剪映已經在邀請一些部落客內測旗下AI創作平台Dreamina的影片產生功能。
  • 阿里通義實驗室目前開發了開源視訊生成模型和程式碼系列VGen。去年年底,阿里發布了最新AI應用:Animate Anyone,可以根據一張人物照片,產生人體動畫影片。
  • 百度在年初推出了一款影片生成模型UniVG,能夠處理各種文字和圖像的組合輸入。
  • 騰訊在2023年12月與北大和香港科技大學聯合發布了視頻生成模型AnimateZero,並在今年發布了一個可以提升視頻質量的視頻處理工具VideoCrafter2。

相較於算力和人才儲備的大廠,新創公司面臨的挑戰更大,但也並非沒有機會。根據36氪了解,目前智象未來HiDream.AI、愛詩科技、HeyGen、生數科技、右腦科技等新創公司,都已經預先佈置好影片大模型的業務。有別於上一波語言模型的國內國外各自地盤發展的情況,在視頻模型領域,像愛詩科技等公司在早期就瞄準了海外市場,相當於與Sora在一個市場展開競爭。

有不少行業大佬已經入局。愛詩科技的創辦人王長虎曾任字節跳動視覺技術負責人,主導了抖音和TikTok等產品,以及字節跳動視覺大模型從0到1的建設;智象未來HiDream.AI創始人梅濤曾任京東集團副總裁、微軟研究院資深研究員;生數科技則由清華人工智慧研究院副院長朱軍教授帶領,核心成員來自清華大學人工智慧研究院。

所以綜合目前國內視訊模型公司進展來看,接下來,大廠和新創公司都會陸續加大投入,產業的競爭會進一步加劇。而大廠的優勢在於,在人才、資金、算力上有原始積累,並且有數據和場景,而新創公司則可以利用自身快速敏捷的作戰模式,加速模型和產品迭代,把握產品層的創新機會。

此外,在商業化路徑上,由於Sora並未像ChatGPT一樣開放公測,所以現在也無從看到清晰的商業模式,但從OpenAI釋放的訊號來看,可能依舊是以通用模型為核心。

但對中國新創公司而言,在算力成本、資料訓練等多重壓力下,在商業化過程中也會較早面臨路線選擇。

未來,視訊模型新創公司在不斷發展之後也將出現不同的分野:一條是不斷增強基礎模型能力,打造C端產品路線,例如愛詩科技就選擇了這條路,根據海外流量檢測網站similarweb.com ,目前愛詩海外產品PixVerse月訪問量增長迅猛,已經超過百萬;另一條是瞄準特定的場景進行訓練,打造專門的視頻模型,早日跑通某個B端場景的商業化閉環。

姚霆認為,影片生成賽道,對於新創公司而言,需要在早期就思考產品如何構建,從中尋找差異化的機會。「目前,視訊生產還處於單鏡頭階段,未來,如果要生產一個短視頻或短劇,視頻生產流程需要考慮多鏡頭、分鏡、故事邏輯等各類問題,這些產品問題都要前置考慮。 」

技術、產品、商業化,每一處都內含成千上萬個待解決的細節問題,2024年接下來的時間,對每一家視頻大模型而言,都是一場硬仗。(智能湧現)