OpenAI深夜發布首個文生視訊模型Sora,現實將被徹底顛覆



2月16日凌晨,OpenAI再次拋出一枚深水炸彈,發布了首個文生視頻模型Sora。據介紹,Sora可以直接輸出長達60秒的視頻,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。

目前官網上已經更新了48個影片demo,在這些demo中,Sora不僅能準確呈現細節,還能能理解物體在物理世界中的存在,並產生具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有影片中的缺失影格來產生影片。

例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標誌的街道上。

在Sora生成的影片裡,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。

另一個Prompt則是,一隻貓試圖叫醒熟睡的主人,要求吃早餐,主人試圖忽略這隻貓,但貓嘗試了新招,最終主人從枕頭下拿出藏起來的零食,讓貓自己再多待一會兒。在這個AI生成影片裡,貓甚至都學會了踩奶,對主人鼻頭的觸碰甚至都是輕輕的,接近物理世界裡貓的真實反應。

Sora產生的影片截圖,圖片來源:OpenAI官網


OpenAI表示,他們正在教導AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。

隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。 Sora使用了Transformer架構,有極強的擴充性。

視訊和圖像是被稱為「補丁」的較小資料單位集合,每個「補丁」都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。

Sora是基於過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練資料產生高描述性的標註,因此模型能更好的遵循文字指令。

一位YouTube部落客Paddy Galloway發表了對Sora的感想,他表示內容創作產業已經永遠的改變了,而且毫不誇張。 「我進入YouTube世界已經15年時間,但OpenAI剛剛的展示讓我無言…動畫師/3D藝術家們有麻煩了,素材網站將變得無關緊要,任何人都可以無壁壘獲得難以置信的產品,內容背後的'想法'和故事將變得更加重要。”

但Sora模型目前也存在弱點。 OpenAI稱它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係。例如,一個人可能咬了一口餅乾後,餅乾會沒有咬痕,玻璃破碎的物理過程也可能無法被準確呈現。


眼見不再為憑! OpenAI發布最強文生影片模型Sora


騰訊科技訊2月16日消息,根據外媒報道,人工智慧新創公司OpenAI的聊天機器人ChatGPT已經證明,它不用上法學院就能通過律師考試。現在,他們又帶來了新的驚喜Sora,這款應用程式試圖證明它能在無需上電影學院的情況下,就能創作出電影級的影片。

作為研究產品,OpenAI將首先向少數精心挑選的創作者和安全專家發布Sora,以進行紅隊檢查,並揭示其潛在的安全漏洞。雖然OpenAI尚未確定向所有導演愛好者發布的具體日期,但他們決定提前預覽這款產品的功能。

目前,多家公司,包括科技巨頭Google和新創公司Runway等,都在積極開發文生影片的人工智慧專案。然而,OpenAI強調,Sora的突出之處在於其影像的真實感,這在競爭對手的產品中尚未看到。更令人驚訝的是,Sora能夠產生比其他模型更長的影片片段,最長可達一分鐘。雖然研究人員對於生成影片所需的時間保持神秘,但他們暗示,這更像是一次短暫的「墨西哥捲餅」之旅,而非數日的漫長等待。

OpenAI並未允許我們自由輸入提示,但他們分享了幾個Sora出色表現的實例。其中一個設定聽起來像是一位狂熱編劇的構想:「美麗的、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位上購物。絢麗的櫻花花瓣和雪花一起在風中飛舞。”

結果令人嘆為觀止,彷彿我們真的看到了現實中的東京。這個虛擬攝影機就像安裝在無人機上一樣,靈活捕捉了一對夫婦在街景中漫步的畫面。畫面中,一個路人戴著口罩,汽車在他們左邊的河邊路上駛過,而右邊的小商店裡顧客絡繹不絕。

儘管這段影片並非完美無缺,但只有在仔細觀察多次後,你才會發現一處微妙的瑕疵。如果虛擬攝影機一直拍攝下去,那麼在人行道上散步的夫婦將面臨一個難題。他們所在的人行道似乎是個死胡同,必須跨過旁邊一個小護欄,走到右邊一條平行的人行道上。

儘管存在這類瑕疵,但東京的例子仍展現了Sora在世界建設方面的巨大潛力。接下來,製作設計師們可能會對Sora是否是一個強大的合作夥伴或是一個工作殺手展開激烈討論。此外,影片中的人物完全由數位神經網路生成,沒有特寫鏡頭,也沒有傳達出任何情緒。然而,Sora團隊表示,在其他情況下,他們也能讓虛擬演員展現真實的情感。