視訊生成迎來“GPT-3.5時刻”。
智東西10月1日報導,今日凌晨,OpenAI發佈了旗艦視訊和音訊生成模型Sora 2,並推出“AI版抖音”——Sora應用程式。
OpenAI將Sora 2稱作“正直奔視訊領域的GPT-3.5時刻”。相比之前的Sora,Sora 2能更加精準逼真地模擬物理世界,並且更易於控制,還支援同步對話和音效。
從官方公佈的視訊Demo來看,它可以完成一些對於之前的視訊生成模型難以完成的事情:奧運會體操動作、精準模擬浮力和槳板上後空翻,以及花滑運動員頭頂貓咪的三周半跳。
Sora應用程式定位一款社交App,支援使用者將自己生成的視訊上傳,並通過“客串(Cameos)”功能讓使用者參與到好友視訊創作中。OpenAI的目標是試圖打造一種全新獨特的人際溝通方式。
目前,Sora iOS應用程式現已開放下載,以邀請制的形式在美國和加拿大推出。獲得邀請碼的使用者也可在Sora官網免費體驗Sora 2,ChatGPT Pro使用者可以體驗更高品質的Sora 2 Pro模型。
Sora 2一經發佈就在外網炸開了鍋,有大部分人是求邀請碼的,有小部分人已拿到邀請碼。社交平台X上立馬出現了不少Sora 2生成視訊,甚至連OpenAI CEO薩姆·阿爾特曼都被“玩壞了”。
同時也有不少人感到擔憂,X上的一位使用者稱:“幾個月後,我們將無法區分什麼是真實的,什麼不是真實的,那將是一個可怕的時代。”
OpenAI稱,2024年2月發佈的Sora在很多方面都堪稱視訊領域的“GPT-1時刻”——視訊生成首次開始顯現成效,通過擴展預訓練計算能力,物體持久性等需求得以實現。
OpenAI將Sora 2稱作“正直奔視訊領域的GPT-3.5時刻”。先前的視訊模常常使得物體變形並扭曲現實,以便成功執行文字提示。例如,如果籃球運動員投籃不中,球可能會自動傳送到籃筐。但在Sora 2中,如果籃球運動員投籃不中,球會從籃板上反彈。
還比如,下面這個Sora 2生成的後空翻視訊,表演者甚至在落地後有一些踉蹌,且臉上出現了因小失誤有些尷尬的表情,很像真實生活中的場景。
有趣的是,該模型犯下的“錯誤”往往看起來像是Sora 2 隱式建模的內部智能體所犯的錯誤;儘管它仍然不完美,但與先前的系統相比,它在遵循物理定律方面做得更好。
OpenAI認為,對於任何有用的世界模擬器來說,這都是一項極其重要的能力——你必須能夠模擬失敗,而不僅僅是成功。
該模型在可控性方面也實現了巨大的飛躍,能夠執行跨越多個鏡頭的複雜指令,同時精準地保留世界狀態。它擅長處理寫實、電影和動漫風格。
作為通用的視訊音訊生成系統,它能夠建立具有高度真實感的複雜背景音景、語音和音效。
使用者還可以將現實世界的元素直接注入Sora 2。例如,通過觀察我們一位隊友的視訊,該模型可以將其插入到任何由Sora生成的環境中,並精準刻畫其外貌和聲音。這項功能非常通用,適用於任何人類、動物或物體。
OpenAI稱,該模型遠非完美,並且存在很多錯誤,但它證實了進一步擴大視訊資料上的神經網路將使我們更接近模擬現實。
今天,OpenAI還推出了一款名為“Sora”的全新iOS社交應用,該應用由Sora 2提供支援。
在應用中,使用者可以創作、混錄彼此的創作風格,在可自訂的Sora動態中發現新視訊,並通過“客串(Cameos)”功能將自己或好友引入到視訊中。使用客串功能,使用者只需在應用中進行一次簡短的音視訊錄製,即可以驚人的保真度將自己直接帶入任何Sora場景。
這看起來像一款AI版的抖音或TikTok,而OpenAI認為,圍繞這項“客串”功能建構的社交應用是Sora 2體驗的魅力所在。
幾個月前,OpenAI在Sora團隊開始嘗試“上傳自己生成的視訊”的功能,他們都玩得很開心。OpenAI稱,這感覺就像是溝通方式的自然演變——從簡訊到表情符號,再到語音備忘錄,再到現在的視訊。
上周,OpenAI向全體員工內部發佈了這款應用。已經有同事反饋,他們通過這項功能在公司結識了新朋友。
OpenAI將Sora應用以邀請制的形式推出,確保使用者能與好友一同使用。
收到邀請後,使用者還可以通過sora.com訪問Sora 2 。Sora 2最初將免費提供,但這些功能仍受計算能力限制。ChatGPT Pro使用者還可以在sora.com上使用實驗性的、更高品質的Sora 2 Pro模型。
OpenAI還計畫在API中發佈Sora 2。Sora 1 Turbo將繼續可用,使用者建立的所有內容也將繼續存在於sora.com中。
為了防止上癮等問題,OpenAI將採取一系列措施。
一是其將為使用者提供工具和自主選擇權,讓他們能夠掌控資訊流中的內容。利用OpenAI現有的大型語言模型,其開發了一類新的推薦演算法,可以通過自然語言進行指導;還內建了定期調查使用者健康狀況的機制,並主動為他們提供調整資訊流的選項。
默認情況下,OpenAI會向使用者顯示主要針對關注或互動的人的內容,並優先顯示模型認為使用者最有可能用作創作靈感的視訊;不會針對使用者在動態資訊流中花費的時間進行最佳化,明確設計這款應用的初衷是最大限度地提升創作量,而非消費量。
在青少年保護方面,OpenAI將通過ChatGPT推出Sora家長控制功能,以便家長可以覆蓋無限滾動限制、關閉演算法個性化以及管理私信設定。
在客串功能方面,使用者可以與Sora端到端地掌控肖像。只有使用者本人才能決定誰可以使用自己的客串,並且可以隨時撤銷存取權或移除包含該客串的任何視訊。使用者可以隨時查看包含您客串的視訊,包括其他人建立的草稿。
OpenAI在這款應用中處理了許多安全問題,例如肖像使用方面的知情同意、出處確認、防止有害內容的生成等等。
其他應用的很多問題都源於其盈利模式。OpenAI目前唯一的計畫是,如果需求量相對於可用計算能力過大,最終允許使用者選擇支付一定金額來生成額外的視訊。
自OpenAI在2024年2月發佈Sora已經過去超一年半時間,Sora 2終於到來。從效果來看,這款模型在模擬真實性、可控性及音效方面都有比較大的進展,有望推動視訊生成產業格局加速洗牌。
視訊模型正在飛速發展,通用世界模擬器不僅提供了新的內容生成方式,還有望重塑人際溝通方式。OpenAI正通過全新的Sora社交App靠近這一目標,也標誌視訊生成模型在落地應用上更加成熟。 (智東西)