OpenAI Sora2發佈會全記錄

OpenAI:

一年前,Sora 1重新定義了動態影像的可能性。今天,Sora 應用正式推出,它由全新的 Sora 2 提供支援,是目前最強大的影像引擎,並且擁有諸多新功能。

Sora 2在運動、物理智商和身體力學方面都達到了最先進的水平,標誌著在真實感方面向前邁出了一大步。同時,Cameo功能也正式上線,使用者可以將自己置身於任何世界或場景中,也可以讓朋友在他們的世界或場景中扮演自己。

在通往通用人工智慧的道路上,收益不僅僅在於生產力,更關乎創造新的可能性,以及創造力和樂趣。因此,在Sora應用程式內推出Sora 2,旨在讓每個人都能突破想像力的極限,以前所未有的方式進行創作。

2024年2月,Sora 1問世,團隊內部普遍認為這是視訊生成的“GPT-1時刻”。這是視訊真正開始發揮作用的第一個時刻,物體恆存性等行為開始從預訓練的規模擴大中湧現。自那時起,Sora的研究團隊便一直致力於提供下一個階躍函數變化和模型能力,而Sora 2正是努力的成果。

Sora 2是旗艦視訊和音訊生成系統。使用時,最先注意到的是它在物理互動方面遠勝於任何以前的視訊生成系統。過去,奧運會體操套路或滑水板後空翻等複雜動態很難實現,但Sora 2在處理這些複雜碰撞和建模動態方面表現出色,能夠以一種自然的方式呈現。

團隊還投入了大量精力來提高Sora 2相對於先前模型的可控性。以往,必須以逐個鏡頭的方式使用視訊生成系統,難以生成包含多個鏡頭並在同一次生成中的較長敘述。Sora 2在這方面有所突破,可以一次性講述更連貫的故事。

音訊生成是另一個亮點。Sora模型首次能夠同時生成視訊和音訊,而且是一個非常通用的系統,支援用多種語言生成對話,涵蓋多個說話者,還可以生成音效,甚至聲景。

Cameo是Sora 2獨有的新功能。通過觀察一段短片,比如某個人物,便可以將那個人插入到任何Sora生成的環境中。這項能力源於世界模擬模型,通過觀察任何片段,即使不是人類,甚至寵物或物體,模型也能深刻理解它,然後可以像對待另一個文字標記一樣將其注入到任何提示中。

在早期開發這些功能時,Sora的研究人員認為這是一種新的溝通方式。最初是簡訊,然後發展到表情符號或語音便箋,而Cameo功能則像是發展成了一種新的基於視訊的媒介。因此,團隊開發了一種新的產品介面,旨在真正捕捉該模型的所有驚人功能,並讓儘可能多的人使用它。

社交媒體使用者將會看到一個非常熟悉的介面,其中包含身份的概念,使用者擁有個人資料,可以關注與自己有關聯的其他人。但不同之處在於,裡面的所有內容都將是人工智慧生成的。

隨著使用者使用這款產品,一些表情包已經湧現出來。由於需求不斷增長,需要持續不斷的GPU。有些內容是關於番茄醬的,還有一些是關於香水和其他以不同方式擴展模型的內容。

Cameo功能的一個例子是,兩個人可以在同一場景中交談。很多小細節讓這些視訊感覺非常逼真,比如來回切換的小鏡頭,人物臉上自然的姿勢和面部表情,以及精準捕捉對話的自然唇形同步,這些在Sora 2中都是全新的。

Sora 2的動態範圍令人難以置信。之前的很多模型似乎都歸結為一種單一的美學,而Sora擁有如此廣泛和多樣化的範圍。

Sora模型非常通用,可以涵蓋從現實主義到動漫以及介於兩者之間的一切。

在簡易編輯器中,使用者可以用任何風格、任何場景、文字記錄等來描述自己的任何想法,並得到一個視訊。

錄製動態音訊提示後,系統會進行活躍度檢查,使用者將被要求將頭朝特定方向移動。然後,這段資訊會被傳送到系統中,經過大量的驗證,以確保沒有人冒充使用者。一旦使用者的客串形象被批准,便可以設定誰可以使用這個客串形象。使用者完全掌控自己在該網路上的形象,任何人都無法在未經明確許可的情況下生成使用者的形象。

使用者還可以引導模型如何描繪自己。如果模型產生幻覺,例如生成了緊身牛仔褲或奇怪的口音,使用者可以進入客串偏好設定並在運行世代時對其進行調整。使用者也可以用它來獲得很多樂趣,例如給自己戴上滑稽的帽子或做一些奇怪的事情。

任何用使用者的客串形象創作的內容,當使用者授權某人許可時,使用者擁有完全的權利,可以刪除它,並被視為該視訊的所有者。

通過混音功能,使用者可以立即參與到某個創作者正在創作的潮流、故事情節、某些傳說或某個宇宙中,並進行變體創作。

Sora可以實現令人難以置信的物理效果。

Sora主題的香水廣告語是:清新、潔淨、率真。Sora的新牙膏廣告語是:清新、潔淨,且無需道歉。Sora的可能性是:一個微笑。

Sora還設定了幾項安全措施。針對18歲以下使用者的政策是:默認情況下沒有無限滾動,體驗中會有一個停止期,並很快進入冷卻期。即使是成年人,也會在滾動過程中稍晚一些時候進行提醒。如果系統認為使用者正處於某種末日滾動狀態,會提醒使用者進行創作。

內容在離開平台後,會被清晰地標記為人工智慧生成,並加入水印。系統內部也有一些技術可以始終追溯到所看到的Sora生成。

Sora團隊還在Sora 1和ImageGen所帶來的所有出色稽核功能之上進行工作,系統內部有推理模型,以確保在這個網路上很難建立有害內容。在Cameo功能中,這一點極其重要,沒有人可以建立X級或暴力內容。

Sora.com,現有的Web應用程式,將獲得這個新模型,並且會推出故事板(Storyboard),它可以讓使用者真正地逐個鏡頭地控制模型如何建立場景。Sora團隊還將在未來幾周內推出一個API。

Sora iOS應用程式於今天下午晚些時候在App Store上線。最初在美國和加拿大推出,並進行基於邀請的推廣。當使用者從等待列表中出來時,會收到通知,並且自動獲得4個邀請碼,可以用來邀請朋友。

Sora研究項目早在2023年初就開始了,旨在建構能夠深刻理解物理世界的AI系統。Sora團隊認為這是實現真正通用AGI的首要能力。 (Web3天空之城)