OpenAI Sora2發佈會全記錄

2025/10/02

•

OpenAI:

一年前，Sora 1重新定義了動態影像的可能性。今天，Sora 應用正式推出，它由全新的 Sora 2 提供支援，是目前最強大的影像引擎，並且擁有諸多新功能。

Sora 2在運動、物理智商和身體力學方面都達到了最先進的水平，標誌著在真實感方面向前邁出了一大步。同時，Cameo功能也正式上線，使用者可以將自己置身於任何世界或場景中，也可以讓朋友在他們的世界或場景中扮演自己。

在通往通用人工智慧的道路上，收益不僅僅在於生產力，更關乎創造新的可能性，以及創造力和樂趣。因此，在Sora應用程式內推出Sora 2，旨在讓每個人都能突破想像力的極限，以前所未有的方式進行創作。

2024年2月，Sora 1問世，團隊內部普遍認為這是視訊生成的“GPT-1時刻”。這是視訊真正開始發揮作用的第一個時刻，物體恆存性等行為開始從預訓練的規模擴大中湧現。自那時起，Sora的研究團隊便一直致力於提供下一個階躍函數變化和模型能力，而Sora 2正是努力的成果。

Sora 2是旗艦視訊和音訊生成系統。使用時，最先注意到的是它在物理互動方面遠勝於任何以前的視訊生成系統。過去，奧運會體操套路或滑水板後空翻等複雜動態很難實現，但Sora 2在處理這些複雜碰撞和建模動態方面表現出色，能夠以一種自然的方式呈現。

團隊還投入了大量精力來提高Sora 2相對於先前模型的可控性。以往，必須以逐個鏡頭的方式使用視訊生成系統，難以生成包含多個鏡頭並在同一次生成中的較長敘述。Sora 2在這方面有所突破，可以一次性講述更連貫的故事。

音訊生成是另一個亮點。Sora模型首次能夠同時生成視訊和音訊，而且是一個非常通用的系統，支援用多種語言生成對話，涵蓋多個說話者，還可以生成音效，甚至聲景。

Cameo是Sora 2獨有的新功能。通過觀察一段短片，比如某個人物，便可以將那個人插入到任何Sora生成的環境中。這項能力源於世界模擬模型，通過觀察任何片段，即使不是人類，甚至寵物或物體，模型也能深刻理解它，然後可以像對待另一個文字標記一樣將其注入到任何提示中。

在早期開發這些功能時，Sora的研究人員認為這是一種新的溝通方式。最初是簡訊，然後發展到表情符號或語音便箋，而Cameo功能則像是發展成了一種新的基於視訊的媒介。因此，團隊開發了一種新的產品介面，旨在真正捕捉該模型的所有驚人功能，並讓儘可能多的人使用它。

社交媒體使用者將會看到一個非常熟悉的介面，其中包含身份的概念，使用者擁有個人資料，可以關注與自己有關聯的其他人。但不同之處在於，裡面的所有內容都將是人工智慧生成的。

隨著使用者使用這款產品，一些表情包已經湧現出來。由於需求不斷增長，需要持續不斷的GPU。有些內容是關於番茄醬的，還有一些是關於香水和其他以不同方式擴展模型的內容。

Cameo功能的一個例子是，兩個人可以在同一場景中交談。很多小細節讓這些視訊感覺非常逼真，比如來回切換的小鏡頭，人物臉上自然的姿勢和面部表情，以及精準捕捉對話的自然唇形同步，這些在Sora 2中都是全新的。

Sora 2的動態範圍令人難以置信。之前的很多模型似乎都歸結為一種單一的美學，而Sora擁有如此廣泛和多樣化的範圍。

Sora模型非常通用，可以涵蓋從現實主義到動漫以及介於兩者之間的一切。

在簡易編輯器中，使用者可以用任何風格、任何場景、文字記錄等來描述自己的任何想法，並得到一個視訊。

錄製動態音訊提示後，系統會進行活躍度檢查，使用者將被要求將頭朝特定方向移動。然後，這段資訊會被傳送到系統中，經過大量的驗證，以確保沒有人冒充使用者。一旦使用者的客串形象被批准，便可以設定誰可以使用這個客串形象。使用者完全掌控自己在該網路上的形象，任何人都無法在未經明確許可的情況下生成使用者的形象。

使用者還可以引導模型如何描繪自己。如果模型產生幻覺，例如生成了緊身牛仔褲或奇怪的口音，使用者可以進入客串偏好設定並在運行世代時對其進行調整。使用者也可以用它來獲得很多樂趣，例如給自己戴上滑稽的帽子或做一些奇怪的事情。

任何用使用者的客串形象創作的內容，當使用者授權某人許可時，使用者擁有完全的權利，可以刪除它，並被視為該視訊的所有者。

通過混音功能，使用者可以立即參與到某個創作者正在創作的潮流、故事情節、某些傳說或某個宇宙中，並進行變體創作。

Sora可以實現令人難以置信的物理效果。

Sora主題的香水廣告語是：清新、潔淨、率真。Sora的新牙膏廣告語是：清新、潔淨，且無需道歉。Sora的可能性是：一個微笑。

Sora還設定了幾項安全措施。針對18歲以下使用者的政策是：默認情況下沒有無限滾動，體驗中會有一個停止期，並很快進入冷卻期。即使是成年人，也會在滾動過程中稍晚一些時候進行提醒。如果系統認為使用者正處於某種末日滾動狀態，會提醒使用者進行創作。

內容在離開平台後，會被清晰地標記為人工智慧生成，並加入水印。系統內部也有一些技術可以始終追溯到所看到的Sora生成。

Sora團隊還在Sora 1和ImageGen所帶來的所有出色稽核功能之上進行工作，系統內部有推理模型，以確保在這個網路上很難建立有害內容。在Cameo功能中，這一點極其重要，沒有人可以建立X級或暴力內容。

Sora.com，現有的Web應用程式，將獲得這個新模型，並且會推出故事板（Storyboard），它可以讓使用者真正地逐個鏡頭地控制模型如何建立場景。Sora團隊還將在未來幾周內推出一個API。

Sora iOS應用程式於今天下午晚些時候在App Store上線。最初在美國和加拿大推出，並進行基於邀請的推廣。當使用者從等待列表中出來時，會收到通知，並且自動獲得4個邀請碼，可以用來邀請朋友。

Sora研究項目早在2023年初就開始了，旨在建構能夠深刻理解物理世界的AI系統。Sora團隊認為這是實現真正通用AGI的首要能力。 (Web3天空之城)