Sora 2 震撼發佈!獨立 App 上線,顛覆性「客串」功能打造首個 AI 社交宇宙,要革抖音的命?

國慶節不過了,連夜幹!!!

剛剛,就像爆料的一樣OpenAI正式發佈Sora 2

相比初代Sora模型,Sora 2在物理世界的精準性、真實感和可控性方面都實現了巨大飛躍,並首次加入了同步對話和音效生成功能

OpenAI表示,初代Sora是視訊生成的“GPT-1時刻”,而Sora 2則直接躍升至視訊領域的“GPT-3.5時刻”

最重磅的是Sora獨立為APP,介面非常像抖音,主打創作、分享,以及一項顛覆性的社交玩法-“Cameo(客串)”的真人穿越功能,使用者可以將自己一鍵置入AI生成的視訊場景中

關於 Sora App 的推廣計畫,OpenAI 採取了分階段的策略:

邀請制推出:為了營造一個以熟人社交為基礎的社區氛圍,應用將採用邀請制進行推廣。成功註冊的使用者將獲得四個邀請碼,可以分享給自己的朋友

目前sora app,只在IOS系統提供,現在就可以下載(首批上線地區為美國和加拿大,計畫將迅速擴展到更多國家),收到邀請後,使用者也可通過 sora.com 訪問Sora 2,Sora 2初期將免費提供,並設有慷慨的使用限制,Sora 2未來也計畫發佈API,Android版本還在開發當中

Sam Altman把 sora 2稱作創造力的ChatGPT時刻

以下是sora 2 發佈會現場詳細資訊:

Sora 2 本體表現

Sora 2 在物理世界的模擬上達到了前所未有的高度。團隊在發佈中強調,新模型在運動(motion)、物理(physics)、智商(IQ)和對真實身體運動規律的精準模擬(body mechanics)方面都達到了業界頂尖水平。這意味著 Sora 2 能夠更準確地理解和模擬複雜的物理互動。過去,像奧運會體操運動員的整套動作,或是在尾波滑水板上完成後空翻這類包含複雜動態和碰撞的場景,對於視訊生成模型來說是極大的挑戰。Sora 2 在處理這類複雜碰撞和動態建模方面表現得更為穩健,生成的畫面感覺極其自然。例如,視訊中展示的滑板愛好者完成踢翻的動作,其物理表現的精準度是以往模型難以企及的。這種對物理世界的深刻理解,是實現更高層次真實感的關鍵

其次,Sora 2 顯著增強了模型的可控性。以往的視訊生成系統通常需要使用者以“逐個鏡頭”(shot-by-shot)的方式進行創作,很難在一次生成中建構一個包含多個鏡頭、敘事連貫的長故事。Sora 2 在這方面取得了突破,它能更好地理解和執行複雜的指令,在一次生成任務中講述更長、更連貫的故事。這使得創作者能夠擺脫碎片化鏡頭的束縛,更自由地建構完整的敘事,為短片、故事創作等應用場景提供了極大的便利

最後Sora 2 首次實現了視訊與音訊的同步生成。這是第一個能夠同時生成視訊和配套音訊的 Sora 模型,並且它是一個非常通用的系統。這意味著使用者生成的每一段視訊都將自帶聲音,不再是無聲的畫面。這個音訊生成系統能力非常全面,具體體現在:

多語言對話:能夠生成涵蓋多位說話者的多種語言的對話,並且口型同步非常自然,能夠準確捕捉對話內容

環境音效:可以生成各種逼真的音效,例如環境中的風聲、水聲等

完整音景:能夠創造出完整的音景(soundscapes),為視訊增添沉浸感

此外,Sora 2 在風格多樣性上也表現出色。許多早期的生成模型往往會陷入一種單一的美學風格,而 Sora 2 擁有極其廣泛和多樣的動態範圍。無論是追求極致的現實主義風格,還是充滿想像力的動漫風格,Sora 2 都能駕馭自如,並能覆蓋兩者之間的所有風格。這為全球創作者提供了無盡的創意空間,讓人們能夠以前所未有的方式將想像力變為現實

客串(Cameo)功能:化身萬千,步入想像中的任何世界

在 Sora 2 帶來的眾多新功能中,最具顛覆性的無疑是客串玩法。這項功能是 Sora 2 獨有的,它賦予了使用者一種前所未有的能力:將真實世界的人物、寵物甚至物體,無縫地植入到任何由 AI 生成的虛擬世界或場景中。這不僅僅是簡單的“換臉”,而是一種深度的人物和場景融合,讓使用者能夠真正步入”自己的想像

Cameo 的核心工作原理源於 OpenAI 正在建構的世界模擬模型(world simulation models)。該功能通過觀察一段關於某個主體(例如一個人、一隻寵物)的簡短影片片段,模型就能深度理解這個主體的外觀、動態和特徵。一旦理解完成,這個主體就可以像一個文字token一樣,被注入到任何提示詞中。這意味著,使用者只需提供一個簡單的視訊素材,就能將自己或朋友“傳送”到古羅馬鬥獸場、未來賽博朋克都市,或是任何能夠想像到的場景中,並讓他們在其中自然地活動和互動

為了確保這項強大功能的安全和使用者自主性,OpenAI 設計了一套嚴謹的設定和權限流程:

建立與驗證流程:使用者若想建立自己的 Cameo,必須經過一個專門的流程。系統會要求使用者錄製一個動態的音訊提示,並進行一次“活性檢查”,例如根據指示移動頭部。這個過程旨在通過多重驗證,確保建立 Cameo 的是使用者本人,從而有效防止身份冒用

精細化的權限控制:使用者對自己 Cameos 的使用權擁有完全的控制。在設定中,使用者可以決定誰有權使用自己的形象進行創作,選項包括“僅限我本人”(Only I)、“我批准的人”(People I approve)、“互相關注的好友”(Mutuals)或“所有人”(Everyone)。這一原則確保了任何人都無法在未經使用者明確授權的情況下,使用其形象生成內容。使用者的數字肖像權得到了充分的尊重和保護

個性化偏好設定:模型雖然強大,但並非完美,有時可能會“幻覺出”一些不符合使用者特徵的細節,比如給使用者穿上緊身牛仔褲或賦予奇怪的口音。為瞭解決這個問題,使用者可以在 Cameo 偏好設定(Cameo preferences)中進行調整,引導模型更準確地描繪自己。這種設定也可以用於娛樂目的,比如使用者可以主動為自己的 Cameo 形象加入一個標誌性的金項鏈或一頂有趣的帽子,為創作增添趣味

內容所有權與刪除權:使用者對自己授權建立的所有 Cameo 內容擁有完全的權利。這意味著,即使使用者的朋友使用了其 Cameo 創作了一段視訊,該使用者也被視為該視訊的所有者之一,並擁有隨時將其刪除的權力。這進一步強化了使用者對自己數字身份的掌控

Cameo 功能的推出,被 OpenAI 團隊視為一種全新的溝通方式。它超越了傳統的文字、表情符號(emojis)或語音筆記,演變成一種基於視訊的全新媒介。朋友之間可以通過 Cameo 共同出演一部微型電影,或是在一個奇幻世界裡互動,這種充滿樂趣和創意的交流方式,為社交帶來了前所未有的可能性

Sora App:一個專為 AI 創意而生的社交新大陸

為了將 Sora 2 模型的魔力傳遞給最廣泛的使用者,並充分發揮 Cameo 功能的社交潛力,OpenAI 專門開發了一款全新的移動應用——Sora App。團隊認為,Sora 2 所帶來的體驗已經超越了傳統工具的範疇,它更像是一種全新的溝通媒介,因此需要一個全新的產品形態來承載。Sora App 的定位是一個以 AI 生成內容為核心的社交平台,旨在激發使用者的創造力,並加深人與人之間的連接

Sora App 的介面設計看起來非常像抖音。有一個內容流、個人首頁(p以及關注系統。但其核心區別在於,這個平台上的所有內容都是由人類使用者通過 AI 生成的,而非機器人發佈的垃圾資訊。這創造了一種非常獨特且新奇的體驗,使用者看到的不再是現實世界的快照,而是朋友們想像力

應用內的核心體驗圍繞著創造與互動展開:

動態流:使用者打開應用後,會看到一個由其關注的人所創作的 AI 視訊流

Remix 功能:這是 Sora App 的一個核心互動機制。當使用者看到一個喜歡的視訊時,可以點選 Remix 按鈕,在其基礎上進行二次創作。例如,看到一個香水廣告,使用者可以輸入新的提示詞,如“把它變成一個帶有巨大羽毛的禮帽廣告”,Sora 就會生成一個全新的、與原作相關聯的視訊。這個功能極大地降低了參與熱門趨勢和故事線的門檻,讓每個人都能輕鬆地為社區的集體創作貢獻一份力量

社交哲學:OpenAI 團隊坦言,他們最初對一個完全由 AI 生成內容的平台持懷疑態度,擔心它會削弱真實的人際關係。然而,內部測試表明,Cameo 功能反而以一種意想不到的方式拉近了人們的距離。因此,Sora App 的設計理念將重點放在加強朋友和家人之間的聯絡上。平台會優先推薦來自使用者社交圈的內容,並提供一個專門的“關注”流,只顯示使用者已關注的人發佈的內容

推薦:為了提升使用者體驗並給予使用者更多主導權,Sora App 正在測試一項新功能,允許使用者根據自己的心情來引導內容推薦。例如,使用者可以選擇“放鬆”或“動物”等模式,應用就會相應地展示更符合其當下心境的內容。

OpenAI的說法是Sora App 的目標不僅僅是成為一個內容消費平台,更是要成為一個激發每個人創造潛能的社區。它鼓勵使用者從被動的刷視訊轉變為主動的創造者,通過簡單有趣的工具,將腦海中的奇思妙想變為現實,並與朋友們分享這份快樂

當然你可以完全把以上內容看做是OpenAI的宣傳,說的很好聽,到時候只怕玩的停不下來

防沉迷

針對社交媒體普遍存在的沉迷、孤立和演算法投喂等問題,OpenAI提出了一系列應對措施:

使用者控制資訊流: 使用者可通過自然語言指示推薦演算法,調整資訊流內容。App會定期詢問使用者的使用感受,並主動提供調整選項

優先創作而非消費: App默認優先展示使用者關注的人或能激發創作靈感的內容,不以“使用時長”為最佳化目標

強化社區聯絡: App採用邀請制,旨在鼓勵朋友間共同使用,通過Cameos功能加強社區聯絡

青少年保護: 為青少年設定了每日觀看視訊數量的默認限制,並對Cameos功能採用更嚴格的權限設定。家長可通過ChatGPT使用家長控制工具,管理滾動限制、演算法個性化和私信設定

肖像權控制: 使用者對自己的Cameo擁有端到端的控制權,可以決定誰能使用,並隨時撤銷存取權或刪除包含其Cameo的任何視訊

商業模式: 目前唯一的商業化計畫是,當計算資源緊張時,可能允許使用者付費生成額外視訊

Sam Altman的思考:創造力的“寒武紀大爆發”**

Sam Altman也發文表示,這感覺像是“創造力的ChatGPT時刻”,從想法到結果變得簡單快速,帶來了新的社交動態

他認為,創造力可能即將經歷一場“寒武紀大爆發”,藝術和娛樂的質量將大幅提升。

同時,他也表達了憂慮,承認社交媒體的負面影響,如成癮和霸凌。他強調,團隊已深入思考如何避免Sora App落入由強化學習(RL)最佳化的垃圾資訊流的陷阱。

為此,Sam Altman提出了產品的幾項原則:

最佳化長期使用者滿意度。 大多數使用者在回顧過去6個月時,應該覺得使用Sora讓他們的生活變得更好

鼓勵使用者控制自己的資訊流。 使用者應該能通過自然語言詳細告訴Sora他們想看什麼

優先考慮創作。 讓每個人都能輕鬆參與創作過程。

幫助使用者實現長期目標。 無論是想與朋友更多聯絡,還是想健身、創業,Sora都將努力提供幫助

寫在最後

OpenAI認為通用世界模擬器和機器人智能體將從根本上重塑社會。Sora 2代表了朝此目標邁出的重要一步

sora 2會成為抖音一樣的超級APP嗎?會成為一款顛覆性的社交應用嗎? (AI寒武紀)