#sora
Sora 2團隊萬字實錄揭秘「世界模擬器」的終極野心
近日,OpenAI Sora 團隊負責人Bill Peebles、工程主管Thomas Dimson 和產品負責人Rohan Sahai 接受海外播客Trending Data的訪談。對話圍繞著 Sora 2展開,深入探討了其背後的核心技術,如 Diffusion Transformer (DiT) 和 "Spacetime Token" (時空Token);討論了 Sora 從 1 代到 2 代的迭代思路、 Scaling Law 如何驅動模型湧現出對物理世界的理解和AI Agent行為。此外,對「世界模擬器」概念進行詳細闡釋,也探討了視訊資料作為訓練資源的未來潛力,以及 Sora 作為社交產品的獨特設計哲學。嘉賓們一致認為,視訊生成技術正處於 "GPT-3.5 時刻",Scaling Law 是驅動模型能力實現階躍式提升的核心因素。Sora 2 的核心進步不僅是 Scaling Law 的結果,更體現在其獨特的「語意失敗」模式上——模型會選擇遵從物理規律,而非盲目迎合提示,這標誌著「AI Agent」行為的湧現。動漫等非現實數據也許有助於模型更有效率地領悟現實世界的概念。團隊也透露,正積極與 IP 持有者合作,探索讓用戶使用喜愛的 IP 創作並使權利人獲益的「新創作者經濟」模式。並預測,Sora 催生的不會是今天的長篇電影,而是一種全新的媒介。Sora 不僅是娛樂工具,更是一個平台,未來將承載用戶的「數位副本」在虛擬空間中執行任務。01. Sora 核心技術:Diffusion Transformer與Spacetime Token請你們先簡單介紹一下自己的職務Bill Peebles:我是Bill。我是OpenAI Sora 團隊的負責人。Thomas Dimson:我是Thomas。我是Sora 團隊的工程主管。Rohan Sahai:太好了。我是Rohan。目前我負責Sora 的產品團隊。Bill,身為Diffusion Transformer (DiT) 的發明者,能否介紹一下它是什麼?我們該如何理解DiT 的工作機制,例如它如何處理視訊幀?這是否等同於注意力機制,即物體在影片中的連貫運動是注意力機制的體現?Bill Peebles:大多數人應該都非常熟悉自回歸Transformer,這是目前市面上許多大語言模型的核心技術。在自迴歸模型中,你是逐一產生Token,並且需要根據所有已產生的Token 來預測下一個Token。而Diffusion Transformer 有點不同。它不使用自回歸建模作為核心目標,而是採用一種稱為擴散的技術。簡單來說,這項技術基本上就是獲取一個訊號,例如視頻,向其加入大量噪聲,然後訓練一個神經網路來預測你所加入的噪聲。這是一種不同類型的迭代生成建模。自回歸模型是逐一 Token 生成,而擴散模型則是透過逐步去除雜訊來生成內容。在 Sora 1 中,我們大力推廣了這項技術在影片生成模型中的應用。所以,如果你去看市面上所有其他的競爭對手模型,像是在美國的,絕大多數都是基於 DiTs,也就是 Diffusion Transformer。這很大程度上是因為 DiT 對影片而言是一種非常強大的歸納偏置。由於 DiT 是同時生成整個視頻的,它從根本上解決了視頻質量隨時間推移而下降或變化的問題,這是此前視頻生成系統的一大難題,而 DiT 恰好修復了它。這就是為什麼你看到 DiT 在視訊生成技術堆疊中迅速普及的原因。(關於 DiT 的工作機制)Bill Peebles:我們實際上是在「spacetime Token」的粒度上來考慮問題的,這個詞組聽起來確實有點瘋狂。但是,正如“字元”是語言的基本構建塊一樣,對於視覺而言,其基本構建塊就是這個“spacetime patch” 或叫時空補丁的概念。你可以把它想像成一個微小的長方體,它同時包含了X 和Y 軸的空間維度,以及一個時間維度。這才是建構視覺生成模型的最小單元。所以 Diffusion Transformer 考慮的是這些單元,你幾乎可以將其想像為逐個體素地處理。在這些 Diffusion Transformer 模型的傳統版本中,所有這些微小的「spacemetime patch」 都在與所有其他補丁進行「對話」。這正是你能夠讓諸如物體恆存性這樣的特性得以湧現的原因,因為模型在時空的每一個位置,都對視頻中發生的一切擁有完全的全域上下文,這對於神經網路來說是一項非常強大的能力。(關於注意力機制)Bill Peebles:是的,沒錯。在我們那篇關於「將影片生成模型視為世界模擬器」的Sora 1 部落格文章中,我們就展示了一些視覺材料,恰好解釋了你的觀點。注意力確實是一種跨越時空共享資訊的非常強大的機制。如果你將資料以「補丁化」的方式,也就是分解為一系列spacetime Token 來表示,只要正確地使用注意力機制,就能讓訊息在整個影片的所有部分一次性傳遞。02. Sora 2 的核心進步Sora 1 和 Sora 2 之間最大的差別是什麼?Sora 1 已經觀察到了湧現屬性,那麼 Sora 2 的提升純粹是 Scaling Law的結果,還是有其他重大差異?Bill Peebles:自Sora 1 發布以來,我們花了很長時間專注於核心的生成建模研究,以尋求視頻生成能力的下一個階躍函數般的提升。我們完全從第一原理出發。我們希望這些模型能極為擅長模擬物理。我們希望它們能給人一種“智能感”,而我認為此前大多數視頻生成模型都不具備這種感覺。我的意思是,如果你去看以前的任何模型,當它們試圖處理任何複雜的物理互動序列時,你會注意到很多混亂、不真實的效果,都是經典的失敗案例。上一代模型存在著非常明顯的問題,而 Sora 2 正是為瞭解決這些問題而設計的。我認為這個模型與以往模型相比,一個非常酷的點在於,當它「犯錯」時,它的失敗方式是我們前所未見的,非常獨特。舉個具體的例子:假設給 Sora 的文字提示是“一位籃球明星想要投籃”,例如投出罰球。如果在模型模擬中他投丟了,Sora 不會為了「過度樂觀」地迎合用戶要求,而神奇地讓籃球自動飛入籃框。相反,它在大多數情況下會選擇遵從物理定律,籃球會實實在地從籃板上彈開。所以,這是「模型失敗」和「AI Agent 失敗」之間一個非常有趣的差異。AI Agent 是指 Sora 在生成影片時隱式模擬的那個個體。我們在以前的視訊模型中從未見過這種獨特的「語義失敗案例」。這在 Sora 2 上是全新的,也是我們致力於投入核心生成建模研究,從而帶來能力巨大提升的成果。所以這並不純粹是 Scaling Law 的產物。你們實際上在模型中隱含了某種 AI Agent 的概念,並且在 Scaling Law 之外做了很多其他工作?Bill Peebles:我想說,AI Agent 的概念,實際上主要還是由Scaling Law 隱式帶來的。這就像我們在Sora 1 中展示的那樣:當預訓練投入的算力達到某個關鍵的flops 閾值時,「物體恆存性」就開始湧現了。當我們邁向下一個前沿時,我們看到了類似的情況發生:你開始看到這些模擬的AI Agent 表現得更聰明;你開始看到物理定律以一種在較低計算規模下所不具備的方式被尊重。03. 世界模擬器的數據與極限「時空潛在補丁」 (spacetime latent patches) 與「spacetime Token」 是什麼關係,它們如何關聯到物體恆存性及物理運動?你們如何篩選訓練資料以準確反映物理世界?例如,模型如何處理像動漫這樣不總是遵守物理定律的數據?我們是否面臨視訊預訓練Token 耗盡的風險?或者視訊數據本身就是一個尚未被充分開發的「數據金礦」?Bill Peebles:首先,我會說「spacetime patch」 和「spacetime Token」 或多或少是同義詞,我會互換使用它們。真正奇妙的地方在於:當人們開始將大語言模型從 GPT-1 擴展到 GPT-2 再到 GPT-3 時,我們開始真切地在這些系統內部看到了「世界模型」的湧現。儘管用於創建訓練資料的分詞器極其簡單,例如 BPE 或只是字元。但儘管表示方式如此簡單,當你向這些系統投入足夠的計算和數據時,為了真正解決「預測下一個 Token」這個任務,模型必鬚發展出一種關於世界如何運作的內部表示。它需要去模擬事物。在較低的計算規模下,模型會犯很多錯誤,但當你繼續從 3 推向 4 再到 5,你會發現這些內部世界模型變得越來越穩健。這與視訊領域的情況非常相似,甚至在許多方面更為明確。我認為用視訊資料更容易想像「世界模型」或「世界模擬器」是什麼樣子,因為它本身就是在表示現實世界所有原始的觀測資料。但真正卓越的是,這些「spacetime patch」 是一種非常簡單且高度可重用的表示方式,它能適用於任何類型的數據,無論是像我們錄製現場這樣的真實影片片段,還是動漫、卡通等等。你只需要建立一個神經網絡,它就能夠處理這種極其龐大且多樣化的資料集,並從中建構出模擬世界「可泛化屬性」的、極其強大的表示。你需要一個世界模擬器來預測卡通情節將如何展開,同樣,你也需要它來預測我們這場對話可能會如何發展。因此,這就給 Sora 施加了巨大的最佳化壓力,迫使它必須以一種非常數據高效的方式去「領悟」這些核心的基本概念。(關於資料篩選)Bill Peebles:我們確實花了大量時間來思考一個「世界模擬器」的最佳數據組合究竟是怎樣的。針對你的觀點,我認為在某些情況下,我們會做一些決定,也許只是為了讓模型變得非常有趣,例如,人們非常喜歡生成動漫。但這動漫數據並不一定能完美地代表那些對現實世界應用有直接幫助的物理定律。換句話說,我認為動漫中包含一些被簡化的圖元(simplified primitives),這些簡化的圖元實際上可能有助於模型理解真實世界。例如,角色同樣會在場景中移動。但是,如果裡面有條瘋狂的龍在到處亂飛,那對於領悟空氣動力學之類的知識,可能就沒什麼幫助了。我認為這確實是一個有趣的問題,但我目前還不知道答案:即,在簡化的視覺世界表示,無論是草圖還是其他某種模態上進行預訓練,是否真的能讓你更有效率地「領悟」這些概念。我認為這其實是一個非常有趣的科學問題,值得我們去深入理解。(關於影片Token耗盡問題)Bill Peebles:我是這麼看這個問題的:影片資料「每位元所蘊含的智慧」要遠低於文字資料。但是,如果你對世界上實際存在的所有數據進行“積分”,那麼總的智能量將是高得多的。所以,直接回答你的問題:我認為很難想像視訊資料有一天會完全用完。它在世界上的存在形式實在太過分了。我懷疑,在未來很長一段時間內,你都將處於這樣一種狀態:你可以持續不斷地向預訓練中加入越來越多的數據,並持續看到模型性能的提升。未來Sora這樣的模擬器是否有可能幫助我們發現新的物理學?要達到可以進行科學發現的水平,模型是否必須在物理世界中擁有「具身性」 ?建構「通用世界模擬器」的最佳數據組合是什麼?是僅靠視頻,還是需要視頻、文字以及結構化物理定律的結合?(關於發現新物理學)Bill Peebles:我完全相信這總有一天會發生。但我認為,我們可能還需要模型質量再經歷一次「階躍函數」般的變化,才能真正達到可以進行科學實驗的程度。但是你可以想像,總有一天,你會擁有一個對物理定律泛化得極好的世界模擬器,好到你甚至不再需要現實世界中的「濕實驗室」。你可以直接在Sora 內部運行生物實驗。再說一次,這需要大量的工作才能真正實現,你需要一個足夠穩健的系統來可靠地完成這些任務。但在內部,我們將 Sora 1 視為視訊領域的“GPT-1 時刻”,這是該技術首次在該模態上開始起作用。而 Sora 2,我們將其真正視為「GPT-3.5」 時刻。因為它確實能夠激發全世界的創造力,並一舉突破了“可用性障礙”,我們正看到這些模型開始被大規模採用。我們將需要一次「GPT-4 等級」 的突破,才能真正讓它在科學領域發揮作用。就像我們現在所看到的 GPT-5 一樣,我感覺現在每天都能在 Twitter 上看到 GPT-5 Pro 又改進了某個凸優化問題的下界。我認為,最終 Sora 也會在科學領域實現同樣的目標。(關於是否必須擁有具身性)Bill Peebles:每當我們向這些模型中再投入10 倍的算力時,在訓練內容和基礎方法幾乎沒有大改的情況下,總有一些新能力“神奇地湧現”,我總是對此驚嘆不已。我猜測,一定程度的「物理能動性」肯定會有所幫助,我很難相信加入具身性會讓你在模擬碰撞或其他事情上做得更差。不過,「僅靠影片」這條路徑已經相當了不起了。如果事實證明這條路徑對於建立一個通用世界模擬器而言是「AGI 完備」的,我並不會感到驚訝。(關於最佳資料組合)Bill Peebles:我認為這在很大程度上取決於你為這個世界模擬器設想的具體用例。例如,如果你真的只想建立一個精確模擬籃球比賽的模型,我其實認為僅靠視頻數據,也許再加上音頻,就足以構建這個系統。這個通用的模擬系統中到底應該包含那些“模態”,這是個很有趣的問題。當然,如果你增加更多的模態,我很難相信智慧等級會因此下降。但我也認為,有種觀點是,相較於完全掌握視訊和音頻,一味地增加更多模態並不能帶來顯著的「邊際價值」。我認為這是一個很有趣的、懸而未決的問題。我現在也說不準,這是我們需要進一步去瞭解的。04. 人情味是AI社交的產品市場契合點圍繞著Sora,你們是如何組建產品團隊的? Sora應用程式的開發是如何啟動的?Thomas Dimson:故事的發展總是不像你想像的那麼一帆風順。 Sora 從專案啟動之初就有一個產品團隊。在Sora 1 時代,Rohan 是這份工作的負責人。但我同意Bill 的說法,那真的更像是一個「GPT-1 時刻」。我們看到了一些零星的、非常有趣的亮點。但是那些模型,沒有聲音的模型,沒有聲音的視頻,那是一個完全不同的環境。所以,我們當時在那個層面上努力,主要瞄準的是「產消者」族群。另外,Rohan 或許可以深入談談所有細節。我們當時也在 OpenAI 內部探索 AI 在社交應用上的不同可能性。我們做了很多原型,但大部分都相當糟糕。而我們開始看到一些魔力,實際上是在「圖像生成」功能發布之前。我們在內部的社交環境中試玩它。那個社交情境真的很有趣,你會看到人們在做什麼,你會拿一張圖,然後出現一系列對這張圖的「二次創作」。我們看到這些,就覺得,“哇,這太有意思了,但在社交媒體上沒人能真正做到這一點,因為從頭創作或去'演繹'別人的東西太難了。這個行為的門檻非常高。你可能得架好相機,而且不僅僅是想個點子那麼簡單。這背後涉及很多工作。”所以我們當時想 , “Sora 的一些研究還在進行中,也看到了一些希望的跡象,但還遠遠沒到可以產品化的形態。Bill 可能在他腦中已經構想好了,他總是能預見未來,但沒關係。我這人比較...我還沒辦法預見未來。所以,我們當時就在探索。我們嘗試了一些東西,然後在某個時刻,研究成果真的展現出了非常清晰的價值,甚至是一種「迭代部署」風格的價值,表明「哦,這會是人們真正想要的東西。」於是我們在兩三個月前投身到了這個項目。時間不長。就是 7 月 4 日那周。我們當時就「鎖定」了狀態,心想,「好吧,我們終於要乾了。」那總是一個標誌性的時刻。我們剛開始時沒有任何神奇的功能,只是想,「好吧,我們先試著搭建一個原生的視頻環境,讓你可以全螢幕播放,能聽到音頻。」我們快速生成了一些內容。結果非常酷,非常有趣。而且因為有了圖像生成的經驗,我們就在想,“好吧,這裡的魔力在於創作的門檻被降得非常非常低。”我從 Instagram 過來,深知讓人們在 Instagram 上創作有多難,但那偏偏是用戶最有價值的行為。那麼這能釋放什麼呢?結論是,「好吧,圖像生成中的那種『二次創作』玩法,在這裡依然適用。」於是我們集思廣益,討論各種二次創作的實現方式,以及它在這裡到底意味著什麼。其中一個點子就是「客串」功能,我想 Bill 腦子裡也有這個想法,但這個想法當時大家差不多都有了。反正是大家都有的感覺。但我們產品團隊就是把各種東西「快速搭建」起來。 「哦,試試這個行不行。」我當時根本不覺得這能成。但它在我們的功能清單上。列表上還有其他一些東西。有些點子相當瘋狂。為什麼覺得它成不了?Thomas Dimson:我不擅長預測技術。我當時並不清楚,你是否能提取一個人的“肖像”,並把它融入到想像生成的視頻中,以及這是否能行得通。所以我們有過各種早期原型,像是讓人們在影片角落做反應之類的。但當我們看到客串功能開始起作用時,甚至只是在內部試玩,Rohan,你還記得那天嗎?Rohan Sahai:記得,整個「資訊流」全是客串。變化就是這麼快,從我們沒有這個功能,到一旦有了這個功能,團隊內部立刻就實現了「產品市場契合」。我們產生的所有內容都是關於彼此的內部梗。我想一開始,我們只是覺得,「這太搞笑了,太神奇了。」一周後,我們發現,「我們居然還在玩這個。」這表示這裡面肯定有東西。Thomas Dimson:沒錯。我的意思是,一開始我們其實有點,「這真的好嗎?」「嘿,現在全是客串了。還有人關心別的嗎?大家關心別人在做什麼嗎?」但我們很快就意識到,「不,不,這其實是好事。這真的讓我有動力回來看。」它極大地增加了內容的人性化色彩。因為很多AI 影片只是靜態場景,雖然很美、很有趣,可能裡面在發生極其複雜的事情,但它們缺乏人情味。而客串功能讓人情味又回來了。Rohan Sahai:這也是從圖像生成中學到的另一點。影像生成之所以能火爆並產生病毒式傳播,就是因為你可以用一種前所未有的、低門檻的方式,把自己P到各種場景中。最明顯的例子就是那個「把我放進吉卜力場景」的潮流。還有人們和自己的偶像P合照等等。所以,你仔細一想就會發現,「是的,客串功能太合理了。」你把自己放進所有這些場景。這可太令人興奮了,你,還有你的朋友。這很新奇。這是你以前做不到的。Thomas Dimson:然後再結合二次創作。客串本身就是一種二次創作,但接著你就會開始想,「好吧,那我現在可以在Rohan 做的某件事上進行演繹,」或者別的什麼。我把Bill...我把你P進了一個「動作玩偶」的包裝盒裡。那個影片被二次創作了無數次。各種非常、非常瘋狂的事情就這麼發生了,而且是「湧現」出來的。很多東西是我自己永遠想不到的。05. Sora的演算法旨在激勵創作,而非最大化“盲目消費”Sora 吸引了那些用戶?關於早期採用者,有那些特質讓你們感到驚訝?Thomas,鑑於你在Instagram 負責排名演算法的經驗,Sora 在演算法和排名設計上吸取了那些教訓?你們如何透過產品設計,有意地防止應用淪為「無腦刷」的工具,並強化其「人」與「社交」的元素?Rohan Sahai:你只要去看看「最新」資訊流,那裡簡直是包羅萬象的「資訊洪流」。全是太空人模式,全是spacetime Thomas 模式。那個世界太瘋狂了。但它能讓你好好一窺正在發生的一切。我的意思是,我們現在每天大概有近700 萬次生成,你可以想像那裡承載了多大的資訊量。這是我最喜歡的產品回饋管道之一。人們做的事情類型、使用者的類型,都極為多元。你會看到各種年齡層的人。有些人在想像自己置身於某種激勵人心的場景中;有些人在和朋友們「玩梗」;還有些人在客串平台上已經開放客串功能的公眾人物。所以,這種多樣性讓我感到驚訝。我本來以為,Twitter 上的那群 AI 愛好者會佔領整個資訊流。他們確實主導了媒體的報導,至少是我們接觸最多的部分。但就實際使用Sora的使用者而言,群體的覆蓋範圍非常廣。最後一點是,Sora 的用戶群和之前存在的那個「小眾」 AI 電影圈有了很大的差別。那些人是很好的早期採用者,但現在,我以為我會從那個圈子開始,但感覺Sora一上來就覆蓋了更廣泛的人群。我想,登上 App Store 榜首對此功不可沒。你總是能吸引到那些隨便逛逛、然後發現了這個應用程式的人。(關於排名演算法的教訓)Thomas Dimson:這裡面有很多東西可以談。我認為,當我們思考這些平台,或具體到Sora 時,首先要考慮的就是我之前提到的關於創作的問題。 Sora 基本上讓平台上的每個人都成為了創作者。這與Instagram 之類的環境截然不同,在Instagram 上,創作者的分佈呈現出極端的「冪律」特徵。而這種冪律分佈只會自然變得越來越「頭部集中」。所以,有時候我覺得我必須為 Instagram 的演算法辯護。我們當初那麼做是有原因的,是為瞭解決一個實實在在的問題。它不是一個為了優化廣告之類的隨意決定。我們之所以那麼做,是因為我們注意到 Instagram 隨著時間的推移,由於內容是按「時間順序」排列的,每個發文的人都能保證佔據他所有粉絲資訊流的頂部位置。你只要想一想,在這種環境下,人們的動機自然是不斷地創作,因為他們一創作就能保證獲得分發。久而久之,隨著冪律分佈的頭部越來越重,那些類型的人,他們很棒,為生態系統提供了很多價值,但他們開始擠佔掉你真正關心的人的(資訊流)空間。例如,你可能關注了《國家地理》,我不是要Dunk他們,我很喜歡他們,但如果他們一天發 20 篇帖子,你的朋友可不會。你朋友沒有那樣的最佳化目標,他們可能只是寄一張咖啡的照片。結果就是,你在刷到你朋友的咖啡之前得先看 20 篇《國家地理》的帖子,而那張你真正關心的照片,你可能永遠也刷不到。如果你堅持使用固定的排序,這個問題沒太多解法。要麼,你必須取消關注所有這些你可能關心、但不如那個一天只發一條動態的人重要的帳戶;要麼,你就必須對訊息流進行「重排」。我們選擇了後一條路。我們嘗試了,在內部進行了測試。這個決定在當時爭議巨大。但我認為你完全可以從數學上推導出這一點。這就像一個證明:基本上,隨著時間的推移,你將不得不控制平台的分發權,才能防止這類問題的發生,從而向用戶展示他們真正關心的內容。這就是我們當時做這件事的原因。它也確實展現了巨大的價值。我記得早期的測試,具體數字我不多說了,但結果是毫不含糊的:它確實讓你看到了更多你關心的人,改善了你的平台體驗。它甚至還促進了創作,這很不尋常。它讓人們創作得更多了,因為他們看到了更多自己能接觸到的內容。但我也認為,這些東西隨著時間的推移可能會「偏離」。我不會說 Instagram 演算法是絕對的好或絕對的壞,但是當平台開始引入更多非關聯內容,且廣告壓力變得非常大時,公司也有一種天生的動機去優化“盲目消費”,因為那是你賺錢的方式。所以,也許平台會推送更便宜的內容,或者只是想辦法讓人們刷得更久。而這又會抑制人們的創作慾望,因為它變成了更無意識的刷屏模式。你們已承諾會防止Sora 出現這種情況?Thomas Dimson:我們做出了承諾。我們已經設定了很多“緩解措施”。但我認為對我來說,核心問題在於:我們作為一個平台,到底想做什麼?我認為這項技術的魔力在於,每個人都可以是創作者。所以我們希望這個資訊流是為了激勵你創作而被優化的。這種激勵,有時你想到“靈感”,你會想到,“哦,那是一個多麼美、多麼瘋狂、多麼優雅的場景。”但當我想起激勵時,我想到的是“梗文化”,或者一些特別好玩的東西,比如“哦,這個太酷了,我得'演繹'一下。”我認為當你在瀏覽資訊流時,這是一種完全不同的大腦模式。當然,我們還有很多其他的措施。所以,我認為這一切始於我們的激勵機制。我們當下的激勵機制,就是鼓勵生態系湧現更多的創作。但我們肯定也想阻止某些用例。我們無法保證每次都做對。這非常具有挑戰性。這是一個動態演變的系統。當你在沒有任何數據、不知道該推薦什麼、也不知道平台未來會如何演變的情況下,去編寫一個「推薦系統」是極其困難的。但這基本上就是我對資訊流激勵機制的看法。然後,Rohan,我們設定了很多緩解措施,我想你一直在思考這些,甚至可能比我更深入,用來防止那些極端情況的發生。(關於防止「無腦刷」的設計)Rohan Sahai:首先要補充一點,我們「優化創作體驗」的既定目標非常奏效。幾乎所有透過邀請碼進入應用程式的用戶,都在第一天就進行了內容創作。在他們後續的訪問中,有70% 的時間是在進行創作。甚至有30% 的用戶會將內容發佈到公共的資訊流。這意味著他們不只是為自己產生內容,而是在為整個生態系統做出貢獻。這強而有力地證明了我們模型的出色、趣味性,以及我們目前的優化策略是切實有效的。除此之外,我們優先考慮的事情之一是,我們不希望這個產品淪為一個讓人「無腦刷」的應用。因此,除了在排名演算法中優化創作權重,我們還可以做更多事情。例如,試著將使用者從純粹消費的「心流」狀態中拉出來,引導他們進入創作模式。我記得有一篇很棒的文章叫《賭場的曲線本質》,講他們如何設計賭場讓你無需做出任何決定,你只是在原地打轉,那裡沒有窗戶等等。我們可以刻意地反其道而行。例如,在資訊流中插入一個單元,提示'嘿,你剛看了幾個這個領域的視頻,要不要自己也創作一個? '或用其他方式來打斷你的消費狀態。實際上,我們的產品中已經有了類似的設計。Rohan Sahai:我想我們不會推出一個缺乏人文溫度、純粹由AI 內容構成的資訊流。那樣的產品引不起我們的興趣。當我們真正做出這款產品,有了Cameo 功能,並且團隊內部有了那種社交的感覺時,我們就意識到:『這確實有點不一樣。 'Thomas Dimson:這在當時並非顯而易見。我們是經歷了一場極其瘋狂的衝刺才走到這一步的。最初,我們完全不清楚最終會做出什麼。但現在回想起來,這個關於Cameo 的想法是合理的。可「Cameo 會成為核心功能」在當時是一個完全不符合直覺的產品決策。例如,'你當然只是想看朋友們做酷炫的事情。 '這聽起來順理-成章。但在那個瘋狂的產品研發階段,我從未真正擔心過競爭壓力,因為我們做出了一系列在當時看來「非凡」的決策,這些決策現在回想起來順理成章,但在當時卻毫不起眼,而我們正是在這些決策的基礎上層層構建起來的。例如,'好,就做 Cameos。 '但 Cameo 也可以有另一種形態,例如一個完全為你個人定製的、體驗極佳的單人模式流程,你走完一套引導流程,然後創作自己的東西。但我們當時已經觀察到了一些有趣的動態,例如:『我可以把 Rohan 拉進我的影片裡,這太酷了。 '然後我們可以來一場辯論,或者打一場動漫式的格鬥,內容不限。我當時就覺得:『這才是「人」的元素。這才是這個產品的魔力所在。 '奇怪的是,儘管所有內容都是 AI 生成的,但它比許多現有的社交網路更具社交性。這一點非常反直覺。06. API旨在服務長尾小眾需求,而Sora的探索性則使其具備遊戲DNA應用程式中的模型和API 上的模型是同一個嗎?你們觀察到API 端的主要用例是什麼?這與消費者應用程式上的使用者行為有何不同?你們認為現在的視訊模型是否已經夠好,足以讓開發者在API 之上建立視訊遊戲?還是說仍需等待模型迭代?Bill Peebles:你是說應用和API 產品之間的模型嗎?我們目前在API 和應用程式中的模型是相同狀態的。我們推出 API 的主要動機就是為了支援那些長尾的使用情境。我們的願景是利用這項技術,觸達像 ChatGPT 那樣規模的消費者受眾。但除此之外,還有大量非常小眾的需求。可以想像,在 Sora 1 階段,我們拜訪了很多工作室。他們回饋說,希望以某種特定的方式,將這個模型整合到他們技術堆疊中的某個特定環節。我們很樂意支援所有這些長尾用例,但我們不想為此開發一千個不同的介面。所以,API 承載了我們這方面的期待。到目前為止,我們看到的多是那些相對較小眾的公司。他們不是想建立一個第一方的社交應用,而是可能擁有一些電影製作領域的受眾或他們需要支援的客戶,甚至我們看到有人在嘗試,我記得有家公司在將 Sora 用於 CAD 相關的項目。所以,確實存在一些很酷的用例。我想我們仍在探索它們的全貌。Thomas Dimson:我認為這些模型大有可為。基於我的背景,我總是在思考遊戲領域。 AI 和遊戲一直是個備受爭議的話題,但很明顯,AI 在其中有它的一席之地和特定角色。也許它不必打斷創作過程,而是可以增強這個過程。我非常期待看到這類用例的出現。(關於建構電玩遊戲)Rohan Sahai:我想說,永遠不要低估人們利用科技進行創造的方式。總是會有人能建構出一款遊戲,也許現在已經有人做出來了。至於它的觀感和體驗,很明顯這個模型有延遲,所以你必須採取各種非常規的手段來規避這個問題。Thomas Dimson:我覺得人們會立刻想到那些在遊戲中顯而易見的AI 應用,我們確實也在一些研究部落格中看到過類似的東西。但我的思路經常轉向:'好吧,這是一個有點不一樣的創意工具。 '在這個方向上,真正讓我興奮的遊戲類型,我來詳細說一個,有一款叫《Infinite Craft》或叫“無限合成”的遊戲,堪稱世界上最semplice 的遊戲。它是個網頁遊戲,你只需要取得一些基本元素,像是火、水、土。開局你有四種元素。你只需拖曳它們,它們就會組合成新東西。而組合的結果是基於大語言模型的。例如,火和土可能會合成火山。然後火山加水,可能會變成海底火山,或是哥吉拉之類的。不知為何,最後總能合出哥吉拉。這就是一個很合理的例子。你會覺得:『你根本不​​需要一個固定的遊戲合成樹。LLM 可以自行衍生出這套合成樹,而遊戲過程就成了一個探索發現的過程。 '所以我認為,在那個領域還有很多未被挖掘的潛力。我再次強調,我喜歡「探索發現的過程」這個概念。事實上,我對 LLM 乃至某種程度上的視訊模型的哲學觀點是:它就是一個發現的過程。所有的可能性都已蘊含在模型的權重中。你只是在用你的提示詞這串「秘密代碼」來解鎖它們。我太愛這種感覺了。這非常奇妙。在遊戲領域,這始終是最讓我興奮的部分:發現新事物,尤其是當它是一個「真正」的發現,而不是別人預先放置在那裡的。也許開發者只是設定了它周圍的機制。所以,我認為遊戲領域蘊藏著巨大的機會,前提是你能以一種全新的方式去思考遊戲,並以一種截然不同的方式去擁抱這項技術。Thomas Dimson:我認為限制依然存在,而解決限制將是機制設計需要做的。這仍然非常依賴人類的智慧。就像很多早期基於GPT-3 的遊戲,它們可能剛開始玩一分鐘還挺有趣,但很快就偏離了軌道。你會覺得:『我完全不知道我接下來在幹嘛了。 '但是,Sora 給人一種類似的感覺,它的內核裡帶有一點點遊戲的DNA,讓人覺得非常有趣、與眾不同,且富有探索性。所以我喜歡這樣的東西,而且我認為未來會出現更多我們現在甚至無法想像的用例。07. Sora賦能個體創作,但運算成本是普及關鍵你們在創意電影製作方面觀察到了什麼? Sora 是想賦能市場的長尾用戶,還是想賦能創意市場的「頭部」專業人士?關於「長篇電影內容」的願景,我們何時能實現個人創作者製作長篇電影?未來會不會出現完全在Sora 2 上創作的長篇電影?Bill Peebles:這是個非常好的問題。我們從那些創意人士身上受益良多,他們非常願意全情擁抱早期的技術,例如DALL-E 1 和DALL-E 2,並真正幫助我們指引了前進的道路。我認為,我們必須繼續為這些人建立工具。並且,我們正在長期推進一些更針對創意領域高級用戶的專案。同時,我堅信 AI 在其最佳狀態下是一種極具民主化特徵的工具。因此,Sora 平台的魅力在於,無論何時有人創作出了爆款,例如你看到了那些衝上所有人資訊流頂部的精美動漫提示詞,任何人都可以去“混剪”它。每個人都有能力在它的基礎上進行再創作,並且可以向​​那些深諳如何最大化利用這些工具的人學習。因此,我真的很高興看到全人類的整體創造力水平因此得到提升。但我認為,實現這一點的關鍵在於繼續賦能那些總是走在最前面的人,也就是那些更偏向專業的創意人士。所以,我們也希望繼續在他們身上投資。(關於長篇電影)Bill Peebles:我認為這在某種程度上會分階段實現。如果你看了我們的發布視頻,那是Sora 團隊的Daniel Freiden 製作的。利用現有的工具,他已經能夠在最多幾天之內,高效產出那些極具吸引力的短篇故事。那幾乎是他一個人在極短的時間內獨立完成的。從那以後,他也在OpenAI 的Twitter 帳號上持續發布新的作品。所以,很明顯,這項技術正在大幅縮短電影製作的周期。但我認為,要達到讓任何人,例如任何一個孩子在家裡就能啟動應用或登入 sora.com 之類的網站去創作的程度,這本質上是一個視訊模型的經濟學問題。影片是所有模態中計算密集度最高的。它極其昂貴。我們的研究團隊正在取得良好進展,持續探索如何讓這項技術在未來能被每個人負擔得起。舉個例子,Sora 應用程式目前是完全免費的。未來,很可能會推出付費方案,人們可以透過付費來獲取更多的模型存取權限,這只是因為這是我們能進一步擴大服務規模的唯一途徑。但是,我認為我們離那個「任何人都能擁有創作絕佳內容工具」的世界已經不遠了。我猜想,這個過程中會產生大量的爛片。但同樣地,下一位偉大的電影導演,可能現在坐在他父母的房子裡,或許還在上高中,他只是缺少投資或工具來讓自己的願景成為現實。當我們把這項技術交給全世界時,我們將會發現一些絕對了不起的創作。Thomas Dimson:我想就這點再補充一句。我從推薦系統中反覆學到的經驗是:工具能激發人們更多的創造力,這將是一個巨大的釋放,因為它能讓更多普通人變得富有創造力,你不再需要那些昂貴的電影製作設備。但我們也始終觀察到,內容在某種程度上也是一種社會現象。你所看到的電影和所有其他內容,除了內容本身,還帶有一點社會屬性。因此,我認為我們將進入一個非常有趣的時代:創作者如此之多,內容如此氾濫,以至於「是否有人在關注和觀看」這件事本身將變得越來越重要。我猜這反而會促使內容的整體品質提升,因為當任何人都可以創作時,真正稀缺的將是消費者的注意力。這與我們今天所處的世界截然不同。08. Sora正與IP持有者合作,探索共贏的商業模式你們在處理IP持有者關係時顯得非常深思熟慮。能談談這方面的策略與進展嗎?Bill Peebles:我們一直與業內許多夥伴保持著密切合作,一方面是向他們展示這項新技術,另一方面,這項技術對所有權利持有者而言都具有巨大的價值主張。我們從交流中聽到了他們極大的熱情。他們真的認為這是一個新前沿,讓全世界的每個孩子都有機會使用那些備受喜愛的IP,並將其帶入自己的生活,這種體驗比以往任何時候都更加個性化和定製化。同時,我們非常希望確保我們以正確的方式推進這件事。因此,我們一直在努力收集回饋,並據此引導我們的路線圖,我們希望確保用戶在使用這些 IP 時能獲得絕佳體驗,同時權利持有者也能獲得合理的貨幣化收益和回報,實現真正的雙贏。目前,我們正在積極地規劃具體細節,例如,如果你想 Cameo 某部備受喜愛的電影中你最喜歡的角色,我們要如何讓你既能訪問這個 IP,同時產生的收益又能回流到權利持有者手中。這相當於,我們要為創作者們建構一個全新的經濟生態。我們現在必須從零開始創造這一切。關於如何正確地做到這一點,有許多深層的問題需要解決。就像對待這個應用程式的其他所有功能一樣,我們秉持開放的心態,傾聽回饋,然後快速迭代。我們不確定它最終會演變成什麼形態,但我們正與各方密切合作,共同尋找答案。09. 下一步計劃:即將推出“寵物Cameo”Sora 應用程式的下一步計劃是什麼?關於長篇電影的未來,你們認為它會是什麼形態?Bill Peebles:寵物。寵物Cameo。讓你的寵物也加入Cameo。Rohan Sahai:這是使用者需求量最大的功能之一。Bill Peebles:至少對我來說,是最大的需求。Rohan Sahai:這點千真萬確。我們承諾過,這個功能就快來了。我們當時測試這個功能時,還用了Bill 的狗,Rocket。能讓寵物真正成為主角,這體驗真的非常非常酷。你可以想像這未來有多大潛力。而且不一定要是寵物。它可以是任何東西,一個時鐘,或你身邊的任何物件。Thomas Dimson:我有一個時鐘。在《辛普森家庭》很早的一集裡,他們提到了一個會走路的時鐘。不知為何,這東西在過去30 年裡一直在我的腦海裡揮之不去。我想:'Rocket,會走路的時鐘。 '於是我就試了一下。我們一直在測試這個功能,就是想看看能不能實現,以及它是否有什麼特別之處。這也是在Sora 團隊工作的樂趣之一:你可以玩這項瘋狂的、不斷湧現的新技術,它也許會做出你完全意想不到的事情。所以我錄了一段我那個時鐘的兩秒鐘視頻,然後給它下了一些cameo 指令,我說:'你就是一個會走路的時鐘。你是會走路的時鐘。你會說話,你是一個角色。 '然後我生成了我的第一個視頻,效果簡直了。太瘋狂了。它就是一個會走路的時鐘。(關於長篇內容的未來形態)Rohan Sahai:關於未來,我想補充一點。關於長篇電影的問題,我一直在思考,它究竟會是什麼樣子?我先聲明一下:這裡只有Bill 擅長預測未來。但我的感覺是,隨著我們轉向更長的內容形式,我們所對應的「長篇電影」在觀感上將與今天的長篇電影截然不同。我不知道具體會是什麼樣,但在創作者和未來趨勢這個主題上,我認為會出現一種新的媒介和一類新的創作者。當然「新階級」也可以包含許多現有的創作者,並支援現有的媒介。但我認為,我們正處於我所設想的「下一個電影產業」的開端,而不是簡單地把它想成是(現在的)長篇電影。我認為會有全新的東西誕生。有個軼事,我希望這是真的,因為我老是提它。據說,當攝影機剛問世時,人們做的第一件事就是去錄製舞台劇。這大概是攝影機最無趣的用法了。就像是:'這有什麼了不起的?哦,我們不用到處巡迴演出了。我們可以把劇目錄下來然後分發。 '直到後來才有人反應過來:'等等。我們可以拍電影,我們可以在所有這些不同的地方拍攝。 '我覺得,我們現在正處於人們將用這項技術做各種事情的起步階段,尤其是當延遲、內容長度和所有這些限制都發生變化之後。10. Sora的終局是「數位副本」平台你們如何看待Sora這類新模擬格式的未來潛力?Sora 的終極願景是什麼?是在建構多元宇宙嗎?你們如何看待「模擬世界假說」?Sora 的理論極限是什麼?Bill Peebles:那將會非常瘋狂。我認為這裡有一個更宏觀的觀點:這款應用程式現在在很多方面都讓人感覺很熟悉。它的核心是一個社群媒體網路。但從根本上說,我們內部對它的定位是:透過Cameo 功能,我們引入了一種讓使用者向Sora 提供自身資訊的「資訊密度最低」的方式,關於你的外表、聲音等方面的資訊。你可以想像,隨著時間的推移,這個資訊通道的密度會大大增加。到那時,模型將深度理解你與他人的關係。它不僅瞭解你某一天的樣子,它看過你全部的成長經歷,所有關於你自己的細節。我們將真正使其幾乎能像數位克隆一樣運作。所以未來真的會有一個世界:Sora 應用程式幾乎變成了在你手機上運行的一個迷你替代現實。你擁有自己的數位版本,它們可以去和其他人的數位克隆互動。你可以讓它做知識性工作。它不僅僅是為了娛樂。它真的會更演變成一個平台,這與世界模擬能力的長期發展方向是高度一致的。我認為當這一切發生時,我們將看到的那些自發性湧現的事物將是超乎想像的。對於 OpenAI 而言,至關重要的是,我們要以一種迭代部署的方式來推廣技術,而不是在某個重大研究突破出現時,就向世界扔出一個「重磅炸彈」。我們希望社會與科技能夠協同演化。因此,我們認為現在推出這個功能非常重要,並且要以一種我們又一次達到了視訊領域的 GPT-3.5 時刻的方式來做。我們要確保世界瞭解到「現在已經能做到什麼」。同時,也要開始讓社會感到適應,並為這個更長遠的願景探索出「產業規範」。在那個願景裡,Sora 中、在網路空間中,到處都是你自己的副本在運行,執行任務,然後再向物理世界報告。因為,這才是我們長期的發展方向。(關於是否為建構多元宇宙)Bill Peebles:差不多是這樣。(關於模擬世界假說)Bill Peebles:這涉及到一些非常深刻的,非常深刻的存在主義問題。正在上升。我感覺我現在有穩穩的60%。事到如今,我們被模擬的可能性已經大於不是被模擬了。(關於Sora的理論極限)Bill Peebles:這真是個好問題。我稍微思考過。我覺得有一個問題是:你最終能在Sora 內部模擬一個GPU 叢集之類的東西嗎?我猜想,對於你在某個系統上實際投入的運算資源而言,你能在這個系統內部運作的運算量是存在一個非常明確的上限的。我還沒有足夠深入地思考過這個問題,但我認為這其中存在一些需要被解決的存在主義問題。完全由AI 生成的作品,會先贏得那個主流獎?屆時我們能分辨出它是AI 嗎?世界模型的第一個科學發現會是什麼領域?有那些是Sora(或世界模型)最後才能準確模擬的?Rohan Sahai:我認為合乎邏輯的答案是:一部AI 短片贏得奧斯卡。Bill Peebles:我想這很可能是對的。Thomas Dimson:我覺得,如果人們能用有趣的方式把各種素材拼接起來,你真的可以藉此創作出非常引人入勝的敘事。而且我感覺,我現在看到的那些內容,已經不那麼像AI 生成的了。這也是我注意到Sora 的一點,我甚至都沒意識到那是AI。它們本身就是有趣的內容。Thomas Dimson:能否分辨出來,會的。Rohan Sahai:也許得獎的事已經發生了。(關於第一個科學發現)Bill Peebles:我猜會是跟經典物理相關的,像是更好的湍流理論之類的。我猜是這個。Thomas Dimson:我也猜是類似的東西。例如納維-斯托克斯方程,我不知道,某個流體力學的問題,也許現在還很難理解。那個領域有很多未解難題。或者是像連續介質力學這樣的東西,它的狀態介於兩者之間,我們目前還沒有很好的模型來描述它們。(關於最後才能模擬的東西)Bill Peebles:我確實認為,對於某類物理現象而言,視訊資料是一種很差的表徵方式。舉個例子,透過影片片段來學習高速粒子碰撞,這種方式真的有效率嗎?也許吧。我真的認為,只有當你試圖瞭解的現象本身就是以物理世界的形態自然呈現時,影片才是最好的媒介。因此,當你需要研究量子力學或其他更理論化的學科時,我們並沒有相關的影片片段...Bill Peebles:是的,我們沒辦法用肉眼看見它。我們有的只是那些為了教育目的而手動渲染出來的演示。影片在理解那些事物方面,似乎是一種比較弱的媒介。所以我猜那些東西會是最後才能被模擬的。也許思考這個答案的另一種方式是:什麼是我們最後才關心去模擬的東西。我不知道。例如現在就沒什麼人在研究氣味。那還是個空白領域。Thomas Dimson:之前有一輪測試人們產生禿頭形象的效果很好。我們都在玩禿頭,生成禿頭的效果很棒。這是一個非常好的用例,雖然我不常提,但它就是視覺化。當你禿頭的時候,每個人都想試試禿頭。你只是想看看自己在某個不同情境下的樣子。我認為這可能相當有力量,甚至在某些方面有治癒效果。你只是看到自己處在某個你希望或不希望自己進入的情境中,只是看著自己的樣子。Rohan Sahai:這是個真實存在的用例。 (數位開物)
美國AI已入化境,左腳踩右腳直接上天
創造神話,Sora2只用了一個晚上。在「邀請碼+iOS系統限定+僅開放美加地區」的三重高門檻情況下,Sora上線即刷屏,不到五天就登頂美國App Store應用榜榜首。這次Sora2不僅原生音頻,還實現了音畫同步與一定的故事性。至此,全球網友終於集齊TikTok、ChatGPT、Sora三大神技,可以在網路上再造一個虛擬的平行世界。新手玩家們用Sora2讓貓咪開賽車、拖拉機,老選手已經把奧特曼的虛擬形象帶到中國,讓他在各大視頻網站上說相聲、搞穿越。有人在影片裡養老虎和恐龍,就有狗在違章駕駛時試圖逃逸,還有老人在「單手舉老伴」運動後,發現自己是AI。生物倫理混亂、歷史覆蓋現實、人類極限消失。AI賽道,被Sora2推上新的賽點。不過這一次,全球網友有點過於熱情了。來自好萊塢、任天堂的頂級IP一個接一個地被玩壞,日本動漫也被網友“大雜燴”,不光柯南能與路飛打棒球,路飛還能把悟空一拳打飛。版權糾紛帶來的法律風險自不必說,這麼一搞,Sora吸引使用者的策略也難免受到影響。圖註:Sora生成的悟空對OpenAI來說,迪士尼們不給版權,它當然也可以不給使用者開放經典IP的二創權。反正獲利已經如此拉胯,蝨子多了不怕癢,罐子破了不怕摔。誒,這就聊到重點了。咱別光看OpenAI坐擁兩款史詩級應用ChatGPT和Sora,估值已經達到5000億美元,要看收入,OpenAI在2025上半年就只入帳了大約43億美元。各位看官,您覺得這合理嗎?OpenAI的獲利危機背後,美國的一眾AI相關企業也相當頭疼,究竟是繼續搭建算力豪賭未來,還是放緩投資戳破泡沫,真的是一個極難的選擇。今天咱就透過Sora2爆火這件事,探探美國AI的虛實。期待已久,舉世矚目多年來,全球AI產業一直維持兩極格局,美國做底層大模型,中國搞多元化的落地應用。我們的困難是模型不鋒利,他們的困難是商業變現難,投入又上不封頂。直到今年,中國DeepSeek橫空出世,大批網路應用陸續接入,我們的難題得到一定程度的解決,可美國的AI產業,仍深陷成本收益失衡的險境。一向追求技術領先的美國,豪賭下一代AI能成為有力的科學研究助手,以及推動高端製造業回流的生產力工具。甚至美國國家標準與技術研究院(NIST)和國防高級研究計劃局(DARPA),在關鍵報告中也清楚地描繪了對AI產業的期望。這其中,它們提到一個重要概念,「世界模型」。「世界模型」是讓大模型理解真實世界的重要工具,也是許多頭部科技企業奮鬥的目標,是「下一代AI」的核心之一,需要極大的算力和資本的支援。這次Sora2爆火的原因,不僅是因為好玩,還因為許多專業人士將其定義為目前全球最接近「世界模型」的應用。OpenAI投國家戰略所好,融資自然也是手到擒來。截至目前,OpenAI已從特斯拉、微軟、軟銀、Thrive Capital等企業募集了不少於500億美元的資金。今年,它還收到來自輝達的最高1000億美元融資計劃,雙方共同打造總容量至少10吉瓦(GW)的AI數據中心。眼看著OpenAI風光無限,大部分美企只能羨慕嫉妒恨。既然無法像OpenAI一樣吸金,還可以成為它的合作夥伴,吸它剩下的金。上個月,甲骨文因與OpenAI簽訂3,000億美元算力的購買協議,自身股價一夕暴漲40%。國慶期間,類似情況發生在晶片巨頭AMD身上,一個來自OpenAI的6吉瓦算力部署協議,就讓AMD在10月6日一天內股價暴漲36%,3天暴漲43%。圖註:OpenAI的CEO奧特曼,一度成為美國科技圈人緣最好的老闆。不過這也反映出另一個問題,那就是美國的AI絕大部分集中toB業務,服務銀行、物流、農業、軍事等領域,面向大眾的“超級應用”,就只有Sora、ChatGPT等少數幾個。即使是2023年憑藉奧斯卡獲獎電影《瞬息全宇宙》火爆一時的Runway,目前的獲利仍停留在千萬美元級。圖註:《瞬息全宇宙》中「香腸手」畫面就是Runway製作。投入兆資本支援AI產業發展,產出卻少得讓人心疼,莫不是說西方的AI世界裡也有「鬼打牆」?美國AI,踏入“旋轉門”美國AI賽道的資本運作,堪稱一場「左腳踩右腳」的循環遊戲。首先,以OpenAI為代表的頭部科技企業,透過推出爆款應用,獲得超大體量使用者和互動資料。接著,它們用這些資料釣取資本的關注,讓它們排隊打錢。緊接著,數百家手持資本的頭部科技公司,紛紛向上游大型算力供應商購買資料中心服務,讓Google、亞馬遜等公有雲運營商藉此獲得極為漂亮的財報資料,烘托出美國AI產業的集體繁榮。資料顯示,2024年第四季,Google雲業務成長高達30%,亞馬遜和微軟的相關業務成長,都在19%左右。最後,賺了錢的Google、亞馬遜們,不約而同向輝達批次採購GPU。到這一步,資本從OpenAI這樣的科技公司,一步步向上游轉移,彙集到輝達後,最後又通過融資的方式回到了OpenAI,實現一場波瀾不驚的旅行。圖註:輝達和OpenAI如何為AI「印鈔機」添燃料這種無限循環遊戲,在投融資領域被大家形象稱為「旋轉門」——資金的循環可以永無止境,價值的產出也能遙遙無期。今年上半年,OpenAI實現43億美元收入,但它光在研發上就已經支出了67億美元。悖論的是,雖然未實現現金流轉正,但到2023年之前,OpenAI的投入預算已經高達4,500億美元,企業估值更是高達5,000億美元。坐擁ChatGPT和Sora兩大殺手級應用,卻獲利難產,很難不讓人懷疑,奧特曼正在用人格魅力,為OpenAI吹泡泡。而那些圍繞在OpenAI周圍的跨國大廠,不僅是其中助力,還樂享其成。圖註:OpenAI、甲骨文與輝達的資本循環。根據摩根大通的報告,今年美國的創投總額,有71%都用在了AI領域,而這資料在2020年時,還只有14%。與此同時,今年美股市場標普500指數,驚人漲幅中的大部分都來自AI相關企業。要知道,一個產業如果被巨頭們鎖定資本,資源的分配就不均衡,其他企業的發展就會受阻。這意味著創新的小企業可能連爭取上桌的機會都沒有,整個市場面臨多樣性缺乏的系統性風險。對此局面,高盛CEO大衛·所羅門(David M. Solomon)甚至發出警告:大量湧入AI領域的資本,可能無法獲得預期回報。其實早在去年6月,高盛就發布一份報告,指出美國AI產業在極高投入之下,回報與產出的微薄,甚至引發產業對於AI是否過熱的討論。然而還沒等大家討論出結果,中國這邊DeepSeek用「開源+免費+低成本」三張牌,直接把美國這幫大佬看傻眼了。這意味著美國的AI圈子,不僅面臨獲利難題,還要聯合應對來自中國的競爭壓力,甚至在未來還有可能接受更多資本的質疑。而就在這個月,矽谷的另一位大佬,曾親歷過四次科技泡沫的傑瑞·卡普蘭(Jerry Kaplan)直接指出:“泡沫破裂時,情況會變得非常糟糕,而且受影響的絕不僅僅是AI領域,還會拖垮整個經濟。”卷!卷!卷!對任何行業來說,當獲利遙不可及,其中各種角色就會用各種方式調動資源,最終形成內捲。美國的資本,這次站在了內卷的前線。來看一個直觀的例子。今年年初,美國搞出一個科幻風格的大項目,名為「星際之門」。OpenAI和微軟聯手,甲骨文提供算力,軟銀的孫正義,要在四年內為項目輸入5000億美元資金,中東MGX主權財富基金也積極參與,要為這個AI賽道的“阿波羅登月計劃”保駕護航。圖註:德克薩斯州正在建造的首個「星際之門」資料中心5000億美元,什麼概念?拜登在任時曾簽署一套基建法案,其中包含660億美元為美國重建鐵路的計畫。這筆帳如果算得精準,5000億夠給美國的鐵路網翻新8次了。結果,孫正義前腳剛踏進AI混戰,馬斯克就發來問候:“孫正義沒錢,最多100億美元。”孫正義也沒躲,直接接招:我會融資。咱就是說,借錢給別人創業,孫老闆難道真是在錯失輝達後,心有執念?孫正義自己可不這麼想。他認為,未來10年,AI將取代全球GDP的5%-10%,那就是大約9-18兆美元。利益催動之下,企業聞風而動。被華爾街分析師定義為「新美股七姊妹」的蘋果、微軟、Google母公司Alphabet、亞馬遜、輝達、Meta、特斯拉,無一例外全都重註AI。其中微軟、Meta、亞馬遜、Google四家,今年在資料中心、晶片等AI基礎設施上預計投入3,200億美元,約合2.3兆人民幣,佔過去五年的一半還多。上了賭桌,就要接受有輸有贏。就在今年8月,AI賽道重磅擱淺選手出現。技術狂人埃隆·馬斯克,關停了投入超10億美元的超級電腦項目Dojo,並為此輔以輓聯:“Dojo項目走進了進化的死胡同。”代價慘痛,卻未能喚醒其他的局中人。從彭博社揭露的資料來看,美國的各大科技巨頭,仍在為各自的AI業務不斷輸血。越是看不到盡頭,就越需要故事與行動。資金與腳步,總有一個在路上。美國AI圈的宏大敘事,正在進行中。結語前面我們提到了一個賽道,曾跟目前的AI產業特別像,那就是電影。不知道大家還有沒有印象,在中國電影被《十面埋伏》、《無極》、《滿城盡帶黃金甲》統治的年代,中國上映了很多超認知的「大片」——劇本場面大、演員咖位大、投資體量大。投資人可著勁砸錢,明星們傾情出演。即使觀眾評分再低,還是會有導演頂著「辣眼睛」​​三個字,推出更多逆天的作品。後來業內有人將這段時間,稱之為「中國的經濟上行期」。那時候,中國的大銀幕數量從大約1.3萬塊暴增到約8.2萬塊,一年的總票房翻了近4倍。大家認為,只要有大製作、多元化的作品,那就一定能賺到錢。資本與創作者的信心,共同構成了時代的繁榮。看懂了電影的那幾年,我們再看現在的AI。大洋彼岸的“新美股七姐妹”,全都在AI技術上油門踩到底,不考慮投入產出比,只關心版本是否能升級;不計後果地推高研發投入,只要我的產品能比對家早幾天發布。結果如何?目前的AI工具,在內容創作領域,已經形成對一般從業者的壓榨。例如廣告視覺領域,低端的P圖師是無論如何幹不過AI的。但在生物科技領域,AI 已經掀起真正的革命:藥物研發方面,AI能快速篩選不同分子,幫研發企業縮短10年的試錯周期;在基因分析領域,AI 能穿越海量資料,找出潛在的抗衰靶點。超出人類極限的大規模計算,對AI來說只是灑水。聊到這裡,再去回望中國電影的“經濟上行期”,資本與創作者曾用“大片”堆砌出市場的短期繁榮,但最終還是回歸到作品是否打動人心。當下的AI賽道何其相似——巨頭的資本狂歡、技術的軍備競賽,共同構成了時代的喧囂。但AI的終極意義,終究不是創造社交爆款,或內捲技術參數,而是突破人類認知和能力的邊界,就像醫藥領域做到的那樣。再洶湧的浪潮,也有褪去的一天。能穩住腳步的,是那些將技術深度融入產業,切實提升生產力的務實者。這才是AI存在的真正價值。 (鈦媒體AGI)
AI垃圾開始泛濫了!
Sora做社交,ChatGPT上廣告,OpenAI正在復刻早期的Facebook?
OpenAI在追求使用者成長與商業化的過程中,正逐步採納Meta式的發展邏輯-從引進大量前Meta主管,到將ChatGPT打造為高頻社交化應用,再到對廣告業務態度轉向開放。隨著估值高企與獲利壓力疊加,OpenAI正從理想主義的研究實驗室,轉型為以成長和參與度為導向的商業巨頭。明星人工智慧公司OpenAI正日益顯露出社群媒體巨頭Meta的影子。在一系列旨在推動用戶成長和商業變現的戰略轉向中,OpenAI不僅引入了大量Meta前員工擔任要職,其產品路徑和盈利模式也開始復刻Meta的成功路徑,這引發了公司內部對於其研究初心的擔憂,也讓外界重新審視這家AI先驅的未來走向。最新的動態是,OpenAI上月推出的文生影片應用Sora,正以社群網路的形態迅速佔領應用程式商店榜首。然而,這個方向引發了內部員工的普遍憂慮,他們擔心公司對於內容審計、平台治理等社群媒體固有的難題準備不足。據兩位在職員工透露,在內部會議和Slack資訊中,員工們對此舉是否符合公司發展方向提出了質疑。與此同時,OpenAI在商業化路徑上正打破過去的禁忌。據三名在職員工稱,公司高層對廣告業務的態度已明顯軟化。 CEO Sam Altman最近在播客中表示,他認為某些廣告(如Instagram的廣告)可以為使用者增加價值。這一表態與他去年將廣告稱為「最後手段」的立場形成鮮明對比,標誌著OpenAI為滿足其高昂估值下的收入壓力,正認真考慮廣告這一最經典的互聯網變現模式。這一系列轉變的背後,是OpenAI為支撐其數月前達成的半兆美元估值而產生的巨大商業化壓力。這家公司正從一個純粹的研究實驗室,加速向一家成熟的科技巨頭轉型。對於投資者而言,OpenAII能否在擁抱商業化的同時,維持其技術創新優勢和品牌聲譽,將是決定其長期價值的關鍵。高階主管團隊「Meta化」與文化隱憂OpenAI戰略轉向的一個直接驅動力,是其人員構成的顯著變化。據The Information基於領英資料的分析,OpenAI約3,000名員工中,有近20%(約630人)曾供職於Meta。這股「Meta校友」力量強大,以至於公司內部的Slack中設有一個專門的頻道供他們交流。這批前Meta員工在OpenAI擔任了多個關鍵領導職位。新任應用部門執行長Fidji Simo曾在Meta工作十年,並升任Facebook負責人。此外,應用部門首席技術長Vijaye Raji、首席營銷官Kate Rouch以及招聘負責人Joaquin Quiñonero Candela等高管均有Meta背景。儘管Simo在上任後的首次全體會議上安撫員工,稱不希望複製在Meta的經歷,但這並未完全打消所有人的疑慮。據一位在職員工透露,今年年初,一個員工工作組曾就公司文化是否「過於Meta化」進行內部調查。部分員工尤其對Meta在內容審計、使用者隱私和青少年安全方面長達十多年的掙扎感到警惕,不希望OpenAI重蹈覆覆。轉向用戶成長與「參與度」指標在產品策略上,OpenAI正明確地將重心轉向使用者成長。據一名前OpenAI員工稱,曾擔任公司首席產品官的前Meta高管Kevin Weil在2024年加入後,曾在一份內部備忘錄中提出將ChatGPT周活躍用戶做到10億,並通過前GoogleCEO Larry Page提出的「牙刷測試」(指用戶每天都會使用的產品)的目標。這種赤裸裸地強呼叫戶數量而非產品品質的策略,引起了包括時任首席技術官Mira Murati在內一些高管的不滿。如今,這一增長理念正被貫徹。在過去一年的公司會議上,Altman反復強調提升ChatGPT使用者使用頻率的重要性,希望使用者從月度使用轉向每周甚至每日使用。為此,產品團隊推出了一些旨在提高使用者黏性的功能,例如讓ChatGPT在回答結束後主動建議後續任務。據一名前員工透露,為了鼓勵日常使用,該公司還致力於提升ChatGPT在查詢股價、體育比分和天氣等任務上的精準性。這種對「參與度」的追求甚至滲透到了核心研究環節。一位前員工表示,在模型「後訓練」(post-training)階段,團隊已開始強調參與度指標,這讓一些員工感到不安,擔心公司會淪為「參與度農民」(engagement farmers)。鬆動的廣告紅線與商業化壓力最能體現OpenAI向Meta模式靠攏的,是其對廣告業務態度的轉變。除了Altman的公開表態,應用部門CEO Simo也在近期的內部會議上確認,公司正在研究廣告及其可能為使用者帶來的好處。一個有趣的發現是,OpenAI在使用者焦點小組訪談中得知,部分使用者已經假設ChatGPT的回答是基於贊助排名的,這反而成為一些員工主張引入廣告的論據。具體執行層面,一個名為「戰略倡議」(Strategic Initiatives)的團隊正在探索廣告業務。據一名在職員工稱,該團隊由曾幫助建立Meta負責任AI團隊的Irina Kofman領導,其成員也大多來自Meta。該團隊的一個重點研究領域是,探討ChatGPT是否可以基於其「記憶」(即它記住的關於使用者的資訊)來展示廣告。這與Meta基於使用者資料進行精準廣告投放的核心商業模式高度相似。在高速成長的壓力下,擁抱廣告似乎成為必然。OpenAI在過去兩年裡員工規模增加了近四倍,從約800人增至約3,000人,今年上半年的收入已飆升至43億美元。面對投資者的期待,OpenAI需要找到可持續且規模化的收入來源。內部的製衡與復雜心態儘管「Meta化」趨勢明顯,但OpenAI內部並非鐵板一塊。部分員工歡迎前Meta員工帶來的商業紀律和對商業模式的關注,認為這對公司快速發展是必要的。同時,公司也試圖設立「防火牆」以保護其研究文化。 Simo接手大部分業務後,由首席研究官Mark Chen領導的核心研究部門仍直接向Altman匯報,並將搬入一個獨立的舊金山辦公室。即便是追求成長的Altman,也在推動一些旨在防止使用者過度沉迷的功能,例如在使用者長時間使用後提示其休息。這反映了公司在追求商業成功與維持健康產品生態之間的複雜心態。然而,從Sora的社交化嘗試,到對廣告業務的開放態度,再到對使用者參與度指標的日益重視,OpenAI無疑正在其商業化的道路上,踩出與早期Facebook越來越相似的腳印。 (invest wallstreet)
OpenAI收緊Sora監管!
當地時間周一(10月20日),人工智慧(AI)研究公司OpenAI發佈聯合聲明稱,將與演員布萊恩·克蘭斯頓、美國演員工會(SAG-AFTRA)及其他表演者工會合作,防範其AI視訊生成應用Sora的深度偽造(Deepfake)內容。據美國演員工會在社交媒體平台X上發佈的資訊,在9月底Sora 2上線後,有使用者在平台上生成了未經授權、模仿克蘭斯頓聲音與形象的AI視訊,引發了這位《絕命毒師》主演的擔憂。克蘭斯頓在聲明中表示:“感謝OpenAI制定政策並完善防護機制,並希望他們以及所有從事這一領域的公司,能夠尊重我們管理個人聲音與形象複製權的職業權利。”除了美國演員工會之外,OpenAI還宣佈將與代表克蘭斯頓的聯合人才經紀公司(UTA)、經紀人協會(ATA)及創意藝術家經紀公司(CAA)展開合作,以進一步強化對未經授權AI生成內容的防護。此前,CAA和UTA曾公開批評OpenAI在Sora中使用受版權保護素材的做法,稱其對客戶及其智慧財產權構成威脅。上周,因Sora使用者生成對民權領袖馬丁·路德·金的不敬形象,OpenAI應馬丁·路德·金遺產委員會的要求,在Sora平台封禁了相關視訊。自9月30日Sora 2推出以來,OpenAI在版權與肖像使用政策方面持續調整。10月3日,OpenAI首席執行官薩姆·奧爾特曼更新了Sora的“退出(opt-out)政策”。該政策此前允許使用智慧財產權內容,除非版權方明確要求停用;新政策則賦予權利人“更精細的角色生成控制權”。在Sora推出時,平台就要求對個人聲音與肖像的使用需經授權同意(opt-in)。OpenAI隨後又進一步承諾稱,將迅速回應任何相關投訴。OpenAI還重申支援美國的《禁止偽造法案》,該法案旨在防止未經授權AI生成他人聲音或肖像。 (科創日報)
“百度不做”,僅僅一年,李彥宏反悔了
唯物的中國晶片產業深度觀察中國AI視訊應用從沉寂到火熱、李彥宏的“反悔”都有“打臉”之嫌。這些前後轉變到底隱藏著大廠的那些秘密?百度創始人李彥宏在一次內部講話中說,Sora這種AI視訊大模型投入周期太長,10年、20年都可能拿不到業務收益,無論多火爆,百度都不會去做。那是2024年10月,創造了ChatGPT的公司Open AI推出文生視訊應用Sora已經有7個月。今年大不相同。9月30日,Sora 2正式發佈。僅僅過了14天,百度便高調推廣“百度蒸汽機”AI視訊模型,和急於“秀肌肉”的GoogleVeo 3.1撞個滿懷。Sora問世時一片寂靜,而Sora 2誕生後,各個競爭對手都急著與Sora 2一爭高下,唯恐少出了風頭。一片沉寂雖然李彥宏說“百度不會去做”的幾個月後,百度就開始加大力度投入AI視訊,但李彥宏的說法也確實指出了行業裡的普遍焦慮。這種焦慮直接導致了中國大廠在Sora推出時“一片沉寂”。話要說回2024年2月。Sora一問世就成了Open AI手裡的一張王牌應用。和其他應用“模擬現實”不同,Sora達到了“建構現實”的高度:二者的區別是,前者只能模仿現實世界的表象,而後者在數字世界裡依照現實規則重新建構了“現實”。比如,在現實中,我們咬下一口蘋果,蘋果上會留下牙齒的痕跡。Sora生成的視訊能夠再現這一細節,是因為它遵循了施力、受力這一基本物理規則。細節是真實感的基礎,視訊和圖像最需要細節的真實。那時,其他文生視訊應用都做不到這一點。Sora之前,國內大廠也佈局了文生視訊領域。2023年底,百度發佈過文生視訊工具“度加剪輯”,可以一鍵獲取最新熱點、AI生成文案、一鍵生成視訊。字節跳動推出過同類模型Pixel Dance,阿里也曾上線Animate Anyone模型。然而,Sora一出,中國大廠避之不及,有公司甚至堅決否認自家產品等於“中文版Sora”。當時,國內大廠佈局的重點並不在文生視訊領域,他們的當務之急可不是做出中國版Sora,而是努力趕上GPT-4。圖源:pexels由於當時中國AI大模型和GPT相去甚遠,自然搞“基礎建設”而不是“上層建築”是更緊迫的事情。就像某大廠模型業務負責人曾無奈表示,“ChatGPT之前大家也都有聊天機器人啊……關鍵是能不能達到那個水準。”中國大廠的焦慮,根本原因在於自家大模型與Open AI、Google的世界頂級大模型之間的巨大差距。如果大模型能力有限,談什麼文生視訊模型實在奢侈。不過,中國大廠的焦慮,已經隨著2025年初深度求索推出“物美價廉”的DeepSeek模型而大大減輕。家家都有今年,基礎大模型競爭迭代速度極快,甚至連“價格戰”都打完了。誰家還沒有視訊模型,肯定會被質疑大模型實力不夠。截至2025年10月,中國市場上已經有20多款視訊大模型產品,阿里、騰訊、字節、百度均參與其中。海外市場,除了Open AI,Google、Meta等巨頭以及Runway、Luma AI、Midjourney等創業公司都在同台競技。一位大模型從業者告訴南風窗,大模型基礎資訊處理能力的提升與成本的下降,讓豆包、通義、文心等幾款大模型獲得了快速增長。深度推理能力、視覺推理能力以及Agent相關技術將成為未來幾年基礎大模型競爭的關鍵。因此,依照當下的局面,李彥宏對“不做AI視訊應用”的反悔、積極佈局多模態大模型就不難理解了。從文心大模型4.5到4.5 Turbo,從文心大模型X1到X1 Turbo,百度模型性能提升的同時,多模態能力也在進一步增強,推出“百度蒸汽機”也順理成章。4月25日,百度創始人李彥宏在Create2025百度AI開發者大會上發表了題為《模型的世界 應用的天下》的演講/圖源:新華網從技術的角度看,各家大模型之視訊分模型,比如Sora 2和Veo3.1,正在沿著兩大方向演進,一方面是視訊質量持續提升——畫面更真實、提示詞理解更準確;另一方面是使用者編輯能力的強化——從整體生成到局部修改、對象增刪,操作更加精細,互動感更強。更關鍵的是,音訊即時生成,極大填補了此前AI視訊工具只能做“默片”的短板。對於“頂流”AI視訊生成應用的測試,也已經和考驗聊天機器人的測試差不多了。近幾天,多位網友以“同題考試”的辦法,測試了Sora 2和Veo3.1的能力,最後發現兩家公司的訓練模式和邏輯的不同:Google強調物理世界的規則,而Open AI更注重娛樂性。這也意味著,各家公司依靠自身的特色和稟賦來創造“風格化”的AI應用。AI視訊應用正在從“大幫哄”走向精細化、特色化時代。爭做大平台一旦大模型的能力跟上了,“李彥宏的反悔”就成了更加“現實”的問題:如何降低AI視訊應用的成本,找到商業化前景?而Sora 2的玩法,恰恰讓業界看到了變現的希望。首先是成本降低,可用性增強。Open AI發佈的樣片中,有花樣滑冰運動員頂著貓咪完成轉體三周半動作,有業餘愛好者跌倒在衝浪板上的水花四濺,有宮崎駿動畫風格的男孩和小狗在風中奔跑……Open AI官網發佈的樣片,一名花樣滑冰選手在頭上戴著一隻貓做三軸動作Open AI官網發佈的樣片,業餘愛好者跌倒在衝浪板上的水花四濺Open AI官網發佈的樣片,宮崎駿動畫風格的男孩和小狗在風中奔跑雖然使用者真正生成的視訊和這些精美的樣片之間還是有一定的差距,但是觀眾也從中看到了用AI講出好故事的可能。對於使用者來說,過去辛辛苦苦寫提示詞、生成一段5秒的視訊,最後只有0.5秒能用,現在可以直接生成一個複雜鏡頭構成的電影片段,幾乎不用大改。同時,AI演員也躍躍欲試,準備替代真人演員。9月底蘇黎世電影節爆紅的AI演員蒂利·諾伍德,據悉已經有好萊塢經紀公司邀約在身,氣得一眾影星紛紛發帖保衛自己的飯碗。AI場景與AI演員的結合,可能讓壟斷性的電影“短影片化”,成為大眾田間地頭的隨手創作,擺脫過去的行業壟斷。蒂利·諾伍德。點選圖片可查看相關文章《她一出道就爆紅,好萊塢明星們氣炸了》其次,“創作者成功,則平台成功”,網際網路大廠無不以“平台化”而發家,而近日Sora 2的最大動作,就是讓免費使用者“一鍵創作視訊”,把使用者從網頁端轉移到APP移動端,實現“戰略下沉”。Sora 2的使用者設計非常友好。與Meta忙三火四地推出Vibes相比,OpenAI展現了產品化方面的優勢。這款應用允許使用者建立10秒以內的短影片,還可以把自己或朋友的形象插入其中。這種高度個性化和社交化的設計,被認為是比簡單的社交標籤頁更聰明的策略,也是它迅速引爆社交網路的原因之一。Open AI的CEO山姆·奧特曼在Sora更新資訊之中明確提到“為創作者提供變現機制”。很快,隨著邀請制測試結束,Sora將迅速補齊編輯功能、增加使用者激勵機制,向“大平台”發起衝擊。Open AI的CEO山姆·奧特曼這意味著,只要90%以上的免費使用者找到了變現途徑、看到了變現的希望,Sora就有機會成為TikTok一樣使用者生產、使用者消費的閉環平台巨頭。客觀地看,Sora 2可能會引領AI視訊的生產和傳播方式,也正在引發新一輪的全球生成式AI視訊的競爭大戰。而TikTok的成功表明,同一類型的“平台”數量不會太多,所以,在大模型差距逐漸縮小的時候,所有AI視訊廠商都想早日做成那個最大的平台:最血腥的廝殺才剛剛開始。 (南風窗)
不止於Sora 2!商湯Seko再次定義“成片智能體”,AI視頻生成迎來殺手級應用
讓AI視頻生成拿來即用。AI影片的競爭焦點開始轉移——不再侷限於單一畫面效果的比拚,而是聚焦可用性與開箱即用的突破。9月底Sora 2的橫空出世便清晰傳遞出這一趨勢:其不僅以精彩紛呈的動態生成效果刷新行業認知,更通過能引入現實角色、提升物理模擬逼真度、整合創編傳播工具等的綜合性“成片智能體”,展現了向易用性、實用性發展的趨勢。這一行業趨勢逐漸明晰的當下,國產平台商湯Seko早已率先佈局,以實際行動重新定義AI視頻的應用邊界。下面的影片就直觀展示了Seko的成片能力,這一視頻從劇本、故事板、配音到後期均由Seko完成,並且精細到每一個細節都符合導演和編劇要求,畫面以及動畫效果也都拉到專業級。Seko用戶@聽白AIGC 生成了下面的視頻,將動漫形象與現實環境相結合且毫無違和感,使得整體畫面質感提升。還有下面的恐怖氛圍短片,Seko使用者@liuker、@不會畫畫的美術生生成的視頻中呈現了醫院場景,從陰森的空間佈局到冷冽的燈光風格,所有視覺元素全程線上、精準配合,成功營造出壓抑、驚悚的恐怖氛圍。作為國內首個創編一體的短片創作Agent平台,Seko使用者規模與作品數量的快速爆發增長證明了產品的價值。從工具到智能體、從畫面到成片,AI正從根本上降低內容生產的門檻、提升創作效率、拓展表達邊界。在這場由Sora2引領的變革中,國產平台商湯Seko是亦步亦趨的追隨者,還是另闢蹊徑的破局者?我們試圖拆解Sora 2與Seko,找到其在這場變革中搶佔先機的關鍵要素。01. 「成片智能體」風起:從技術炫技到應用為王回溯AI視頻產業的發展脈絡,早期產品多停留在技術驗證層面,往往會通過生成各類逼真、新奇的視頻內容來滿足用戶好奇心,如今隨著營銷、短劇、自媒體等領域的剛性需求爆發,其定位正逐漸向生產力工具轉移,而能否覆蓋從創意到成片的全流程,也成為衡量產品價值的核心標準。9月底爆火的Sora 2以及OpenAI伴隨其發布的Sora應用就清晰表明了這一趨勢。具體來看,在核心生成能力上,Sora 2實現了全維度的效能提升。物理模擬層面,其優化動力學與材質還原的可信度,能精準呈現對象體積、遮擋關係與光照互動,例如模擬液體潑灑時的流動軌跡、織物飄動的重力反饋均更貼近真實物理邏輯;音頻能力實現了音畫一體化生成,環境音、動作音效可隨性的畫面自動匹配;提示詞:吉卜力工作室動畫風格,畫面中一個男孩和他的狗跑上長滿青草的風景優美的山坡,頭頂是絕美的雲朵,遠處背景中還能眺望到一個村莊(in the style of a studio ghibli anime, a boy and his dog run up arassy scenic mount y接著是產品形態方面,OpenAI伴隨Sora 2推出的獨立Sora App社交平台,透過內置的Cameo(角色引入)功能,用戶可建立高度逼真的個人數字分身,無縫植入任意Sora 2的生成場景,還能授權好友使用自己的形象實現多人同框創作。相較於上一代產品,Sora 2正向著更符合使用者實際創作需求的工具轉型。但值得注意的是,Sora 2的生成本質上仍是「黑盒式」輸出,因為用戶輸入指令後需等待系統完整輸出,無法對中間環節進行干預調整,即便使用千字級的詳細提示詞,也可能出現與預期偏差的生成結果。因此在實際應用場景,這對追求精準表達的商業創作而言,無疑意味著不可預測的時間損耗與修改成本。反觀國內,商湯科技今年8月推出的Seko就在成片智能體的基礎上,實現了「可控式閉環」。Seko可以做到自動劇本拆解、故事板產生、角色一致性控制等,來產生高品質AI視頻,與Sora 2在成片智能體核心能力上實現對標。下面Seko使用者@豆芽AI筆記本產生的視頻中主體角色整體一致,畫面跟隨人物移動時也沒有出現偏差。與Sora 2不同的是,Seko支援即時可編輯,非一次輸入、一次輸出,甚至可對分鏡畫佈局部修改,消除、重繪、元素加入等,讓使用者透過精細化編輯實現「所見即所得」。▲Seko故事板畫佈局部修改功能儘管當下AI視頻發展距離規模化應用還有一定距離,但當下我們可以確定的是,其行業競爭正在從單一效果比拚轉向全鏈路價值競爭,也就是“成片智能體”在AI視頻工具中逐漸成為共識。02. 解碼「成片智能體」概念讓AI視頻開箱即用的關鍵以「成片智能體」應具備的能力為標準,我們看到Sora 2和Seko的部分能力設定高度趨同,都朝著讓AI視頻生成開箱即用視頻、零門檻出成片的目標進階。需要注意的是,即便二者在降低創作難度、覆蓋全流程需求等方向上高度趨同,但實現路徑呈現鮮明差異,Sora 2強調的是端到端直接輸出,Seko則看重生成過程中各環節進行可控性編輯。先來具體看下兩大平台的相似與不同之處。首先,降低使用門檻的前提是,讓AI能聽懂使用者的日常表達,減少對專業工具的依賴。Sora 2和Seko都可以理解使用者的日常用語,不需要更專業的術語即可產生相應的視頻內容,打破AI視頻創作對專業知識的依賴。在實測體驗時,當智東西輸入「小羊介紹新疆伊犁的美麗景色,一隻擬人化的小羊羔,超寫實風格」的提示詞,其就會生成策劃摘要、美術風格、角色主體、場景概念、音樂風格、故事板劇本。另外眾所周知影片的創作需要不同的工具進行音畫比配、實體模擬等,Seko將復雜技術環節全部封裝為後台自動流程,使用者無需手動調試參數,更無需借助剪輯、配音等第三方工具,就可以實現輸入想法就能得到​​視頻的體驗。Seko近日上線的新功能還支援一鍵製作多人對口型視頻,基於SekoTalk這個商湯自研的圖生視頻對口型演算法,在音樂MV、劇情視頻、廣告等領域都可以應用。在下面的影片中,它支援中英文等多種語言、多人對口型,包括輪流說話或同時說話的情況,即使是語速超快的說唱也不會出現偏差。其次是端到端直接輸出與極致的可編輯性,這也是Sora 2和Seko兩大成片智能體最核心的區別。Sora 2和Seko都可以覆蓋創作的全鏈路,其支援多模態輸入,使用者能透過文字描述建構場景、上傳參考圖定義角色外觀,可一次完成從創意拆解、理解複雜指令到成片輸出的端到端貫通。值得一提的是,這次Sora應用程式新增的Cameo與Seko的主體功能類似,都是透過產生統一的角色,保證後續生成內容的主體穩定、一致。▲Sora 2的Cameo功能(左)、Seko的主體功能(右)在此之上,Seko還進一步將生成內容進行了細化拆解,打造了「先靜後動」流程,將創作分為分鏡確認、細節修改、視頻生成幾個階段,具體來說就是,平台先根據用戶創意生成靜態分鏡序列,經用戶逐幀檢查畫面內容後,可以直接通過自然語言指令重繪角色、調整台詞或鏡頭角度,最後都可以確認鏡頭,最後都可以確認視頻。為了進一步確保成片的可控性,Seko還具備故事板靜態預覽、分鏡畫佈局部修改等功能,允許使用者在每個環節,對生成內容進行修改,如直接要求“把圖中的小羊換成牧羊犬”,系統能精準完成修改。Seko也支援一鍵修改背景,如要求「更換背景為咖啡廳」等。▲Seko局部修改功能當使用者確認了故事板的主體、影片內容、文字內容,就可以在右上方點選一鍵轉視頻。相較於Sora 2的一鍵成片,Seko的成片方式給了使用者更大的自由創作空間。最後是成片品質方面,相較於早期的工具,Sora 2、Seko在視頻生成內容的鏡頭穿幫、音畫不同步等問題上,已經基本實現了超長分鏡的穩定輸出。在此基礎上,Seko平台還更進一步,整合了商湯日日新、即夢、可靈、海螺、Veo等多款業界主流生圖模型,使用者基於該平台能精準控制多角色、多場景的複雜劇本輸出,確保角色形象、光線風格、動作邏輯全程穩定。在下面Seko使用者@不會畫畫的美術生生成的影片中,Seko將背景音樂、鏡頭轉換等諸多設定都與劇本內容相呼應。這些技術突破共同指向,AI視頻生成正朝著「成片智能體」進化,其核心是透過極簡互動、全流程貫通與高品質輸出降低創作門檻。商湯科技的Seko在此基礎上基於故事板預覽、可控式流程等關鍵能力,在視頻生成的可控性與商業可行性兩大關鍵維度上率先落地,讓「成片智能體」真正從技術概念變為觸手可及的生產力工具。03. 從不可控到可落地:Seko重構AI視頻商業化價值邏輯Sora 2和Seko的發展讓我們看到了AI視頻商業化落地的潛力,但當我們將視野放大到整個生成式AI行業會發現,想要讓AI視頻生成真正實現拿來即用,遠比圖文生成複雜得多。影片創作需同步處理畫面渲染的時序邏輯、音訊合成的情緒適配、物理模擬的真實回饋等多重難題,任何環節的斷層都會讓產生的影片出現偏差。正因為這種複雜性,Sora 2與商湯Seko在「成片智能體」的定位上,也呈現出了差異化的思路,前者聚焦從輸入到輸出的高品質端到端交付,後者則在保證成片質量的基礎上,強化了全流程創作的自主、可編輯與可控性。在下面Seko使用者@林龍生成的影片中,伴隨著鏡頭的變化將拯救公主的故事進行了完整呈現,還融入了逼真的特效。如同前面所提到的,創作可控性在AI視頻生成中至關重要,這也是Seko相比Sora 2等其他工具的顯著優勢,其核心可概括為創意可控、風格可控、成本可控。創意可控基本貫穿了前期使用者創作的全流程。使用者輸入核心創意後可進入編輯模式,對畫面細節不滿意可直接修改提示詞重繪單幀分鏡,覺得台詞生硬能逐句調整文案並同步更新配音,想優化敘事節奏可直接增減分鏡或調整鏡頭結構。這種先確認靜態效果、再產生動態視訊的設計,可以幫助使用者在早期修正創意偏差。其次是風格可控,Sora 2的模型體系相對單一,Seko採用了多模型整合和智慧匹配策略,整合了全行業主流生成模型,支援使用者自主選擇相應模型。最後是成本,Sora 2雖能產生高品質畫面,但其千卡級算力消耗帶來的隱性成本,讓中小型商家和個人創作者難以負擔。根據實際使用者回饋,Seko已將單分鐘動畫成本從傳統方式的數萬元降至千元等級,降幅超99.5%以上,讓中小企業和個人創作者也能負擔專業級製作。另外還要注意的是,Sora 2目前仍採用邀請制,並沒有免費向大眾開放,導致大量潛在使用者無法直觀體驗。再加上用戶紛紛在社群平台上傳Sora 2產生的短影片,涉及諸多熱門影視節目角色,使得其在版權方面的監管被廣泛質疑。目前,Seko已經全面向用戶開放,其上線1個月就擁有超10萬名創作者,生成視頻內容超50萬條。這些真實的使用者案例和資料,是Seko開箱即用潛力最有力的證明,其讓AI視頻創作變為可預期、可調整、可落地的過程,這也成為其區別於同類產品的核心競爭力。04. 結語:AI視頻競爭回歸實用價值Seko憑可控+普惠領跑當下AI視頻產業的發展意味著,其競爭正在回歸到價值本身,即能否以更低門檻、更可控過程和更低成本為使用者交付可用成果。Sora 2與商湯Seko共同指向的“成片智能體”,正是破解視頻生成普及難題的關鍵。商湯Seko透過創作可控性和商業普惠性,正在將這一藍圖變為觸手可及的商業現實。這條本土超越之路,或許正是AI影片普及的關鍵路徑。此外,Seko還有一大獨特優勢是集合多種大模型,未來或許也會接入Sora 2模型的能力,為使用者提供1+1>2的更優成片效果。 (智東西)
Sam Altman深夜爆料:ChatGPT的成功,一半靠運氣!
OpenAI這一個月有多瘋狂?CEO Sam Altman剛接受完採訪,資訊量大到炸裂——從兆美元基建投資到Sora爆火,從版權風波到AI創作革命,每一個話題都足以刷屏。💡兆投資不是泡沫,是"必須花的錢"當被問到OpenAI宣佈的一系列基建合作(從Nvidia到AMD再到三星)是否是"AI泡沫"時,Altman的回答很直白:"我們會花很多錢在基礎設施上,這是公司層面的豪賭。對還是錯?我們會知道答案,但這就是我們的決定。"他坦言,自己大部分時間都在處理基礎設施問題:"要同時搞定晶片產能、資料中心、電力裝置、消費者需求……這些事必須同時發生,不能一件一件來。" 🤖有意思的是,Altman說自己其實不適合當大公司CEO:"如果讓我選天賦所在,我更適合當投資人。"但正是投資人的思維訓練,讓他懂得如何在指數級增長的世界裡分配資本,如何押注那些看起來瘋狂但潛力無限的項目。ChatGPT的成功,一半靠實力一半靠運氣Altman承認了兩個"意外":一是ChatGPT比預期火得多,二是某些大科技公司在ChatGPT發佈後的反應太慢,給了OpenAI建立優勢的時間窗口。他沒點名,但暗示Google在早期掉鏈子了。不過他也強調,過去兩年半的發展基本按計畫進行:"我們很早就在思考基礎設施建設、應用生態、API和消費者業務的統一。"換句話說,最初的窗口期是運氣,但之後的執行是實力。🔥Sora創作者佔比30%:AI讓更多人成為創作者Sora上線後,資料讓團隊都驚了:前幾天,30%多的活躍使用者都在創作內容!這打破了網際網路的"90/9/1法則"(90%的人只看不創作)。Altman說:"我們一直低估了人類的創作慾望。如果能大幅降低創作門檻,遠比1%的人會去創作。"他還提到,很多人用Sora生成搞笑視訊發給三五好友,這種小圈子社交需求遠超預期,但也意味著現有的廣告模式可能撐不住成本,使用者可能得為生成視訊付費。💬版權風波的意外發現:視訊比圖片更敏感Sora剛發佈時,網上出現了各種動漫角色的AI生成視訊(比如皮卡丘、海綿寶寶),版權方反應激烈。Altman說,他們低估了視訊和靜態圖片的差異:"視訊給人的感覺更真實、更有情感衝擊力,版權方的態度和圖片完全不同。"但他預測,一年後情況會反轉:"到時候版權方可能會抱怨'為什麼我的內容沒被用在更多視訊裡?'因為他們會發現,這能加深粉絲連接。" 🚀AI會搶走工作嗎?Altman說不會關於AI對就業的影響,Altman給出了一個溫暖的答案:"人類喜歡為別人做事,喜歡被認可和欣賞。所以我們會找到新的方式去幫助別人、為別人創造價值。"他認為,AI創作工具的爆火恰恰證明了這一點——人們渴望表達、渴望被看見。未來幾個月還有大動作當被問到三星、AMD等一系列合作如何整合時,Altman賣了個關子:"再給我們幾個月,一切都會說得通。我們沒有看起來那麼瘋狂,是有計畫的。"看來,OpenAI的基建拼圖還沒拼完,接下來可能還有重磅合作要宣佈。💥你覺得OpenAI這種"全押"策略能成功嗎?AI創作真的會讓人人都成為創作者嗎?歡迎評論區聊聊你的看法! 👀✨ (澤問科技)
Sam Altman:我承認我之前錯了,AI 超級系統才是 OpenAI 真正想要的
OpenAI 最近操作不斷,Sora App、Dev Day 的密集發佈、與 Nvidia、AMD 的各種協議合作等等。很明顯,在 ChatGPT 和基礎模型之外,他們想要更多。「我們的目標並不是做「超級 App」,而是要建構一個真正強大的 AI 超級系統。」在 a16z 最近的訪談中,Sam Altman 描述了他們的目標:一個集前沿研究、超大規模基礎設施和消費級產品於一體的超級系統。一個人人會使用的個人 AI 訂閱服務,使用者不僅能在 OpenAI 的消費產品裡使用它,還能用它登錄許多其他服務,未來某個時候,還可以通過專用硬體來使用它。一個無處不在的 ChatGPT,一個整合了產品、基礎設施和硬體的超級公司。訪談中,Altman 還分享了很多他對於業務的實際思考,包括對於不同業務的底層邏輯思考、現在的產品策略是什麼、為什麼要做 AI 基建、Sora 的盈利模式、對於 agent 的看法等等。Apps 和 ChatGPT 的結合非常棒。未來,開發者會找到一種非常適合他們的新分發機制。iPhone 就是一個垂直整合的例子。我認為 iPhone 是科技行業有史以來最了不起的產品,而且它實現了極高的垂直整合度。關於護城河,我覺得沒有通用的「最佳答案」。我的回答是:你找到了一些,只對你當前產品、技術、市場定位在這個時間點上才成立的獨特東西。而這類東西,往往構成了你能創造巨大價值的核心。社會與技術必須共同演進。你不能等到最後把一個完美的東西直接扔給世界,這行不通。它必須是一個持續的、相互適應的過程。Sora 的一個很酷的地方在於解鎖了未來的互動方向,未來的互動介面可能是一個由 AI 即時渲染出來的動態視訊世界。01 OpenAI 的方向:做一家垂直整合的 AGI 公司主持人:在 2025 DevDay 上,你對發佈的那部分內容最感興趣?Sam Altman:所有。非要說一個重點,是 App 和 ChatGPT 的結合。但我覺得我們還需要一些迭代,來摸索出人們真正想怎麼用這些東西。比如:使用者到底更傾向於通過呼叫某個應用來完成任務,還是希望 ChatGPT 本身就知道他們想幹什麼並主動推薦?我認為,開發者最終會找到一種新的分發機制,非常適合他們。但說到底,這些產品推向世界後,總是會帶來一些意想不到的驚喜。主持人:OpenAI 現在很複雜,是一個消費級科技公司,一個 scaling 的 infra 營運商,一個 research lab,還有硬體,應用程式商店等等。OpenAI 到底想做什麼?Sam Altman:是的,可以看作是三家公司,或者說,第四部分是我們以自己的方式打造的、一個規模龐大的研究實驗室。但核心業務主要有三個。我們希望成為人們的個人 AI 訂閱服務,我認為大多數人都會訂閱一個,有些人可能會訂閱好幾個。你不僅能在我們自家的消費產品裡使用它,還能用它登錄許多其他服務,未來某個時候,你還可以通過專用硬體來使用它。最終,你會擁有一個真正瞭解你、並且對你非常有用的 AI,這就是我們想做的。事實證明,為了支撐這一切,我們還必須建設海量的基礎設施。但這套基礎設施的目標,或者說我們真正的使命,始終是「AGI,並使其對全人類有益」。主持人:你們的基礎設施未來會成為一項獨立業務,還是只服務於個人 AI訂閱這個核心目標?Sam Altman:你是說,我們會不會把基礎設施作為服務賣給其他公司?直覺上,它未來可能會衍生出一些別的用途,但我們目前還沒有明確的計畫。目前我們的計畫只是支援我們想要提供的服務和研究。主持人:在 ChatGPT 還沒有出現的時候,你開玩笑說 OpenAI 的商業模式要去問 AI,現在來看,這句玩笑話是不是比我們想像的更認真?Sam Altman:那句話並不完全是玩笑。但我們確實有好幾次,包括最近一次,向當時最新的模型詢問我們應該怎麼做,它都給出了我們自己沒注意到、但很有洞察力的答案。能實現的關鍵在於你得給它足夠多的背景資訊。所以,當我那麼說的時候,大家可能只把它當成一句趣話,但其實它既有玩笑的成分,也有認真的成分。主持人:除了擴大分發和算力之外,連接這些不同業務的底層邏輯是什麼?Sam Altman:研究讓我們能做出偉大的產品,而基礎設施讓我們能進行研究。所以它就像一個垂直整合的技術堆疊。你可以用 ChatGPT 或其他服務來獲取建議,但要讓它有效,背後需要前沿的研究和大量的基礎設施。所以,它們其實是一回事。我過去一直反對垂直整合,但現在我覺得我可能錯了。人們總希望經濟是高效的,理論上公司應該只做一件事,然後與其他公司協作。但在我們的案例中,至少目前看來並不是這樣的。OpenAI 的發展經歷告訴我們,為了實現我們的使命,我們必須做比最初想像中更多的事情。iPhone 就是一個垂直整合的例子。我認為 iPhone 是科技行業有史以來最了不起的產品,而且它實現了極高的垂直整合度。02 OpenAI 不想只做「超級 App」主持人:談談你們的產品戰略。最終是想打造一個無所不包的「超級應用」,還是一個由多個應用構成的「超級系統」?Sam Altman:我們的目標並不是做「超級 App」,而是要建構一個真正強大的 AI 超級系統。Sora 作為一個獨立的應用發佈,而不是整合到 ChatGPT 裡,是因為對很多使用者來說,ChatGPT 是他們最私人的帳號之一。如果把一個「社交體驗」也強行塞進去,感覺會很奇怪。你可以想像加入一些「消息」功能,因為很多人確實會分享內容、進行協作。但從使用者心態來看,他們對 ChatGPT 的認知,和對一個娛樂類 App 的認知是完全不同的,混在一起會有割裂感。當然,我們也會把很多功能直接加到 ChatGPT 裡,但有些東西還是更適合獨立發佈。主持人:你覺得現在人們可以建構那些真正重要、有用的 Agent?你最看好那一類?Sam Altman:我覺得可以參考一下 Codex 的發展,然後把這種思路推廣到其他行業。比如:能不能為法律、金融建模,或其他我們已經看到早期成功案例的領域,打造像 Codex 一樣的體驗?其實現在已經有一些很棒的初創公司在做這些方向了。隨著技術的成熟,如果你能讓這些 Agent 在各自行業中,做到像 Codex 在程式設計領域那樣強大,那將是我最感興趣的方向之一。想像一下未來的場景:一個人只需要和一堆 Agent 對話,就能啟動一個公司。現在的 Agent Builder 和 AgentKit 還沒完全達到這個水平,但我能看到我們正在往這個方向靠近。主持人:聊回你之前提的「一人十億美元公司」賭局。距離一個能真正獨立幹完一周工作、完全不用人操心的 Agent,還有多遠?Sam Altman:我覺得,像 Code Interpreter(程式碼直譯器)這樣的工具,距離完成「一周的工作量」其實已經不遠了。雖然聽起來有點瘋狂,但我覺得這並不是一個遙不可及的 2025 年目標。我和一些人聊起這事,他們也很驚訝地說:「它現在真的已經能完成一天的任務了?怎麼發展得這麼快?」老實說,我通常不會覺得 AI 的進步有多誇張,但在 ChatGPT Code Interpreter 能完成的任務長度這個方面,我真的感受到一種爆炸式的進展。所以我猜,一周等級的任務,可能真的很快就能實現。主持人:要實現這種 Agent,還需要那些技術上的突破?Sam Altman:更聰明的模型、更長的上下文處理能力、更好的記憶系統。主持人:AI 極大地降低了開發門檻,你認為初創公司真正的護城河(moat)在那裡?是資料、分發,還是獨特的工作流?Sam Altman:我覺得挺難回答的。我認為最好的「獨特優勢」,往往是你自己為你要做的事情量身打造的。我們在 OpenAI 也花了很多精力去找到這一點。我覺得這沒有通用的「最佳答案」。最好的回答應該是:你找到了一些,只對你當前產品、技術、市場定位在這個時間點上才成立的獨特東西。而這類東西,往往就構成了你能創造巨大價值的核心。不過,有一點通用的建議我可以說:你是在做的過程中逐步發現優勢的。我很喜歡一句經典的商業名言,「讓戰術變成戰略。」你可以先從一些「有用、能跑得通的事情」開始,往往在這個過程中,就會慢慢浮現出某些可以上升為戰略的東西。如果你在我們剛開始做 ChatGPT 的時候問我:「你們未來會有什麼持久的優勢?」我可能會說「我也不知道」,或者給你一堆猜測,但不會有特別自信的答案。但現在回頭看,像「記憶」功能,其實就成為了一個非常強的競爭優勢,也是使用者持續使用 ChatGPT 的重要原因之一,但當時我們壓根沒想到這點。所以你在建構功能時,有時會意外地發現:「哇,這個點其實可以成為我們長期的護城河。」這就是你一邊走、一邊找、慢慢形成的過程。主持人:如果我們站在 GPT-6 的時代回望今天,你認為什麼樣的產品決策,能讓應用經受住時間的考驗?Sam Altman:最終還是得你自己去摸索出來。我覺得 AI 雖然改變了世界上很多事情,但它並沒有改變一個公司獲得優勢的底層機制。比如說,網路效應、品牌和市場優勢、使用者資料、平台或市場的雙邊效應等等,這些因素過去行得通,現在依然有效。如果你去列一個近幾年成功企業的清單,那些驅動力大機率現在也還適用。只不過,現在可能會有一些新的策略、新的打法。03 瘋狂推進 AI基建,繼續做產業鏈整合主持人:作為 CEO,你最近和 AMD、Oracle 等公司達成了一系列合作。與早年相比,你在達成這些交易時的思路有什麼變化?Sam Altman:我那時確實沒什麼營運和管理經驗。我天生不是那種適合經營公司的人,更擅長做投資。我之前就是幹這個的,也一度以為那就是我的職業方向了。我在那之前也當過 CEO,但當得不好。所以我認為,在做那筆交易時,我的心態更像一個為公司提供建議的投資者。而現在,我明白了真正營運一家公司是什麼感覺。我花了很多時間才學會怎麼把一筆交易真正在營運層面落地,怎麼去考慮協議背後所有的連鎖反應,而不僅僅是盯著「拿到錢和管道」這麼簡單。主持人:你們既與這些公司合作,也存在潛在的競爭關係。你是如何決定何時合作、何時競爭的?Sam Altman:我們已經下定決心,是時候進行一次非常激進的基礎設施投資了。因為我對我們未來的研究路線圖,以及這些新模型能創造的經濟價值,從未像現在這樣充滿信心。但要在如此大的規模上進行投資,我們需要整個行業,或者說行業裡的一大批關鍵角色來共同支援。這涉及到從最底層的硬體(electrons)到最上層的模型分發,以及中間所有環節。因此,我們會和非常非常多的人合作。在未來幾個月,你會看到我們在這方面有更多動作。主持人:當你談到擴張規模時,似乎沒有上限。在你看來,限制 OpenAI 規模的因素是什麼?Sam Altman:上限肯定是有的。比如全球的 GDP 就是一個硬上限,其中知識型工作又只佔一部分,而且我們目前還沒涉足機器人領域。所以限制是客觀存在的,但感覺這些限制離我們今天的水平還非常遙遠。如果我們對模型能力發展方向的判斷是正確的,那麼它能釋放的經濟價值就有極大的想像空間。如果你只有今天的模型,當然不會按那個規模去擴張。不過,即便如此我們還是會繼續擴張,因為我們能清楚地看到,僅憑現有模型,就有大量需求我們無法滿足。但如果我們只有今天的模型,我們不會如此激進地擴張。是因為我們看到的不僅僅是今天的模型,我們能比市場提前一兩年看到未來。主持人:那些投入是為了實現 AGI,那些又是為了避險不確定性的?Sam Altman:表面上看,Sora 似乎與 AGI 不太相關。但我敢打賭,如果我們能建構出非常出色的世界模型,它對 AGI 的重要性將遠超人們的想像。這和 ChatGPT 的情況很像。當初也有很多人覺得它離 AGI 很遠,但它卻給我們帶來了巨大的幫助:不僅讓我們能訓練出更好的模型,也讓我們第一次真正瞭解社會想怎麼用這項技術,更重要的是,它迫使整個社會開始認真對待 AGI。在 ChatGPT 出現前的很長一段時間裡,我們談論 AGI,人們要麼覺得這不可能發生,要麼根本不關心。是 ChatGPT 的出現,才讓大家突然開始關心這件事。所以,撇開研究上的好處不談,我堅信,社會與技術必須共同演進。你不能等到最後把一個完美的東西直接扔給世界,那行不通。它必須是一個持續的、相互適應的過程。主持人:你曾說過,在職業上你最關心的兩件事是 AI 和能源。現在這兩者是如何融合在一起的?Sam Altman:我當時並不知道它們最終會成為同一件事。它們原本是兩個獨立的興趣,但現在確實融合在一起了。 回顧歷史,改善人們生活質量最具影響力的因素就是更廉價、更豐富的能源。所以,進一步推動能源發展是個好主意。每個人看世界的角度不同,而在我的視角裡,能源無處不在。主持人:隨著 AI 對能源需求的激增,你認為未來的能源結構會是怎樣的?政策上應該如何應對?Sam Altman:我預計短期內,美國新增的基荷電力主要會來自天然氣。但長期來看,我相信主導能源將是太陽能加儲能以及核能的某種組合。具體比例不好說,但這兩種會是未來的主力。這包括了先進的裂變技術、小型模組化反應堆(SMRs)以及核聚變等整個技術方向。04 發佈 Sora 2 的目的是「共同演進」主持人:Sora 在你們的戰略中扮演什麼角色?為什麼要把寶貴的 GPU 資源投入到 Sora 上,這是一種長短期的權衡嗎?Sam Altman:Sora 有幾個層面的意義。首先,能做出人們喜歡的好產品,本身就是一件很酷的事。其次,也是更重要的一點,這正是我所說的「共同演進」:讓社會提前感受即將到來的技術。很快,世界就必須面對強大的視訊模型,它們能深度偽造任何人,能生成任何你想要的畫面。這大部分是好事,但社會也需要一個適應期。就像 ChatGPT 一樣,我們覺得世界需要瞭解這項技術的發展方向。我認為讓世界盡快瞭解視訊技術的發展方向非常重要,因為視訊比文字更具情感共鳴力,很快我們將進入一個視訊無處不在的世界。除此之外,就像我前面提到的,Sora 對我們的研究計畫有幫助,也是通往 AGI 路上的一部分。而且話說回來,AI 的意義也不該只是追求極致的效率、解決所有問題。這條路上也應該有樂趣、喜悅和創造力。當然,我們不會把海量的算力都投給它,Sora 只佔了我們總算力的一小部分而已。主持人:你曾說模型已經讓聊天這個應用場景飽和了。未來的 AI 人機互動,在軟硬體上會是什麼樣的?Sam Altman:我需要澄清一下,我當時說「聊天」飽和,指的是一個很窄的範圍:如果你只是想進行簡單的日常對話,那現在的模型確實已經很好了。但是,作為一個互動介面,「聊天」的潛力還遠沒有達到飽和。比如,你可以對聊天介面說:「請治癒癌症。」模型顯然還做不到。所以我認為,文字互動這種形式還有很長的路要走,即便對於閒聊類的應用,模型已經很出色了。當然,未來肯定還會有更好的互動介面出現。Sora 的一個很酷的地方在於,想像一下,未來的互動介面可能是一個由 AI 即時渲染出來的動態視訊世界。這會解鎖多少可能性?另外,你也可以想像新型的硬體裝置,它們能時刻感知周圍環境的狀況。你的手機不會再隨時用簡訊通知來打擾你,而是能真正理解你的處境,知道在什麼時候向你展示什麼內容。所有這些都還有很長的路要走。05 Sora 的盈利模式可能是按次收費主持人:關於盈利模式,你目前最關心或者正在探索的方向是什麼?Sam Altman:我現在最關心的是 Sora 的盈利模式,因為它剛剛發佈,使用量非常大。發佈這種產品總能讓你學到一件事:使用者實際用它的方式,和你最初設想的差別有多大。大家當然在用我們預想的方式使用 Sora,但同時也出現了大量我們沒想到的用法,比如生成自己和朋友的搞笑表情包,然後在群聊裡分享。這需要一種非常不同的盈利模式。Sora 視訊的製作成本很高。對於每天生成幾百次的使用者來說,這將需要一種與我們原先設想的完全不同的盈利方式。Sora 背後有一個很酷的假設,那就是人們其實有強烈的創作慾望,並不是傳統網際網路理論裡說的只有 1% 的人創作。可能只是過去的工具門檻太高了。我覺得這是個非常棒的轉變,但這也意味著我們必須為這種高頻的創作行為,找到一種全新的、可持續的盈利模式。我猜,對於這種高成本的生成,可能最終還是得按次收費。主持人:對於長尾使用者,你考慮過廣告變現嗎?Sam Altman:持開放態度。和許多人一樣,我覺得廣告有點令人討厭,但並非完全不可行。有些廣告我甚至很喜歡,比如我很讚賞 Meta 的一點是,Instagram 的廣告對我來說常常是加分項,我確實喜歡看。人們對 ChatGPT 有著非常高的信任關係,即使它出錯、產生幻覺,人們也覺得它在努力幫助他們,做正確的事。如果我們破壞了這種信任,比如當使用者問「我該買那款咖啡機?」時,我們推薦的不是最好的,而是付了錢給我們的一款,那麼這種信任就會消失。所以那種廣告是行不通的。但我能想像到其他一些類型的廣告是完全可行的,只是在設計上必須極其小心,避免踩進那些明顯的坑裡。主持人:你怎麼看版權問題的未來走向?比如,訓練資料是否屬於「合理使用」?Sam Altman:這是我目前的猜測。正如社會與技術共同演進一樣,隨著技術向不同方向發展,情況也會變化。比如我們已經看到,版權方對視訊模型的反應,就和當初對圖像模型的反應很不一樣。所以這個領域會持續演變。但如果讓我從今天的立場做一個預測,我認為社會最終會接受:AI 用公開資料進行訓練屬於「合理使用」(fair use)。但在生成內容時,會有一套新的模式,比如你要模仿特定風格或使用某個 IP。這就像一個作家,可以閱讀一部小說並從中獲得一些靈感,但不能直接抄襲。你可以討論哈利·波特,但你不能把整本書背出來當成自己的作品。另外,我覺得還有一件事正在發生變化,這點在 Sora 上特別明顯。我們當然收到了很多版權方的擔憂,但同時也收到了很多另一種聲音:他們擔心的不是我們用了他們的角色,而是我們用得還不夠多。他們當然也需要限制,不希望自己的角色說出一些瘋狂或者冒犯的話,但他們更希望粉絲能和角色互動,因為這樣才能建立情感連接,讓他們的 IP 更有價值。如果我們的模型總是選擇別人的角色而不是他們的,他們反而會不高興。所以,我完全可以想像這樣一個世界:在版權持有者自己決策的前提下,他們擔心的將不再是「用太多」,而是「用太少」。06 AGI 的核心是發現新知識,AI 科學家是未來方向主持人:從 ChatGPT 發佈到現在,AI 的發展肯定有很多超出你預料的地方。如果讓你只挑一件,什麼事最讓你感到驚訝,甚至徹底改變了你之前的某些判斷?Sam Altman:有很多事讓我驚訝,但最有趣的是我們發現了多少「新東西」。當初我們發現語言模型的 Scaling Laws 時,我們以為自己偶然發現了一個巨大的秘密,這感覺像是一次不可思議的勝利。我當時想,我們可能再也不會有這麼好的運氣了。但深度學習就像一個不斷創造奇蹟的源泉,我們接二連三地取得了突破。當我們再次在推理模型上取得突破時,我同樣覺得,這樣的好運可能不會再有第二次了。這項技術能如此成功,似乎是一件機率極小的事情。但後來我想,也許所有重大的科學發現都是這樣:當它足夠基礎、足夠根本時,它的潛力就會持續不斷地湧現出來。但進展的速度非常快,如果你現在回頭去用 ChatGPT 剛發佈時的 GPT-3.5,你會覺得:「我簡直不敢相信當時有人會用這個東西。」而現在,我們已經創造出了巨大的「能力富餘」(capability overhang)。普通大眾對 AI 的理解還停留在 ChatGPT 的水平;然後矽谷的一些技術愛好者在使用 Codex,他們會覺得普通人根本不懂 AI 已經發展到什麼程度了;而極少數頂尖科學家又會覺得,那些用 Codex 的人也同樣不瞭解前沿模型真正的潛力。今天,模型的能力和公眾的認知之間已經存在巨大的鴻溝,我們在能力上已經走了非常非常遠。主持人:我們用大語言模型(LLM)到底能走多遠?在那個節點會需要新的技術架構或突破?Sam Altman:我認為,僅憑現有的技術路線,我們就能走得足夠遠,遠到足以創造出一個能幫我們找到下一條技術路線的 AI。我知道這個答案聽起來有點像自我循環,但你想想,如果基於 LLM 的系統,它的研究能力能超過整個 OpenAI 團隊的總和,那或許就足夠我們抵達下一個里程碑了。主持人:你之前對 AGI 的定義是:當它在大多數具有經濟價值的任務上超過人類。如果某個模型在 GDPval 的得分達到某個程度,你會認為 AGI 實現了嗎?註:GDPval 是 OpenAI 於 2025 年 9 月 25 日提出的一項新的評估方法,用於衡量 44 個職業中具有經濟價值的現實任務的模型性能。Sam Altman:我最近也在認真思考這個問題。首先,像很多人一樣,我對 AGI 也有多個定義。離目標越近,這個概念反而越模糊。但對我來說,最重要、也是讓我最驚喜的一點是:我們已經開始看到 AI 具備「發現新知識」的能力了。也就是說,AI 可以擴展人類目前的知識邊界。雖然現在這些例子還很小,但這才是我最在意的突破。主持人:我們往後看幾年,你認為 AI 模型下一個真正讓人興奮的能力躍遷會是什麼?是更深度的白領工作替代、AI 科學家,還是人形機器人?Sam Altman:會有很多方面,但你提到了我最興奮的一點,「AI 科學家」。我知道關於圖靈測試的嚴格定義一直有爭議,但大眾理解的那個圖靈測試,早就被我們不經意間超越了。我們之前都覺得圖靈測試遙不可及,是 AI 領域的終極考驗。然後突然之間,它就被攻克了。全世界為此熱議了一兩個星期,然後大家很快接受了現實:「好吧,看來電腦現在也能聊天了。」然後一切照舊。我認為,科學領域正在發生同樣的事情。對我個人而言,真正的「圖靈測試」,是看 AI 能否獨立進行科學研究。那才是真正能改變世界的時刻。而隨著 GPT-5 的出現,我們已經開始看到一些微小的火花了。你會在 Twitter 上看到這樣的例子,有人分享它幫助自己有了一項新的數學發現,或者在我的物理、生物研究項目中解決了一些小問題。我們看到的一切都表明,這個方向將會有更大的發展。所以我認為,在兩年內,模型將能承擔更大部分的科學工作,並做出重要的發現。這是一件瘋狂的事情,將對世界產生巨大的影響。我一直相信,從根源上說,是科學進步在推動人類社會變得更好。如果我們即將迎來更多的科學進步,那將是一件大事。主持人:這很有趣,因為這是一個人們不常談論的積極變化。當談到 AI 變得極度聰明時,評論經常是聊到負面影響。但對於碳排放和疾病這些問題,我們確實需要更多的科學。Sam Altman:是的,這一點說得很好。我記得 Alan Turing 曾說過,有人問他:「你真的認為電腦會比傑出的人類頭腦更聰明嗎?」他回答說:「它不必比傑出頭腦更聰明,只需要比平庸的頭腦更聰明就行,比如像 AT&T 的總裁那樣。」 (Founder Park)