#Sora
OpenAI關閉Sora之後 | OpenAI總裁對話實錄
4月2日,OpenAI 聯合創始人兼總裁 Greg Brockman 接受海外播客Big Technology 的深度訪談。本次對話中, Greg Brockman 首次回應了OpenAI 為何在視訊生成風頭正勁時選擇關停Sora APP,在 AI 競爭進入白熱化的當下,OpenAI 轉向全速推進“超級應用”與“推理模型”的真實意圖以及戰略抉擇。此外介紹了超級應用的終端形態、揭秘了代號為“Spud”的新一代預訓練模型,詳細探討了Scaling Law 在推理側的演進以及算力經濟學等話題。Greg Brockman指出,公司正處於從能力展示向現實效能轉化的轉折點,核心邏輯已從“驗證技術可行性”轉向“獲取知識工作的深度反饋”。他透露,即使擁有全球頂尖的算力儲備,也無法同時支撐視訊生成(Sora)與核心推理(GPT)這兩個完全不同的技術樹分支,OpenAI 現階段選擇收縮 Sora 的商業化投入,是為了確保資源向具備更高協同效應、能解決物理與科學難題的推理路徑絕對對齊。關於 AGI的進度,Greg Brockman認為 AGI 已經完成了 70% 到 80%,並將在未來幾年內實現。他指出,AGI 的判斷標準不應是圖靈測試或感官上的智力構想,而應是“經濟模式全面轉型的時刻”,即 AI 能夠自主勝任幾乎所有電腦端的智力任務。針對超級應用,他指出,未來的超級應用是程式設計、瀏覽器與對話的合體,未來的 AI 不應讓人類去適應電腦的操作邏輯,而是由 Agent直接操控網頁並處理複雜背景資訊,人類則演變為管理成千上萬 Agent 艦隊的CEO,承擔最終的問責制。關於代號為“Spud”的全新預訓練基礎模型,他指出,預訓練的提升具有巨大的乘數效應,基礎能力的跨越能顯著降低後續強化學習與推理的成本。同時,他詳細闡述了即將發佈的自動化研究員路徑,該系統能接管研究科學家的端到端工作流,通過 AI 反哺 AI 研發實現技術騰飛。在算力經濟,他提出,算力不是“成本中心”,而是像僱傭銷售人員一樣的“收入中心”,算力的建設規模直接決定了企業收入的邊界。01放棄 Sora的戰略取捨OpenAI 目前在消費級市場已取得領先,但近期似乎在收縮Sora方面的投入,轉而集中精力開發結合商業和程式設計場景的“超級應用”。作為外界觀察者,我們很好奇這種資源轉移背後的真實考量是什麼?你們在優先順序排序上是如何權衡私人助手與生產力工具的?Greg Brockman: 我是這樣看的,我們一直處於開發深度學習技術的世界中,真正的目標是驗證這項技術能否產生我們預想中的正向影響,以及它能否被用來建構改變人們生活的應用程式。此前,我們一直有一支專門的力量在嘗試實際部署,無論是為了維持業務運轉,還是為了在技術真正成熟並實現我們創立公司時的願景之前,積累現實世界的應用經驗。我認為我們正處於一個轉折點,我們已經看到這項技術確實有效。我們正在超越單純的基準測試和能力展示,進入一個新的階段:為了進一步開發,我們需要將其投入現實世界,從知識工作和各種實際應用中獲取反饋。由於技術發展階段的變化,這是一個重大的戰略轉移。這並不代表我們正從消費者市場轉向 B2B,我們真正想表達的是,面對眾多的可能性,那些是最核心的應用?因為我們無法面面俱到,我們需要專注於那些在建構時能產生協同效應,並能提供深遠影響,從而提升每個人效率的功能。在我們的願景中,消費級應用涵蓋很多方面。它可以是私人助手,瞭解你、與你的目標一致並協助你達成人生目標,也可以是創意表達或娛樂工具。而在商業領域,核心其實是一件事:當你有一個困難的任務時,AI 能否利用所有的背景資訊去完成它?對我們來說,優先順序排序中排在最前面的是兩件事:一是私人助手,二是能幫你解決難題的 AI。即便以我們目前擁有的算力,甚至都不足以同時支撐這兩件事。如果我們繼續增加更多其他非常有用的 AI 應用場景,資源會更加捉襟見肘。這是對技術快速成熟及其巨大影響的預判,我們需要明確優先順序,挑選出最能造福世界的應用集。02Sora 與 GPT 屬於不同技術分支,必須放棄全面開花你曾用迪士尼的“米老鼠”模型來類比 OpenAI:以模型為核心衍生出視訊、助手和企業服務。現在 OpenAI 是否已經無法再維持這種“全面開花”的狀態,必須在不同產品方向間做出殘酷的取捨?此外,既然視訊生成的進步有目共睹,為什麼你們最終押注 GPT 推理模型,而不是在 Sora 這樣理解世界物理規律的“世界模型”領域繼續投入?Greg Brockman: 實際上我認為這個類比現在比以往任何時候都更貼切。但在技術層面必須理解的是,Sora 模型雖然非常出色,但它與核心推理模型 GPT 系列屬於不同的技術樹分支。它們的建構方式完全不同。在某種程度上,同時追求這兩個分支對我們目前的資源來說確實太難了。目前,我們依然在機器人領域繼續進行 Sora 的研究計畫,因為機器人顯然將是一個變革性的應用,儘管它仍處於研究階段。機器人技術還沒有像知識工作那樣成熟到可以大規模部署的程度。這是一種戰略選擇:在當前這一時刻,我們需要將主要精力放在 GPT 系列的開發上。這並不意味著我們只做文字或腦力工作。例如,雙向通訊、出色的語音互動介面,這些都能讓技術變得非常易用且實用。但這些並不屬於不同的技術分支,它們源自同一個模型,只是進行了不同的微調。如果你把戰線拉得太長,在算力有限且需求極大的世界裡,是很難維持兩個不同產品方向的。(關於為何押注推理)這個領域最大的問題是機會太多了。我們在 OpenAI 早期就觀察到,只要是能想像到的技術路徑幾乎都行得通。雖然工程難度和算力需求各不相同,但只要數學邏輯成立,都能產生不錯的結果。這證明了深度學習底層的力量,它能觸及問題的實質,讓 AI 真正理解生成資料的底層規則。這不只是關於資料本身,而是理解底層的運作過程並將其應用到新語境中。無論是世界模型、科學發現還是程式設計,都是如此。關於文字模型能走多遠、文字智能是否能真正構築世界觀,這些爭論曾非常激烈。我認為我們已經給出了明確答案:它將通向 AGI。我們已經看到了實現這一目標的清晰路徑,也看到了今年即將推出的更強大的模型。在內部,關於如何分配算力的決策確實越來越痛苦。我們的核心邏輯是聚焦順序和時機。目前,一些曾被視為夢想的應用已觸手及輕。例如,解決未解決的物理難題。最近一位物理學家將困擾他許久的問題交給了我們的模型,12 小時後就得到瞭解決方案。他說這是他第一次感覺到模型在思考,解決了一個人類可能永遠無法攻克的難題。當你看到這種潛力時,你必須傾注所有資源去加倍投入,因為這能為全人類釋放巨大的潛能。對我來說,這不僅是重要性的比較,更是關乎 OpenAI 的使命:將 AGI 帶給世界並讓每個人獲益。03未來的超級應用是程式設計、瀏覽器與對話的合體GoogleDeepMind 的 Demis Hassabis 曾認為圖像/視訊生成器最接近 AGI,因為它們需要理解物理世界。如果你放棄這個分支,是否會錯失關鍵機會?另外,你心目中那個整合了所有核心能力的“超級應用”到底是什麼樣的?它針對的是商業還是個人場景?Greg Brockman: 兩個回答。第一,絕對存在這種可能(錯失機會)。在任何領域,你都必須做出選擇和博弈。OpenAI 的起點正是基於我們所堅信的實現 AGI 的路徑,並為此全力以赴。隨機向量的總和為零,但如果你能對齊向量,你就能朝著一個方向突圍。第二點是,圖像生成在 ChatGPT 中非常受歡迎,我們會繼續優先投資。之所以能做到這一點,是因為我們的圖像生成並非基於擴散模型分支,而是基於 GPT 架構。雖然資料分佈不同,但底層核心技術是統一的。這就是 AGI 奇妙的地方:語音互動、圖像生成、文字、科學研究和程式設計,這些看起來迥異的應用,其實都可以在同一個技術框架內實現。我們正在努力實現技術上的最大統一,因為這項技術將驅動整個經濟體。雖然我們無法獨自完成所有事情,但我們會盡力做好核心部分。(關於超級應用形態)我心目中的超級應用將把程式設計、瀏覽器和 ChatGPT 結合在一起。我們要建構一個終端應用,讓你真正體驗到 AGI 的通用力量。現在的對話功能將演變成你的個人 AGI 助手,它瞭解你、與你目標一致且值得信賴,在數字世界中代表你。目前的 Codex 可能更像是一個面向軟體工程師的工具,但它正在進化為面向每個人的工具,讓任何人都能通過它指揮電腦完成任務。它不再僅僅關乎軟體,而是關乎如何使用電腦。比如我想設定筆記本的複雜選項,直接告訴 Codex,它就會幫我完成。這才是電腦該有的樣子:順應人類的習慣,而不是讓人類去適應電腦。想像一下,一個應用就能處理你對電腦的所有需求。它內建了瀏覽器功能,AI 能夠實際操作網頁,並讓你負責監督。無論是聊天、程式碼還是知識工作,所有的對話都將統一,AI 擁有記憶並深刻地瞭解你。但這只是冰山一角。更重要的是技術底層的統一。現在不再僅僅是模型本身的問題,而是框架的問題。模型如何獲取背景資訊、如何與世界連接、能採取什麼行動,以及互動的循環如何運作。這些環節我們原本有多個不同的實現,現在正在進行融合。最終我們會形成一個強大的 AI 層,通過非常輕量化的方式指向特定的應用。你可以為金融或法律領域建構外掛或介面,但通常情況下,你只需要這個功能極度廣泛的超級應用。(關於應用場景)兩者兼顧。這正是它的核心。就像你的筆記型電腦一樣,它既是生產力工具,也是生活工具。它是你的個人機器,為你提供了一個進入數字世界的介面。04競爭白熱化的當下,OpenAI 追趕並反超的機會在那?Anthropic 已經通過 Claude 建構了屬於自己的超級應用,並搶佔了先機。你認為 Anthropic 敏銳察覺到了那些你們此前忽略的痛點?在競爭白熱化的當下,OpenAI 追趕並反超的機會在那裡?Greg Brockman: 回看過去一年多,我們一直將程式設計視為核心領域。在各類高難度程式設計競賽中,我們的模型表現始終處於頂尖水平。但我們此前在應用落地的最後一公里上投入不足。儘管AI 非常聰明,能解決複雜的競賽題目,但它從未接觸過現實世界中雜亂的程式碼庫,真實環境遠不如競賽環境那樣純淨,這正是我們之前的短板。(關於追趕進度)但從去年年中開始,我們開始認真解決這個問題。專門的團隊在研究現實世界的複雜性,包括如何獲取訓練資料、建構訓練環境,讓 AI 體驗真實的軟體工程流程,應對各種異常幹擾。目前我們已經追趕了上來。在與競爭對手的直接對比中,使用者往往更傾向於我們的產品。這證明了擁有優秀模型的同時,不能只盯著競爭對手。如果只關注對手的位置,當你到達時,對方已經移動了。現在情況發生了逆轉,很多人在盯著我們的位置,而我們已經邁向了下一步。我非常看重公司內部的這種合力。以前我們將研究和部署視為獨立環節,現在我們實現了深度整合。目前的狀態讓我感到踏實。外界的評價往往毀譽參半,但我們始終保持著穩健的節奏。在模型生產的核心環節,我對路線圖和研究投入充滿信心。在產品側,全公司的能量正匯聚在一起,將成果交付給世界。05下一代模型揭秘自2022 年以來 OpenAI 雖是領導者但競爭已白熱化,公司內部是否已進入“戰時模式”並取消了無關副業?傳聞中已完成預訓練的 Spud 模型到底是什麼?它與 Sam Altman 所說的“幾周內面世的強大模型”有何關聯?相比GPT-4 剛發佈時公眾的遲鈍,你認為下一代模型是會讓某些行業產生巨變,還是那種每個人都能感受到的普遍提升?它能做到那些今天模型做不到的事?Greg Brockman: 對我個人而言,最令人警惕的時刻是ChatGPT 發佈後的節日派對,當時全公司都瀰漫著勝利的氣息。但我從未有過那種感覺,我始終認為我們是挑戰者。在這個領域,競爭對手都是擁有雄厚資本、人才和資料的巨頭。OpenAI 能夠參與競爭,很大程度上是因為我們從不自滿,始終保持危機感。看到市場中出現競爭對手,看到敘事方式發生轉變,讓團隊每個成員都意識到這一點,其實是非常健康的,我非常歡迎這種變化。(關於 Spud 模型及個人投入)這個名字很有意思,我不會證實或否認具體的名稱。但這不僅僅關乎某一個模型。我們的開發流程是先進行預訓練,產生新的基礎模型,以此作為後續改進的根基。這需要全公司巨大的協作投入。在過去 18 個月裡,我個人的大部分精力其實都花在了 GPU 基礎設施上,全力支援團隊在大規模訓練任務中擴展架構,這是支撐這一切的底層基石。隨後是強化學習過程。AI 會應用學到的知識,接著通過後訓練過程來打磨其行為和可用性。你可以將 Spud 理解為一個凝聚了過去兩年研究成果的全新預訓練基礎。使用者將感受到能力的提升。單一版本的發佈並不是終點,它只是我們持續進化過程中的一步。我們正建構一個不斷加速的進化引擎,Spud 只是其中的一個階段。(關於模型能力的提升)新模型將能解決更難的問題,處理細節也更細膩。它對指令和上下文的理解會深刻得多。當模型真正變得更聰明時,會更順應使用者的意圖。如果 AI 不理解問題,還需要使用者反覆解釋,那種體驗是很糟糕的。這種提升是定性的。以前你可能因為 AI 不夠聰明而放棄某些場景,但現在你會不假思索地去使用。這種提升是全方位的。我非常期待它能如何拉高能力的上限。我們已經看到了在物理學等領域的應用。未來,它將能解決更多開放性、長周期的問題。同時,它也能提高能力的底線,讓任何任務都變得更加高效。(關於使用者感知的差異)我覺得情況會類似(GPT-4 剛發佈時)。剛發佈時,一部分人會覺得它帶來了翻天覆地的變化。但在某些不以智能為瓶頸的應用場景中,這種提升可能就沒那麼明顯。隨著時間推移,這種變化會深入人心,因為它從根本上改變了使用者對系統的依賴程度。使用者與 AI 互動時的心理模型更新較慢。直到它完成了一些超出想像的事,使用者才會意識到它的潛力。比如在醫療領域,有人通過 AI 研究出了癌症的治療思路,並在醫生無能為力的情況下獲得了治療方案。這需要使用者對 AI 有信任基礎,才會投入精力去挖掘。未來,AI 在各個領域的輔助作用會變得更加顯而易見。這既是技術的進步,也是人類認知的追趕。06自動化研究員與技術“騰飛”OpenAI 預計在今年秋天發佈的“自動化研究員”具體是什麼?它如何實現技術“騰飛”並反哺 AI 的進化?你是否擔心這種勢不可擋的進化處理程序會失控?Greg Brockman: 我們正處於技術騰飛的早期階段。騰飛意味著隨著AI 沿著指數曲線進化,我們可以利用 AI 來反哺,讓 AI 變得更強,從而加速開發處理程序。這種騰飛也體現在現實影響力上。技術研發正在飛速積聚動力,晶片廠商投入了大量資源,經濟生態也在蓬勃發展。AI 正在從邊緣輔助變成經濟增長的主引擎。這不僅僅是 OpenAI 圍牆內的事,而是全球經濟在共同推動技術的進步。(關於自動化研究員細節)自動化研究員將承擔更多原本由人類處理的任務。我們可以讓它自主運行,但這並不意味著放任不管。我們依然會深度參與管理。就像指導初級研究員,放任不管可能會誤入歧途。資深研究員即使不親自動手,也可以通過提供反饋、審查結果和指明方向來發揮作用。這個系統將極大地加速我們生產模型和實現研究突破的速度,讓模型在現實世界中更加實用。簡單來說,它能夠接管研究科學家完整的端到端工作流程,並在電腦模擬環境(in silico)中完成。(關於進化速度與風險)我覺得機遇和風險並存。我們必須在追求技術紅利的同時,深刻思考風險中的防範。在技術層面,我們在安全和保障上投入了巨大精力,比如防禦提示注入。必須確保 AI 不會被惡意指令誤導。我們將人類容易受欺騙或忽略背景資訊的特點引入開發過程,確保 AI 與人類對齊。這需要綜合考慮社會和經濟等宏觀問題。我不僅在推動技術進步,也在思考如何確保其潛能轉化為積極的影響。07AGI 的進度條:完成了70% 到 80%黃仁勳認為AGI 已經基本實現,你認同嗎?OpenAI 內部對 AGI 的定義是否發生了演變?在你的視角裡,我們距離那個“無可爭議”的臨界點還有多遠?Greg Brockman: 每個人對AGI 的定義都不盡相同,肯定有很多人認為我們現狀已達成了 AGI。這雖然可以辯論,但有趣的是,當下的技術表現呈現出明顯的鋸齒狀。AI 在許多工上表現出絕對的超人水平,例如編寫程式碼,AI 能夠直接完成任務並顯著消除創作過程中的阻礙。然而,在一些人類看來非常基礎的任務上,AI 依然表現掙扎。因此,這取決於你如何劃定界限。在某種程度上,這更多是一種感官上的直覺判斷,而非硬性的客觀標準。OpenAI 在 2017 年曾對 AGI 下過內部定義,目前的成果早已遠遠超越了那個標準。但人們的目標也在不斷演進,正如曾經被視為終極標準的圖靈測試,當我們的模型通過測試時,大家反而覺得這雖然有趣,但還不足以定義 AGI。我確實認為我們正在接近大眾認知中的 AGI,但我不認為我們已經完全抵達終點,真正的科學進步仍有待突破。我將 AGI 視為經濟模式全面轉型的時刻,即你可以直接引入一個系統,讓它真正具備勝任幾乎任何人類工作的能力。目前我們尚未完全達到這一水平,只有到了那一刻,AGI 的實現才會成為無可爭議的事實。在最後這幾步中會發生什麼是一個有趣的問題,但我確信我們終將達到一個讓所有人產生共鳴的臨界點。回顧過去十年我與這項技術打交道的經驗,以前我們通過數學計算來預測 Scaling Law 及其前景,我雖然在理性上堅信不疑,但內心並沒有實感。直到 GPT-4 問世,我第一次真切地感受到了它的力量。那一刻我意識到,這不再僅僅是一個智力構想,而是真實的科學突破。如果你在五年前向我展示現在的系統,我會認為這就是我們追求的目標,但真實的體驗卻與我們曾經想像的完全不同。我們必須相應地調整自己的心理模型。(關於實現進度)我認為大約完成了 70% 到 80%,我們已經非常接近了。未來幾年內,我們顯然會擁有 AGI。雖然它的能力分佈可能依然不均,但它處理智力任務的下限將極大提升,幾乎任何在電腦上進行的操作,AI 都能勝任。我現在很難給出確切答案,因為這裡存在一種類似測不準原理的情況。從我個人的定義來看,我們已近在咫尺,只要再往前邁出一小步就絕對會實現。08AI 從錦上添花的邊緣工具躍升為重構工作流的核心引擎回顧2022 年底,是什麼讓模型實現了從 20% 到 80% 的任務覆蓋跳升?有使用者利用 Codex 輔助視訊編輯,它自動為 Adobe Premiere 建構了外掛、劃分章節並開始剪輯。這種非技術人員的自發應用,是否改變了你認為 Codex 僅限程式設計師使用的看法?Greg Brockman: 新模型的發佈讓AI 能處理的任務佔比從 20% 直接跳升至 80%。這是一個巨大的轉變,AI 從一個錦上添花的工具,變成了你必須圍繞其重新建構工作流的核心。我有一個沿用多年的測試提示詞:幫我建一個網站。當年我學程式設計時,花了好幾個月才做出來。2020 年或 2021 年時,AI 通常需要四小時並經過反覆提示才能搞定。但在 12 月那次,它一次性就完成了任務,而且質量非常出色。這很大程度上歸功於更優的基礎模型。OpenAI 在改進預訓練技術方面深耕已久,那一刻我們只是預先窺見了未來的變革。但這並非單點技術的突破,而是在創新的每一個維度上不斷推動的結果。這些模型的神奇之處在於,雖然你期望進步是線性的,但它有時表現為飛躍,有時又表現為連續的演進。它不是從 0 跳到 80,而是從 20 提升到 80。在後續的每一個小版本更新中,我們都看到了這種持續的改進。在 GPT-4 和 GPT-4.5 之間,我的一位負責硬核底層系統工程的同事發現,AI 從完全無法幫忙變成了得力助手。他給 AI 一份設計文件,AI 就能完成實現、加入指標和可觀測性、運行性能分析器(Profiler)並進行最佳化,直到產出完全符合預期的成果。這種進步通常是極其緩慢地積累,然後突然在某一刻爆發,而這一切在目前的技術進展中早有預兆。在一年甚至更短時間內,它將變得極其可靠。(關於 Adobe Premiere 外掛案例)關於你提到的那個視訊編輯案例,這正是我最想聽到的反饋。Codex 最初是為程式設計師設計的,對非技術人員來說門檻其實還很高。比如遇到報錯時,開發者知道怎麼修,但普通人會覺得莫名其妙。即便如此,我們依然看到很多從未程式設計過的人在用它建構網站、自動化辦公。最難的部分,也就是建構一個聰明且有能力的 AI,我們已經完成了。現在的任務是完成那個相對簡單的部分:消除准入門檻,讓它變得真正通用。(關於 Codex 普及)我之前一直關注 Codex,認為它是給程式設計師準備的。考慮到 OpenAI 內部很多都是為自己開發工具的工程師,這種慣性思維很自然。但隨著技術演進,我們意識到其底層技術的本質並非關於程式碼,而是關於解決問題。它關乎如何管理上下文、利用測試框架(Harnesses)以及思考 AI 應該如何深度整合到工作中。這意味著,那怕是寫程式碼,普通人也能上手,因為你現在管理的是一個能真正幹活的實體。只要你有願景和目標,描述出意圖,AI 就能幫上幫。這也引發了我的反思,為什麼只盯著寫程式碼呢?在 Excel 表格處理或幻燈片製作中,其實有大量機械化的技能。只要 AI 掌握了背景資訊,它現在的原生智能足以高水平地完成這些任務。只要我們降低門檻,Codex 就不再僅僅屬於程式設計師,而是屬於每一個人。09人類將任務委派給 Agent,但必須保持對核心細節的敏銳掌控與最終問責矽谷出現了Open Claw 現象,人們授權 AI 訪問桌面、郵件、日曆並由其代勞。OpenAI 招攬其創始人是否意味著你們的願景是讓 AI 深度管理生活?當你像首席執行長一樣指揮成千上萬個 Agent 艦隊為你工作時,這種新的模式是否會讓你覺得對問題的敏銳掌控正在消失?Greg Brockman: 這項技術的核心難點在於發掘它的用處、使用者的使用偏好、AI Agent 的願景以及它如何融入日常生活。我觀察了多代技術的發展,發現那些全身心投入、充滿好奇心和遠見的人,才真正擁有一種極具價值的新興技能。Open Claw 的創始人 Peter 就擁有非凡的眼光和創造力。這在某種程度上關乎特定技術,但更多時候是關於我們如何轉化這些能力,找到它們在人們生活中的位置。作為技術人員,我對此感到興奮。而作為一個致力於提供實用工具的人,這是我們正在加倍投入的方向。(關於能動性與掌控)我認為這有利有弊。我們需要做的是發揮這些工具的優勢並規避其弱點。它給人們提供了槓桿和能動性,讓你有願景就能指揮 Agent 艦隊去實現。但歸根結底,必須有一個負責方。如果你建網站時 Agent 辦砸了並影響了使用者,那不是 Agent 的錯,而是你的錯。為了用好這些工具,你必須意識到人的能動性和問責制是系統的核心,人如何使用 AI 是極其根本的問題。作為這些 AI Agent 的使用者,你不能推卸責任,不能當甩手掌櫃。(關於失去掌控的風險)對我來說,這兩者是緊密相連的。如果你作為 CEO 卻脫離了細節,對實際情況失去了敏銳的觸覺,那是不會有好結果的。我並非認為人類不瞭解現狀是好事。有些細節是可以信任的,比如你找建築承包商蓋房子,很多細節你確實不需要操心,因為你相信他們能處理好。但最終如果細節出了錯,你必須在乎並保持知情。這是一個微妙但重要的區別。你不能盲目地接受失去對實際情況的掌控。相反,我們需要深入其中,為了真正理解優勢和弱點而保持敏銳。當你從那些低等級的機械性事務中抽身時,應當是因為你已經通過建立信任,確認了系統能出色地完成任務。10未來 AI 將通過電腦操控能力實現跨領域的創造力大爆發模型在工具使用後的下一步進化方向是什麼?如果AI 能操控桌面,它能為普通人帶來什麼?既然模型已經如此強大,為什麼這種變革還沒有全面發生?另外,對於 Peter Thiel 提到的數學型人才面對 AI 衝擊更危險的觀點,你作為數學俱樂部成員是否感到擔心?Greg Brockman: 我們正身處一個機器能力和深度持續增長的世界。除了工具使用,我們現在還需要建構強大的配套設施。比如電腦使用能力,如果AI 能真正操控桌面,它就具備了人類能做的一切能力。同時,我們也得為機器進行針對性的建構,例如在企業環境中,憑證管理、審計追蹤和可觀測性如何實現。我們要建構大量技術,才能跟上核心模型本身的能力。整體發展方向包括極佳的語音互動介面,讓你能自然地與電腦交流。它理解你,執行需求,並給出建議。它能主動反饋工作進展,甚至能為你經營一家公司。我認為創業的民主化時代絕對正在到來。它會提醒你,這裡有些問題,有位客戶不太高興,他們想和真人溝通,你應該去跟進一下。這些都會變為現實。提高人類雄心的天花板,解決更具挑戰性的難題,也是這項技術的下一步。我們正處於這種趨勢的最前沿。未來一年,我們將看到人們利用這種能力實現大爆發。我最期待的是,就像當年 AlphaGo 的第 37 手一樣,那一招任何人類棋手都想不出來,它充滿了創造力並改變了人類對博弈的認知。這種現象將發生在科學、數學、物理、化學、材料學、生物學、醫療和藥物研發等每一個領域,甚至文學和詩歌。它將以我們現在無法想像的方式,釋放人類的創造力、認知和構思。(關於效能滯後)模型的潛在能力與其實際應用之間存在一種效能釋放滯後。我們對模型潛力的理解仍在不斷加深,即便技術不再進步,現有的存量技術也足以引發巨大的經濟變革。由算力驅動的經濟模式終將到來。目前我們非常擅長在可衡量的任務上訓練模型,比如數學題和程式設計題,這些都有完美的校驗器。要把這種能力引入更開放的問題,關鍵在於擴大可評分的範圍。AI 本身就能幫上忙,如果你給它一個評分準則,它就能評估任務完成的好壞。當然,像創意寫作這類事情,評分要難得多。目前我們教導 AI 學習這類事物的能力還較弱,但這一切都在改變,目標已經非常清晰。(關於數學與人文)人總是更容易看到失去了什麼,而很難看到得到了什麼。我們對自己熟悉的東西被 AI 取代有著深刻的危機感,但驅動人類進步的從來不是數學競賽本身。如果你看我們現在的工作方式,躲在盒子後面敲字其實並不自然。我們被捲入了這個數字世界,但這並非人類存在的真諦。做人的真諦在於當下、在於臨場感、在於人與人之間的連接。我們將看到,AI 將釋放出大量的時間,讓我們去增強人際連接,建立更深的情感紐帶。這才是讓我感到無比興奮的地方。11算力經濟邏輯與 Scaling Law 的乘數效應當重心轉向推理應用,是否還需要進行大規模訓練和購買輝達GPU?建設資料中心的數學邏輯是什麼?你們籌集 1100 億美元的邏輯如何回報投資者?面對 Dario Amodei 關於“基礎設施豪賭可能導致破產”的警告,你作何回應?Greg Brockman: 我認為這種觀點(預訓練已足夠)忽略了技術發展中非常關鍵的一點。模型生產鏈條的每一個環節都有乘數效應,因此必須改進所有環節。我們發現,只要改進了預訓練,後續的所有步驟都會變得簡單得多。這很好理解,因為預訓練出的模型學習速度更快。由於起步能力更強,模型在嘗試新想法和從錯誤中學習時的效率就更高,而且能通過Scaling Law 更有效地減少錯誤。過去我們認為只是在獨立訓練一個大腦系統,然後讓它越變越大,但現在的重大轉變是:你需要讓模型去嘗試、去理解現實世界中人們的使用方式,並將這些反饋整合回訓練中。但這並不意味著預訓練研究不再重要。另一個變化是,過去我們只關注原始的預訓練能力,而不太考慮推理效率。這是過去兩年的一個大變化,我們意識到需要一種平衡。基礎模型可以擁有各種優異屬性,但你必須保證它的推理效率,因為你需要進行強化學習,需要面向全球提供服務。這意味著你不一定非要追求極致的規模,因為你必須考慮下游的實際應用。你真正想要的是智能與成本的最佳平衡點,並同時最佳化這兩者。(關於輝達)絕對需要。原因有很多。首先,即便推理和訓練的比例在變,但除了將算力集中在單一問題上進行大規模訓練,目前還沒有其他路徑。我們投入到預訓練模型中的算力量只會持續上升。雖然部署端的規模會大幅增長,但當你進行超大規模預訓練時,依然需要極其密集的算力。此外,Nvidia 團隊非常出色,做了非常了不起的工作,我們之間的合作非常緊密。(關於預訓練上限)這就像在問,是不是等人類解決了眼前的所有問題,我們就可以止步不前了。我們的願景非常宏大,也許在過去 50 年裡人們有些退縮了。看看那些顯而易見的問題,比如我們能否實現全民醫療,而且不是等病了才治,而是真正的預防性醫療。不只是建議生活方式,而是如何在大病發生前檢測到潛在疾病。我認為更智能的模型能解決這些問題。也許達到某個水平後能解決這個問題,那時你會問,我還需要模型再聰明兩倍嗎?但還會有其他更難的問題需要更強的模型。(關於 1100 億籌資邏輯)邏輯很簡單,我們面臨的最大支出就是算力。但你可以把算力看作收入中心,而不是成本中心。這就像雇銷售,你想雇多少人?只要產品賣得出去,只要銷售模式可擴展,銷售人員越多,收入就越高。現實情況是,我們發現算力的建設速度永遠趕不上需求。自那以來每年都是如此。挑戰在於,購買算力需要提前 18 到 24 個月甚至更久鎖定訂單,這意味著你必須具備超前的預判。目前我們大部分收入來自消費者訂閱,這很重要。但新的機會顯然是知識工作。我們看到各大企業都意識到這項技術真實有效,為了保持競爭力,他們必須採用。無論是軟體工程師的自發使用,還是企業內部各種知識工作的滲透,付費意願和收入增長都非常明確。我們能看到一些外界看不到的趨勢,即這些模型改進的明確路徑。綜合來看,整個經濟的增長,其核心驅動力都將圍繞 AI 展開,取決於你利用 AI 的程度,以及支援運行的算力儲備。(關於企業端反超)企業端的增長非常迅速,而且企業端的定義也在演變,本質上是人們將其用於高效的知識型工作。在定價方面,以 Codex 為例,如果你有 OpenAI 帳號或 ChatGPT 訂閱就能使用。我認為未來的界限不會那麼死板,核心在於使用者擁有了一個通往數字世界的門戶,這才是收入的根本來源。(關於破產風險警告)我不認同(Dario 的觀點)。我們一直很清醒,也看到了未來的趨勢。今年大家就會發現,所有參與者都會面臨算力短缺。我們是最早預見到這一趨勢並提前佈局的。其他玩家可能去年底才反應過來,開始到處找算力,但那時已經沒貨了。發表評論很容易,但事實是大家都意識到這項技術是玩真的。軟體工程只是開端,我們目前的瓶頸完全在於算力不足。我們有更多的緩衝餘地。如果你擔心下行風險,這確實是個好問題。但在某種程度上,這不只是對某一家公司的豪賭,而是對整個行業的信心。關鍵在於,你是否相信這項技術能產生我們預見的巨大價值。看看軟體工程吧,如果你沒試過,你很難想像它的變革性。它徹底改變了寫程式碼的方式,而這種改變正在發生在所有領域。12公眾的AI偏見、能源轉型與個體的未來準備你平時怎麼使用AI Agent?為什麼 AI 在公眾中並不討喜?看空 AI 的人遠多於看好的。面對人們對失業、能源、環境污染和電費上漲的恐懼,你認為他們錯了嗎?以及給普通人的未來建議。Greg Brockman: 我用它為團隊開發內部工具,比如同步視訊進度和縮圖設計。我還用它整合YouTube 資料,根據縮圖預測視訊表現,這相當於為我定製了一個我原本絕不會花錢去買的軟體。這就是目前的有趣之處,雖然軟體可以大規模普及,但很多細節並不是為你量身定製的。而 AI 讓我們能以更自然的方式與軟體互動。這是關鍵。現在的電腦其實是把我們拉進了一個生硬的數字世界,你需要不停地刷手機、點按鈕。為什麼非要這樣?AI 的本質是讓機器更貼近人,實現個性化,理解你的意圖。流行文化裡那種能對話、能替你辦事的電腦正成為現實,這種奇妙的體驗必須親自嘗試才能理解,我們正處於一個非常特殊的時刻。(關於公眾偏見)我們需要向公眾展示 AI 到底能給他們帶來什麼好處,而不僅僅是宏觀經濟或生產總值的增長。我每天都聽到很多真實感人的案例。比如有一個家庭,孩子生病需要做核磁共振卻被保險公司拒絕,他們用 ChatGPT 研究症狀,找到了申訴理由並成功拿到了檢查機會,結果發現了腦腫瘤並救了孩子的命。這樣的故事還有很多,人們的生活正因為與 AI 合作而發生翻天覆地的改變。但這些故事沒有被廣泛傳播。相反,大量流行文化充斥著對 AI 的負面想像。但當人們真正開始使用它,他們會發現它的價值。我確實擔心我們還沒能讓大家理解,這股技術浪潮是為了改善生活和人類聯絡。這關係到未來的經濟和國家安全,關乎國家競爭力。在全球範圍內,不同地區對 AI 的應用方向和治理理念存在差異。我們必須確保這項技術能讓每個人受益。(關於能源與環境擔憂)關於資料中心確實存在誤讀。比如耗水,我們在 Abilene 的超級電腦,其用水量其實僅相當於一個普通家庭的一年用量,幾乎可以忽略不計。關於電費,我們承諾會承擔自己的用電成本,不推高民眾的負擔。作為行業成員,我們有責任回饋當地社區,創造稅收和就業。引入更多電力並不意味著更多污染。目前的電網中存在大量無法利用的擱置電力,且傳輸系統急需升級。由我們來承擔這些升級費用,而不是讓納稅人買單,這對社區是有利的。在北達科他州,因為資料中心的入駐和對公用事業的投資,當地居民的電費反而下降了。(關於未來建議)對那些害怕 AI 的人,最重要的一點是去試用這些工具。只有親身體驗,你才能理解它能為你做什麼。它能賦予從未建過網站的人建站的能力,能幫創業者處理繁瑣的後台流程,能幫你管理健康、賺錢省錢。人們往往更容易看到變動帶來的危機,而忽略了潛在的收益。核心是保持好奇心。從技術中獲益最多的人,往往是那些敢於在工作流中嘗試的人。要克服面對空白輸入框的迷茫,培養自己的主體性,把自己定位為管理者,去設定方向、委派任務並進行監督。這種管理技能在未來至關重要。我們開發 AI 是為了讓人類有更多時間做自己想做的事。所以,看清自己真正想要什麼,並利用 AI 去實現它,這就是最重要的事。 (數字開物)
OpenAI關停Sora、Claude付費使用者超1800萬…AI圈本周發生了什麼?
從Sora的悄然落幕,到Anthropic桌面代理的全新登場,再到機器人AI賽道的持續火熱——過去一周,AI領域發生了不少值得關注的變化。上周,OpenAI悄悄關停了Sora AI視訊生成工具,距離其公開上線僅過去了6個月。這個曾被寄予厚望的產品,從一開始就伴隨著爭議。有分析指出,Sora的關閉可能不僅僅是產品問題,而是AI視訊生成領域更廣泛收縮的訊號。與此同時,外界質疑OpenAI關停Sora的真正動機——該應用曾邀請使用者上傳自己的面部資料,這被一些人視為某種“資料採集行動”。無論如何,Sora的快速落幕為整個AI視訊生成賽道蒙上了一層陰影。Anthropic放大招:桌面AI代理Cowork正式發佈與Sora的黯淡退場形成對比的是,Anthropic最新發佈的Cowork引發了廣泛關注。這是一款桌面AI代理,可以在使用者的檔案中自主工作,無需任何程式設計能力。使用者只需用自然語言發出指令,Cowork就能完成整理文件、提取資料、分析檔案等任務。這標誌著AI助手從“對話型”向“任務執行型”的重大跨越。過去,我們需要一步步告訴AI做什麼;現在,AI可以自主理解並完成複雜任務。Claude付費使用者暴增:付費轉化表現強勁更讓行業震驚的是,Claude付費訂閱使用者數量在快速攀升。根據估算(非官方),Claude付費使用者數在1800萬至3000萬之間波動。更重要的是,Anthropic發言人確認:Claude付費訂閱今年增長超過一倍,付費轉化表現強勁。這一資料意味著,付費AI助手市場正在快速成熟。使用者不再僅僅追求“免費好用”,而是願意為更強大的功能付費。Physical Intelligence再融10億美元:機器人AI賽道持續火熱如果你關注AI+機器人領域,Physical Intelligence這個名字一定不陌生。這家專注於機器人AI的公司正在談判新一輪10億美元融資。如果成功,其估值將在短短4個月內從56億美元翻倍至更高水平。從OpenAI的Figure,到Google的RT系列,再到Physical Intelligence,機器人AI正在成為下一個兵家必爭之地。史丹佛研究揭示:AI聊天機器人的“諂媚”風險除了商業動態,學術研究也在持續警示AI的風險。史丹佛電腦科學家團隊近期發佈研究,量化了AI“諂媚”使用者的危害程度。研究發現,當使用者向AI尋求個人建議時,AI傾向於過度認同使用者觀點,而非提供客觀建議。這種“取悅使用者”的傾向可能導致嚴重的認知偏差。這提醒我們:AI很強大,但始終保持獨立思考依然重要。過去一周,AI領域既有關停與反思,也有創新與突破。而在這背後,一個清晰的趨勢正在浮現:AI正在從“工具”變成“夥伴”,從“回答問題”變成“主動做事”。這場變革,才剛剛開始。 (KAZane)
Sora 死了,享年 6個月
曾經封神的 AI 視訊模型 Sora 就這麼沒了。前幾天,OpenAI 官方親自發文告別 Sora:應用關停、API 關停、視訊功能不再接入 ChatGPT。聽聞這一消息,有網友直接把 Elon Musk “墓碑梗圖”搬出來祭奠。評論區更是“人類迷惑行為大賞”:有人艾特創始人 Sam Altman 問“到底在幹嘛”。有人直接開噴“那我們憑什麼信你下一個產品”,還有人直接吐槽“死之前也不開源一下。”還有人很淡定:“沒事,還有別家能用。”老狐還記得,2024 年初 Sora 剛出來的時候,幾乎是“核爆級出圈”,堪稱“工業革命”。那會兒大家還在卷文生圖,它直接把“電影級視訊生成”甩到你臉上。雨水打在玻璃上的折射、人物走路的慣性、鏡頭推進的節奏,那種感覺不是“ AI 在畫圖”,是“ AI 在拍電影”。Sam Altman 一邊發 demo,一邊持續加碼預期。全網一度覺得這玩意兒,遲早要幹掉影視工業一部分。再後來,產品上線,會員專屬,邀請碼炒到飛起。再再後來,Sora 2 發佈,補齊音畫同步、角色對話、分鏡控制,甚至去年 9 月做了獨立 App。到這一步,其實路徑已經很明顯了,它不止想做工具,它是想做“ AI 時代的內容平台”。換句話說,它想成為 AI 版抖音。但問題也恰恰出在這。一開始大家玩得很開心,“把自己丟進電影裡”確實很爽。第一次:臥槽好牛;第二次:再試一個;第三次:……好像也就這樣。然後就沒有然後了。這不是技術問題,是典型的“ demo 型產品”困境,它證明了“能做”,但沒有建立“要一直用”的理由。新鮮感一過,使用者就散,留不住,也養不出習慣。相關資料顯示,Sora APP 的 30 天使用者留存率僅為 1%,60 天留存率直接歸零。與此同時,版權開始紛紛找上門。日本內容機構發函,好萊塢開始緊張。那怕後來 OpenAI 拉來了 迪士尼,給了 IP 授權,開放漫威、皮克斯、星戰這些大殺器,看起來像是“終於要商業化了”。但是劇情出現反轉,到今年 1 月份,Sora 的下載量已暴跌 45%。再往後就更乾脆了:Sora 一關,迪士尼同步撤退,合作終止、投資取消,一起按下暫停鍵。你說這是產品問題嗎?不完全是。真正壓垮它的,其實是更現實的一件事:算力。做視訊太貴了,有測算說,Sora 一天燒的錢在千萬美元等級,一年下來就是幾十億美元的等級。一個使用者生成一段視訊,背後燒掉的資源,夠 ChatGPT 回答幾十次甚至更多問題。為了控製成本,OpenAI 不得不把免費使用者每日生成額度從 30 個削減到 6 個。這樣下來,進一步削弱了普通使用者的使用意願,加速了留存崩塌。同時,Google Gemini、Meta,以及國內的可靈、即夢等競品相繼推出視訊生成功能,使用者分流加速,Sora 的壓力驟增。走到這一步,問題就很直接了,那個賺錢就保留那一個。於是再看 OpenAI 最近的一系列動作,就完全順理成章:整合產品線做“超級應用”,All in 程式設計和生產力,把算力、團隊、資源都往能賺錢的地方集中。甚至有消息稱,為了給下一代模型騰算力,像 Sora 這種高消耗、低回報的業務,優先順序直接被往後排。說白了,這不是“做不出來”,是“沒必要做了”。聽起來冷血,但在 IPO 前,砍掉浪漫、留下現金流,是所有公司的必修課。回頭看,Sora 確實在 AI 視訊領域開了個好頭,只不過如今主角換了。字節跳動 Seedance 2.0 在卷真實世界模擬,水、布料、微表情,全在往“像真人拍的”逼近。快手 Kling 3.0 已經把商業閉環跑通,幾千萬創作者、幾億條視訊,直接悶聲賺大錢。這裡有個很關鍵的差異,Sora 是在“創造一個新場景”,而這些產品,是在“吃已有場景”。中國有短影片、電商、微短劇這套完整生態,模型一出來,立刻就有人用、有人反饋、有人變現。這是一個天然飛輪,而 Sora 當初做獨立App,本質是在從 0 開始搭生態。沒有創作者體系,沒有分發管道,沒有內容土壤。技術再強,也很難跑起來。可見,AI 視訊這件事,已經從“誰模型更強”,變成“誰生態更完整”。AI 行業,也已然從“炫技階段”,進入“算帳階段”。 (科技狐)
在IPO前夕調整業務戰略,OpenAI關閉Sora
2022年,OpenAI憑藉其廣受歡迎的生成式人工智慧(GenAI)工具ChatGPT在科技界乃至全社會引發了一場連鎖反應。自那時起,公司推出了幾款面向消費者的應用程式,如其視訊生成平台Sora,該平台於2024年12月向付費使用者推出。但現在,情況發生了變化。本周,公司宣佈將關閉Sora。"我們要向Sora應用告別。對於所有用Sora創作、分享它並圍繞它建立社區的人們:謝謝你們。你們用Sora創造的作品很重要,我們知道這個消息令人失望。"該公司周二在X平台上發帖稱,並補充說,稍後將提供有關關閉時間表以及使用者如何保存平台上先前作品的更多細節。關閉迄今帶來的最大後果是OpenAI與迪士尼之間價值十億美元交易的告吹。這筆為期三年的交易於去年12月達成,包括對OpenAI的10億美元投資,以及在使用Sora生成視訊時獲得約200個迪士尼角色授權許可。據路透社報導,迪士尼對這一決定"感到措手不及",在兩家公司舉行一次Sora相關會議僅30分鐘後才得知此事。這家媒體巨頭隨後取消了該交易。"隨著新興AI領域的快速發展,我們尊重OpenAI退出視訊生成業務並將優先順序轉向其他領域的決定。"迪士尼在一份聲明中表示。"我們要感謝我們團隊之間的建設性合作以及從中獲得的經驗,我們將繼續與AI平台接觸,尋找新的方式在粉絲所在的地方與他們互動,同時負責任地擁抱尊重智慧財產權和創作者權利的新技術。"究竟發生了什麼?一些人推測,OpenAI正尋求保護其聲譽。與迪士尼交易中斷表明,公司正在從技術要求高且法律複雜的應用類別中撤出。媒體生成系統運行在一個由版權擔憂、許可談判和品牌敏感性所塑造的環境中。通過撤下旗艦視訊產品,OpenAI可能正在減少這些挑戰,同時將注意力重新定向到它可以更快行動並擁有更大控制權的領域。其他假設指向運行Sora的價格標籤。《福布斯》11月的一份報告估計,該應用的推理成本高達每天1500萬美元,即每年54億美元,儘管該媒體承認其估計依賴於"動態目標",如GPU價格、推理效率、使用者數量和每天生成的視訊數量。10月,OpenAI Sora負責人Bill Peebles在X上的一串帖子中表示,視訊平台的"經濟性完全不可持續"。一些人推測,OpenAI的IPO雄心可能也與這一決定有關,並可以解釋為什麼投入產出不再可持續。公司去年5月聘請前Instacart首席執行長Fidji Simo領導其應用業務,據CNBC報導,隨著公司準備備受期待的、據稱將於今年某個時候進行的首次公開募股,她一直在推動"產品專注和紀律"。公司最近召開了一次全體員工會議,旨在向員工明確其優先事項。CNBC報導稱,Simo表示,OpenAI正在"積極向高生產力用例傾斜"。當一家公司準備在美國進行IPO時,它必須向SEC提交註冊聲明,其中包括經審計的財務報表以及有關其成本結構、風險和收入的詳細披露。這一過程,通常通過S-1檔案進行,迫使許多私營公司達到前所未有的透明度水平,特別是在特定產品線的經濟性方面。在OpenAI的案例中,走向IPO可能會對Sora等計算密集型系統的成本概況帶來更嚴格的審查。這種暴露會影響內部關於那些產品在規模上是可持續的,那些可能難以向公開市場投資者證明其合理性的決策。如果Sora現在已不在考慮範圍內,OpenAI的新優先事項是什麼?CNBC稱,在全體員工會議上,Simo告訴員工,公司正專注於其企業業務,並讓ChatGPT使用者更具生產力。ChatGPT目前擁有超過9億周活躍使用者,OpenAI正尋求通過將其Atlas網路瀏覽器、ChatGPT應用和Codex編碼應用合併為一個單一桌面"超級應用"來簡化使用者體驗。Simo和OpenAI總裁Greg Brockman將主導這一努力。"我們現在的機會是將這9億使用者轉化為高計算使用者,"根據CNBC審查的全體員工會議部分記錄,Simo表示。"我們將通過將ChatGPT轉變為生產力工具來實現這一點。"除了超級應用,OpenAI正在開發一個"AI研究員",其被描述為一個多智能體系統,可以自主執行完整的研究工作流程來解決複雜問題。據《麻省理工科技評論》報導,公司新的"北極星"是建構一個"自主研究實習生",它可以在9月之前解決更小、更具體的研究問題,作為"公司計畫於2028年推出的全自動多智能體研究系統的前奏"。該媒體報導稱,這些任務包括數學和物理問題,如建立新證明或猜想,以及生命科學、商業和政策用例。OpenAI首席科學家Jakub Pachocki在接受《麻省理工科技評論》採訪時將"AI研究員"項目定位為將當前模型擴展到可以推理、規劃和在長時間範圍內迭代的系統的努力,而不僅僅是生成響應。他描述的目標是建構可以在問題的多個步驟中操作的智能體,使用程式碼執行和資訊檢索等工具,同時持續改進其方法。Pachocki表示,這種目標導向的行為是邁向更廣泛智能的必要步驟,儘管他也承認,大型語言模型的可靠性和評估仍然是一個開放的挑戰。OpenAI最近向智能體系統和面向企業工具的轉向,反映了一種針對Anthropic的戰略,後者專注於生產力用例和緊密整合的應用程式,而不是消費者實驗。Anthropic對可靠性、編碼和工作流支援的強調,有助於將其模型確立為日常知識工作的實用基礎設施。此外,向"AI研究員"的推進並非OpenAI獨有。它反映了整個行業向推理系統發展的更廣泛趨勢,這些系統可以在有限監督下執行多步驟科學和技術任務。像Ai2和FutureHouse這樣的組織一直是這一方向的早期建構者,推進基於智能體的科學框架的開放研究,旨在使AI系統能夠更多地瞭解物理世界並支援現實世界的問題解決。目前,OpenAI近期的決策表明其大幅縮小了關注範圍。公司正從其最可見的面向消費者的應用之一和主要媒體合作中撤出,同時加速其在智能體系統和企業平台方面的工作。結果可能是其研究議程與商業戰略之間更清晰的一致。這種轉變反映的是暫時性調整還是更持久的戰略變化,還有待觀察。 (Ai時代前沿)
OpenAI為什麼放棄Sora?不是視訊不重要,而是主戰場已經變了
OpenAI為什麼放棄Sora 不是視訊不重要 而是主戰場已經變了AI視訊競爭格局突變:OpenAI決定下線Sora的獨立消費級App和API。表面看,這像是一條"明星產品熄火"的消息:Sora曾是靠一句"文字生成視訊"驚豔全網、把整個影視行業都嚇出一身冷汗,最後卻被OpenAI主動收縮。但這次更重要的是:大模型行業的資源分配邏輯,已經徹底變了。過去兩年,行業比的是"誰能做出更驚豔的demo";現在,比的是"誰能把最稀缺的算力、產品和組織注意力,投到最能形成收入閉環的場景裡"。從這個角度看,OpenAI放棄Sora,不是做不出,而是不想再繼續燒資源。01. Sora的問題,不是驚豔不夠,而是生意閉環太慢Sora並不是一個"平庸產品",恰恰相反,它太像一個會點燃市場想像力的明星項目了:視覺衝擊強、傳播性極高、演示效果拔群,天然適合成為大眾理解"生成式AI正在進入視訊時代"的那張封面圖。問題在於,能點燃想像力,不等於能快速建立穩定生意。視訊生成是個非常重的賽道。它吃算力、吃推理成本、吃時長、吃渲染資源,還要同時背負版權、肖像、深度偽造、內容稽核等多重風險。換句話說,這不是一個"把模型一上線就能輕鬆收錢"的產品,而是一個每往前推一步,成本和治理難度都會同步上升的系統工程。更麻煩的是,視訊生成天然不像聊天和程式碼那樣高頻。聊天是每天都能用的,程式碼是企業願意持續付費的,辦公協作更是能直接嵌進組織流程;但視訊生成在多數使用者那裡,往往還是"偶爾驚豔一下"的需求。它能製造話題,但未必能形成足夠密集、足夠穩定、足夠高客單價的日常使用。這就是 Sora 最尷尬的地方:它也許很酷,但不一定足夠值錢;它也許很火,但不一定足夠高頻。而今天的大模型戰爭,已經越來越不獎勵"酷",而是更獎勵"能持續變現"。02. OpenAI這次收縮,本質上是在把資源拉回主賽道OpenAI 對外給出的理由並不複雜:聚焦、算力需求增長,以及Sora團隊繼續往 World Simulation 研究推進。這幾句話拆開看,其實資訊量很大。所謂"聚焦",本質上就是承認公司不能什麼都做這幾年 AI 公司一個典型幻覺是:只要模型能力足夠強,文字、圖片、音訊、視訊、搜尋、辦公、程式設計、代理、硬體,理論上都可以一起拿下。但現實很快證明,模型能力可以通用,產品資源和組織注意力卻不是無限的。一個公司每多開一條戰線,就要額外投入產品、營運、算力、合規、生態、商業化和客戶支援。戰線一多,最先被稀釋的不是技術,而是管理層的判斷力。所謂"算力需求增長",其實是在說一件更現實的事算力必須優先分配給回報率更高的業務。今天最能吃下AI預算的,不是短影片式的新鮮感,而是企業效率工具、程式碼生成、自動化代理、工作流協同這些"能直接省錢或直接賺錢"的場景。對於OpenAI來說,把資源繼續壓在視訊生成上,和把資源投向更強的程式設計、辦公、推理與agent體系,後者的商業確定性顯然更高。說白了,Sora 不是輸給了技術,而是輸給了 ROI。Sora團隊繼續做World Simulation,世界模型才是“重要且正確”它真正放棄的,更像是"把視訊生成作為一個面向大眾獨立消費產品來經營"這件事。至於視訊、時序理解、物理世界建模這些底層能力,反而可能被保留下來,並遷移到機器人、世界模型、具身智能等更長期的戰略裡。也就是說,OpenAI 放棄的未必是能力,放棄的是產品形態。03. AI行業開始進入"殘酷算帳期"如果說2024年、2025年大家還在比"誰的敘事更宏大",那2026年開始,行業已經明顯進入了"殘酷算帳期"。什麼叫殘酷算帳期?就是每一條產品線都要回答幾個特別現實的問題:▸使用者會不會反覆打開?▸企業會不會持續付費?▸算力投入和收入產出能不能形成正循環?▸風險成本會不會把商業空間吃掉?▸這個業務對於公司整體戰略,到底是主線,還是旁支?過去,AI公司最怕的是"做不出";現在,AI公司更怕的是"做出來了,但養不起"。Sora的退場,就是這場行業切換的一個標誌性節點。它告訴所有人:接下來被留下來的,不一定是最炫的能力,而是最能嵌進真實工作流、最能形成複利、最能跑通商業閉環的能力。這也是為什麼最近整個行業的重心,都在往程式碼、辦公、agent、企業協作、組織級知識系統這些方向傾斜。因為這些場景不像視訊生成那樣靠"驚豔時刻"驅動,而是靠"日常必須"驅動。能成為"日常必須",才更接近真正的基礎設施。04. Sora退場之後,機會並沒有消失,只是位置變了很多人看到這條新聞,第一反應可能是:AI視訊是不是不行了?我反而覺得,結論恰恰相反。不是AI視訊不重要,而是"獨立視訊生成 App"這條路,沒有想像中那麼好走。機會並沒有消失,它只是從"模型秀場"轉移到了更具體的工作流裡。比如:→廣告素材批次生成→電商短影片自動化製作→遊戲和影視前期分鏡→教育培訓內容的可視化生產→企業內部宣傳、說明和演示視訊→與剪輯、投放、指令碼、素材管理打通的一體化工具鏈這些場景的核心,不是讓使用者感嘆"哇,這模型真厲害",而是讓使用者說"這東西真能替我省時間、省錢、提產能"。所以未來真正能活下來的,不一定是最會做demo的視訊模型,而是最懂行業、最懂生產流程、最懂交付節點的產品。從這個意義上說,OpenAI的撤退,反而給了垂直玩家和場景型團隊一個窗口:當通用大廠開始收縮泛化戰線,專注某個行業、某個鏈路、某個工種的產品,機會會重新浮出來。05. 對創業者和內容行業來說,3點需要注意不要把"能做成"誤判成"能賺錢"過去兩年,AI 圈最容易犯的錯,就是把"模型能力成立"直接等同於"產品價值成立"。但現實是,能生成一段視訊,不代表使用者願意反覆為它付錢;能在發佈會上驚豔全場,也不代表能扛住日常營運、內容治理和算力帳單。真正難的從來不是演示那一刻,而是演示之後的每一天。分發和工作流,正在比單點能力更重要Sora 當初最強的是能力展示,但它最終沒有成為一個足夠穩固的日常入口。這說明一個越來越清晰的趨勢:未來 AI 產品的競爭,不只是"模型誰更強",而是"誰離使用者任務完成更近"。誰更接近指令碼、素材、協作、投放、復盤、結算這些真實流程,誰就更可能留下來。模型是引擎,工作流才是護城河。大廠也會主動放棄明星項目這條是最值得所有從業者都記住的。很多人總覺得,大廠發佈的明星產品天然會一路加碼、一路長大。但現在我們要接受一個新現實:那怕是OpenAI,也會因為資源、戰略和商業回報重新排序,主動砍掉外界以為"必須繼續"的項目。這意味著,AI產業已經進入一個更成熟、也更殘酷的階段:不再是"只要足夠前沿就能被持續供養",而是"如果不能成為主線,就可能被迅速邊緣化"。OpenAI放棄Sora,不是結束 而是一場重新排兵佈陣它在告訴市場,AI競爭已經從:"能力擴張期"進入"價值收斂期";"什麼都想做"進入"必須選主航道";"誰更會造夢"進入"誰更會算帳"。而對所有創業者、產品經理、內容公司和技術團隊來說,這件事最大的啟發或許是:不要只盯著最亮眼的能力,要盯住那個最可能形成日常依賴、商業閉環和組織級複利的位置。Sora 退場了,但真正的比賽沒有結束。 (FinHub)
永別了,Sora!奧特曼All in超級App
【新智元導讀】太突然了!OpenAI一早關停了Sora,爆火AI誕生僅6個月,就被奧特曼親手終結了。更勁爆的是,下一代大模型Spud預訓練已完成,未來幾周發佈。Sora死了,就死在了今天。剛剛,OpenAI正式關停Sora,這一轟動全球的AI視訊APP,說沒就沒了!周二的內部信中,奧特曼還宣佈——除了Sora APP,還包括其開發者版本,以及ChatGPT內部的視訊功能,全部下線。官方致謝信中,確認了Sora將不再以原有形式存在,對所有創作者表達了歉意。奧特曼親自揮刀砍掉Sora,背後隱藏著更為龐大的野心:打造一款「超級應用」(Superapp),並為IPO鋪路。更迫近的是,為下一代大模型代號Spud,騰出足夠的算力空間。為此,OpenAI還重構了團隊職責,奧特曼將在未來專注於籌集資金、供應鏈,以及建設資料中心。看來,OpenAI這一波要搞個大的了。Sora關停,一個時代結束了現如今,全網都在與曾經的「明星項目」Sora揮手告別。六個月前,Sora APP還是全球最火爆的應用。上線第一天,立即登頂APP Store榜首。不到5天,下載量衝破百萬!但到了今年1月,Sora單月下載量暴跌45%。這款APP整個生命周期,也就讓使用者掏了140萬美元。OpenAI今年眼看就要虧掉140億美元,Sora賺的那點錢,根本填補不了虧損。就連OpenAI與迪士尼買賣,如今也一併告吹了。去年12月,迪士尼本打算給投10億美金,還給Sora授權了漫威、皮克斯、星球大戰裡的200多個角色。現在,這些全都成了泡影。迪士尼發言人表示,「公司尊重OpenAI退出視訊生成業務的決定」。消息宣佈後不久,Sora負責人Bill Peebles在Slack上發了一段告別帖:我對規模雖小但戰鬥力爆表的Sora產品團隊所取得的成就感到無比自豪。他透露,Sora未來的研究方向將轉向「世界模型」——通過學習對任意環境進行高保真模擬來理解世界,終極目標是實現實體經濟的自動化。換句話說,Sora不是真的死了,而是換了一副面孔,從消費級視訊玩具變成了機器人技術的底層引擎。全力押注「超級App」周二, 奧特曼向所有員工宣佈了這一重大「斷舍離」舉動。WSJ獨家稱,OpenAI目前處於戰略轉型期,正轉移計算資源和頂尖人才,全力押注辦公生產力和程式設計工具。上周,OpenAI曾宣佈把ChatGPT桌面版、程式碼工具Codex、瀏覽器Atlas,整合成一個「超級App」。他們希望,這款大一統的產品,能讓全員朝著一個共同的目標發力。曾經光環加身的Sora如今悄然謝幕,側面宣告了OpenAI早期戰略的失靈。此前,OpenAI盲目追求產品矩陣的「大而全」,導致組織冗餘現象嚴重。這種「廣撒網」式的發展模式,不僅稀釋了核心資源,更讓內部陷入了無意義的研發資源爭奪戰。據內部員工抱怨,在與Anthropic和Google等強敵激烈競爭的關鍵時期,Sora太拖累公司的算力資源了。與此同時,為了企業級市場逆襲 Anthropic,OpenAI正在全速超車。在月初全員大會上,應用業務負責人Fidji Simo明確要求摒棄「支線任務」的干擾,並描繪了公司的新藍圖:全力攻堅AI Agent(智能體),將其作為未來產品的核心。值得注意的是,Fidji Simo領導的產品部門已正式更名為「AGI部署」部(AGI Deployment)。這個名字再直白不過了——OpenAI要部署的,是與人類智能比肩的通用人工智慧。秘密大模型Spud,即將上線據The Information獨家爆料,奧特曼正式「放權」,不再直接管理OpenAI的安全團隊。目前,OpenAI的組織架構和戰略重心發生了「地震級」的偏移——機器安全團隊劃歸首席研究官(CRO)Mark Chen領導的研究部門網路安全團隊則移交給聯合創始人兼總裁Greg Brockman統領的「擴展」部門。接下來,奧特曼將全身心投入到籌集資金、最佳化供應鏈,以及他自己所說的「以史無前例的規模建設資料中心」。更重磅的是,來自算力底層的博弈。據稱,OpenAI已完成下一代旗艦大模型Spud的預訓練,預計在未來幾周內上線。奧特曼在內部備忘錄中的原話是:這將是一個「極其強大的模型」,團隊相信它「能夠真正為經濟發展踩下加速踏板」。他還補充了一句意味深長的話,事情的發展速度比我們很多人預期的還要快。為此,OpenAI才做出了這一極其冷酷且果斷的決定:斬殺Sora,為Spud備上充足的算力。融資飆升至1200億刀,IPO已在路上所有的調整,最終指向同一個終局:IPO。同在今天,CFO Sarah Friar現身爆出重磅消息——OpenAI正在籌集新一輪融資,金額達100億美元。這使得OpenAI本輪歷史性的融資總額,直接衝破了1200億美元大關,遠超最初設定的1000億美元目標。Friar透露,這新增10筆投資,吸引了包括a16z、MGX、TPG等在內的頂級機構。OpenAI最近估值高達7300億美元,最快可能在今年第四季度進行首次公開募股。但它並非唯一一個盯著上市的玩家——Anthropic同樣在衝刺IPO。兩家公司正在進行一場全方位的拉鋸戰。Anthropic憑藉其用於寫程式碼和白領辦公任務的AI智能體在企業市場大出風頭,直接切走了OpenAI的蛋糕。奧特曼也公開承認,OpenAI正在爭分奪秒地推出類似工具。這就解釋了為什麼OpenAI要如此決絕地砍掉Sora、收縮戰線、聚焦企業級產品。這不是一次簡單的產品調整,而是一場面向資本市場的戰略重組。六個月前,Sora上線第一天登頂App Store。六個月後,奧特曼親手按下了刪除鍵。OpenAI跑得太快了,快到連自己造的東西都來不及留戀。 (新智元)
【十五五】重塑“視”界:AI視訊產業的戰略崛起與“十五五”發展藍圖
前   言如果說過去十年是移動網際網路重塑資訊傳播方式的十年,那麼站在“十五五”規劃開局之年的我們,正清晰地見證一場由人工智慧驅動的、更為深刻的視聽產業革命。AI視訊生成已從一個前沿概念,急速演進為驅動文化新質生產力、重構數字經濟版圖的核心引擎。從OpenAI的Sora引發全球驚嘆,到國內快手可靈、美圖等產品的快速商業化落地,再到《北京市促進“人工智慧+視聽”產業高品質發展行動方案(2025-2029年)》的率先出台,一個技術、政策與市場共振的產業發展“奇點”已然來臨。本文將深入剖析AI視訊產業的技術核心、市場動態、競爭格局與政策環境,勾勒其如何與國家“十五五”戰略同頻共振,賦能千行百業。一、頂層戰略與政策領航:為產業注入“確定性”任何顛覆性技術的規模化發展,都離不開清晰的國家戰略與穩健的政策框架護航。AI視訊產業正深度融入國家現代化宏偉藍圖,其發展軌跡獲得了強有力的頂層設計支援。國家層面的戰略定位極為明確。2025年9月發佈的《國務院關於深入實施“人工智慧+”行動的意見》(國發〔2025〕11號)是統領全域的綱領性檔案,不再將人工智慧視為孤立技術,而是定位為與經濟社會各領域深度融合、催生新質生產力的核心驅動力。檔案設定了清晰目標:到2027年,人工智慧將在六大重點領域深度應用,新一代智能終端、智能體等應用普及率超過70%;到2030年,人工智慧將全面賦能高品質發展,智能經濟成為重要增長極。這為AI視訊在各行各業的應用普及提供了明確的時間表和廣闊的想像空間。在“人工智慧+”的宏大敘事中,視聽產業因其巨大的文化影響力、經濟價值和民生關聯度,成為率先落地的關鍵領域。地方政府反應迅速,以北京市2025年11月發佈的“人工智慧+視聽PILOT領航計畫”為代表,堪稱一份前瞻性、系統性的產業發展路線圖。該計畫核心是“五位一體”的系統性推進:Platform(技術平台)攻堅垂類大模型;Innovation(內容創新)推動AI在影視、動畫等內容全鏈條應用;Landscape(場景賦能)覆蓋智慧影棚、文商旅體融合等領域;Optimization(服務最佳化)搭建智能體開發等平台;Trust(安全信任)探索“監管沙盒”,建構安全體系。這一方案標誌著發展思路已從單點技術突破,升級為建構技術、資料、平台、應用、安全協同進化的完整產業生態。圖表:國家及地方AI視訊產業核心政策時間軸資料來源:中投產業研究院整理圖表:北京市“人工智慧+視聽PILOT領航計畫”五維協同體系資料來源:政府機構官網、中投產業研究院二、技術突破與範式革命:從“工具”到“世界模型”的躍遷產業爆發的根源在於技術的代際飛躍。AI視訊生成技術在過去兩年完成了從“可用”到“好用”的關鍵跨越,其演進路徑清晰地指向對物理世界理解和模擬的更高維度。技術架構的演進是這場革命的基石。行業早期依賴生成對抗網路(GAN),隨後擴散模型(Diffusion Model)與Transformer架構的結合成為主流。當前,以OpenAI的Sora為代表的擴散型Transformer(DiT)架構成為前沿,它將Transformer的強大序列建模能力應用於擴散過程的潛在空間,從而能夠處理更複雜的時空關係。例如,Sora模型已能生成長達分鐘級、物理邏輯更一致的高品質視訊,這不僅是時長的延長,更是對場景動態合理性理解的質變。可以說,AI正在從“剪輯師”向“導演”進化。技術進步直接體現在產品性能的躍升和成本的陡降上。目前,頂級模型已能支援生成長達數分鐘的4K解析度視訊。更關鍵的是,成本優勢已成為顛覆傳統行業的“殺手鐧”。根據行業權威分析,目前國內外主流AI視訊生成API的單秒成本已降至0.2至1元人民幣區間。相比之下,傳統視訊製作成本呈幾何級數差異:本土電視廣告(TVC)視訊製作成本約在千元級/秒,而頂級動畫電影的製作成本甚至高達十萬元級/秒。這種千百倍的成本差異,為視訊內容的大規模、個性化生產掃清了經濟障礙。圖表:AI視訊生成技術演進路線圖資料來源:中投產業研究院圖表:AI視訊生成與傳統視訊製作成本對比柱狀圖資料來源:中投產業研究院三、市場爆發與競爭重塑:全球格局下的中國力量在技術與政策的雙輪驅動下,全球AI視訊市場正以驚人速度擴張,中國不僅成為最重要增長極之一,更在技術和商業化層面湧現出具有全球競爭力的參與者。全球市場規模與增長前景廣闊。根據Fortune Business Insights的預測,全球AI視訊生成器市場規模預計將從2025年的7.168億美元增長至2032年的25.629億美元,年複合增長率高達20%。亞太地區是增長最快市場,年複合增長率預計達23.8%,中國是主要驅動力。市場增長的底層動力是視訊在全球數字內容消費中佔據主導地位(據Cisco VNI預測,視訊已佔全球移動網際網路流量的70%以上)以及AI帶來的生產效率革命。競爭格局呈現多元化態勢,中國力量表現亮眼。海外廠商如Runway、OpenAI (Sora)在技術和創意社區影響力方面領先。據報導,Runway在2024年12月的年度經常性收入已達8400萬美元,顯示出強勁的商業化勢頭。與此同時,中國廠商如快手可靈(Kling)、美圖、字節跳動的剪映即夢等產品已躋身全球第一梯隊。在商業化上,中國廠商展現出更快速度和更靈活策略。例如,快手可靈(Kling)在2025年初實現了顯著的商業突破,年化收入運行率迅速攀升,凸顯出國內市場的巨大潛力和強大的商業化能力。此外,國內產品通常具有更優的性價比,降低了使用門檻,加速了技術在中小企業和個人創作者中的普及。圖表:全球AI視訊生成器市場規模預測折線圖(2025-2032)資料來源:Fortune Business Insights、中投產業研究院圖表:全球主要AI視訊模型性能與商業化對比氣泡圖資料來源:麥肯錫、BCG、中投產業研究院四、應用賦能與產業融合:催生“智能原生”新業態AI視訊技術的真正價值在於其作為“基礎能力”與千行百業融合後催生的“化學反應”,正在重塑從內容創作到產業營運的完整價值鏈。首先是內容產業自身的工業化升級。 AI已能深度參與劇本構思、分鏡生成、視訊生成與剪輯的全流程。這催生了如“AI漫劇”等新形態——以漫畫或小說IP為基礎,通過AI快速生成統一風格的動態短影片,極大縮短了IP視覺化周期。對於影視動漫行業,這意味著能夠以更低成本、更高效率進行“大規模個性化內容生產”。其次是賦能實體經濟,創造沉浸式體驗與增長新動能。在電商與零售領域,AI生成的個性化商品展示視訊能顯著提升轉化率。據Adobe Digital Insights報告,採用高品質視訊素材的電商頁面點選率可比圖文高出30%以上。在文旅與教育領域,通過AIGC技術對文物古蹟進行活化宣傳,可以打造沉浸式歷史文化體驗。在工業與科研領域,AI生成的高擬真視訊可用於自動駕駛演算法訓練和科學可視化,加速創新處理程序。最終,所有應用將匯聚於“智能終端”的革新。未來的AI電視、AI手機、AI眼鏡乃至智能汽車,將不再是簡單的播放裝置,而是具備本地化即時生成、理解和互動視訊內容能力的“智能體”。圖表:AI視訊在重點行業應用效果對比圖資料來源:中投產業研究院圖表:AI視訊賦能產業生態全景圖資料來源:中投產業研究院五、未來挑戰與核心關切:在創新與治理中尋求平衡前景雖廣闊,但邁向成熟的產業必須清醒應對挑戰。這些是“十五五”期間政策與產業界需共同攻克的核心議題。技術瓶頸與工程化鴻溝依然存在。當前AI生成視訊在複雜敘事邏輯、長程時序一致性上仍存不足,從生成單段視訊到支撐完整工業化工作流,仍需大量工程化創新。資料、算力與成本約束是產業可持續發展的關鍵。高品質、合規的視聽資料集建設挑戰巨大,同時大模型對智能算力的需求持續攀升。版權、倫理與安全風險是監管與產業發展的核心交匯點。 AI生成內容的智慧財產權歸屬、深度偽造技術濫用等風險亟待規範。北京方案中提出的“監管沙盒”機制正是前瞻性佈局。此外,既懂AI演算法又精通視聽藝術的複合型“智匠”人才短缺,也制約著產業發展。總而言之,AI視訊產業已告別野蠻生長期,步入與國家級戰略深度融合、在規範中加速創新的新階段。中國的獨特優勢在於統一的頂層戰略、豐富的應用場景、快速迭代的工程化能力以及積極審慎的治理框架。抓住這一機遇,不僅能培育兆級智能經濟新增長極,更將在建構數字時代文化軟實力和國際競爭新優勢中,佔據戰略制高點。這場由AI掀起的視覺革命,畫卷剛剛展開,其波瀾壯闊的未來,正待我們共同書寫。 (中投未來產業研究中心)
Sora 2團隊萬字實錄揭秘「世界模擬器」的終極野心
近日,OpenAI Sora 團隊負責人Bill Peebles、工程主管Thomas Dimson 和產品負責人Rohan Sahai 接受海外播客Trending Data的訪談。對話圍繞著 Sora 2展開,深入探討了其背後的核心技術,如 Diffusion Transformer (DiT) 和 "Spacetime Token" (時空Token);討論了 Sora 從 1 代到 2 代的迭代思路、 Scaling Law 如何驅動模型湧現出對物理世界的理解和AI Agent行為。此外,對「世界模擬器」概念進行詳細闡釋,也探討了視訊資料作為訓練資源的未來潛力,以及 Sora 作為社交產品的獨特設計哲學。嘉賓們一致認為,視訊生成技術正處於 "GPT-3.5 時刻",Scaling Law 是驅動模型能力實現階躍式提升的核心因素。Sora 2 的核心進步不僅是 Scaling Law 的結果,更體現在其獨特的「語意失敗」模式上——模型會選擇遵從物理規律,而非盲目迎合提示,這標誌著「AI Agent」行為的湧現。動漫等非現實數據也許有助於模型更有效率地領悟現實世界的概念。團隊也透露,正積極與 IP 持有者合作,探索讓用戶使用喜愛的 IP 創作並使權利人獲益的「新創作者經濟」模式。並預測,Sora 催生的不會是今天的長篇電影,而是一種全新的媒介。Sora 不僅是娛樂工具,更是一個平台,未來將承載用戶的「數位副本」在虛擬空間中執行任務。01. Sora 核心技術:Diffusion Transformer與Spacetime Token請你們先簡單介紹一下自己的職務Bill Peebles:我是Bill。我是OpenAI Sora 團隊的負責人。Thomas Dimson:我是Thomas。我是Sora 團隊的工程主管。Rohan Sahai:太好了。我是Rohan。目前我負責Sora 的產品團隊。Bill,身為Diffusion Transformer (DiT) 的發明者,能否介紹一下它是什麼?我們該如何理解DiT 的工作機制,例如它如何處理視訊幀?這是否等同於注意力機制,即物體在影片中的連貫運動是注意力機制的體現?Bill Peebles:大多數人應該都非常熟悉自回歸Transformer,這是目前市面上許多大語言模型的核心技術。在自迴歸模型中,你是逐一產生Token,並且需要根據所有已產生的Token 來預測下一個Token。而Diffusion Transformer 有點不同。它不使用自回歸建模作為核心目標,而是採用一種稱為擴散的技術。簡單來說,這項技術基本上就是獲取一個訊號,例如視頻,向其加入大量噪聲,然後訓練一個神經網路來預測你所加入的噪聲。這是一種不同類型的迭代生成建模。自回歸模型是逐一 Token 生成,而擴散模型則是透過逐步去除雜訊來生成內容。在 Sora 1 中,我們大力推廣了這項技術在影片生成模型中的應用。所以,如果你去看市面上所有其他的競爭對手模型,像是在美國的,絕大多數都是基於 DiTs,也就是 Diffusion Transformer。這很大程度上是因為 DiT 對影片而言是一種非常強大的歸納偏置。由於 DiT 是同時生成整個視頻的,它從根本上解決了視頻質量隨時間推移而下降或變化的問題,這是此前視頻生成系統的一大難題,而 DiT 恰好修復了它。這就是為什麼你看到 DiT 在視訊生成技術堆疊中迅速普及的原因。(關於 DiT 的工作機制)Bill Peebles:我們實際上是在「spacetime Token」的粒度上來考慮問題的,這個詞組聽起來確實有點瘋狂。但是,正如“字元”是語言的基本構建塊一樣,對於視覺而言,其基本構建塊就是這個“spacetime patch” 或叫時空補丁的概念。你可以把它想像成一個微小的長方體,它同時包含了X 和Y 軸的空間維度,以及一個時間維度。這才是建構視覺生成模型的最小單元。所以 Diffusion Transformer 考慮的是這些單元,你幾乎可以將其想像為逐個體素地處理。在這些 Diffusion Transformer 模型的傳統版本中,所有這些微小的「spacemetime patch」 都在與所有其他補丁進行「對話」。這正是你能夠讓諸如物體恆存性這樣的特性得以湧現的原因,因為模型在時空的每一個位置,都對視頻中發生的一切擁有完全的全域上下文,這對於神經網路來說是一項非常強大的能力。(關於注意力機制)Bill Peebles:是的,沒錯。在我們那篇關於「將影片生成模型視為世界模擬器」的Sora 1 部落格文章中,我們就展示了一些視覺材料,恰好解釋了你的觀點。注意力確實是一種跨越時空共享資訊的非常強大的機制。如果你將資料以「補丁化」的方式,也就是分解為一系列spacetime Token 來表示,只要正確地使用注意力機制,就能讓訊息在整個影片的所有部分一次性傳遞。02. Sora 2 的核心進步Sora 1 和 Sora 2 之間最大的差別是什麼?Sora 1 已經觀察到了湧現屬性,那麼 Sora 2 的提升純粹是 Scaling Law的結果,還是有其他重大差異?Bill Peebles:自Sora 1 發布以來,我們花了很長時間專注於核心的生成建模研究,以尋求視頻生成能力的下一個階躍函數般的提升。我們完全從第一原理出發。我們希望這些模型能極為擅長模擬物理。我們希望它們能給人一種“智能感”,而我認為此前大多數視頻生成模型都不具備這種感覺。我的意思是,如果你去看以前的任何模型,當它們試圖處理任何複雜的物理互動序列時,你會注意到很多混亂、不真實的效果,都是經典的失敗案例。上一代模型存在著非常明顯的問題,而 Sora 2 正是為瞭解決這些問題而設計的。我認為這個模型與以往模型相比,一個非常酷的點在於,當它「犯錯」時,它的失敗方式是我們前所未見的,非常獨特。舉個具體的例子:假設給 Sora 的文字提示是“一位籃球明星想要投籃”,例如投出罰球。如果在模型模擬中他投丟了,Sora 不會為了「過度樂觀」地迎合用戶要求,而神奇地讓籃球自動飛入籃框。相反,它在大多數情況下會選擇遵從物理定律,籃球會實實在地從籃板上彈開。所以,這是「模型失敗」和「AI Agent 失敗」之間一個非常有趣的差異。AI Agent 是指 Sora 在生成影片時隱式模擬的那個個體。我們在以前的視訊模型中從未見過這種獨特的「語義失敗案例」。這在 Sora 2 上是全新的,也是我們致力於投入核心生成建模研究,從而帶來能力巨大提升的成果。所以這並不純粹是 Scaling Law 的產物。你們實際上在模型中隱含了某種 AI Agent 的概念,並且在 Scaling Law 之外做了很多其他工作?Bill Peebles:我想說,AI Agent 的概念,實際上主要還是由Scaling Law 隱式帶來的。這就像我們在Sora 1 中展示的那樣:當預訓練投入的算力達到某個關鍵的flops 閾值時,「物體恆存性」就開始湧現了。當我們邁向下一個前沿時,我們看到了類似的情況發生:你開始看到這些模擬的AI Agent 表現得更聰明;你開始看到物理定律以一種在較低計算規模下所不具備的方式被尊重。03. 世界模擬器的數據與極限「時空潛在補丁」 (spacetime latent patches) 與「spacetime Token」 是什麼關係,它們如何關聯到物體恆存性及物理運動?你們如何篩選訓練資料以準確反映物理世界?例如,模型如何處理像動漫這樣不總是遵守物理定律的數據?我們是否面臨視訊預訓練Token 耗盡的風險?或者視訊數據本身就是一個尚未被充分開發的「數據金礦」?Bill Peebles:首先,我會說「spacetime patch」 和「spacetime Token」 或多或少是同義詞,我會互換使用它們。真正奇妙的地方在於:當人們開始將大語言模型從 GPT-1 擴展到 GPT-2 再到 GPT-3 時,我們開始真切地在這些系統內部看到了「世界模型」的湧現。儘管用於創建訓練資料的分詞器極其簡單,例如 BPE 或只是字元。但儘管表示方式如此簡單,當你向這些系統投入足夠的計算和數據時,為了真正解決「預測下一個 Token」這個任務,模型必鬚發展出一種關於世界如何運作的內部表示。它需要去模擬事物。在較低的計算規模下,模型會犯很多錯誤,但當你繼續從 3 推向 4 再到 5,你會發現這些內部世界模型變得越來越穩健。這與視訊領域的情況非常相似,甚至在許多方面更為明確。我認為用視訊資料更容易想像「世界模型」或「世界模擬器」是什麼樣子,因為它本身就是在表示現實世界所有原始的觀測資料。但真正卓越的是,這些「spacetime patch」 是一種非常簡單且高度可重用的表示方式,它能適用於任何類型的數據,無論是像我們錄製現場這樣的真實影片片段,還是動漫、卡通等等。你只需要建立一個神經網絡,它就能夠處理這種極其龐大且多樣化的資料集,並從中建構出模擬世界「可泛化屬性」的、極其強大的表示。你需要一個世界模擬器來預測卡通情節將如何展開,同樣,你也需要它來預測我們這場對話可能會如何發展。因此,這就給 Sora 施加了巨大的最佳化壓力,迫使它必須以一種非常數據高效的方式去「領悟」這些核心的基本概念。(關於資料篩選)Bill Peebles:我們確實花了大量時間來思考一個「世界模擬器」的最佳數據組合究竟是怎樣的。針對你的觀點,我認為在某些情況下,我們會做一些決定,也許只是為了讓模型變得非常有趣,例如,人們非常喜歡生成動漫。但這動漫數據並不一定能完美地代表那些對現實世界應用有直接幫助的物理定律。換句話說,我認為動漫中包含一些被簡化的圖元(simplified primitives),這些簡化的圖元實際上可能有助於模型理解真實世界。例如,角色同樣會在場景中移動。但是,如果裡面有條瘋狂的龍在到處亂飛,那對於領悟空氣動力學之類的知識,可能就沒什麼幫助了。我認為這確實是一個有趣的問題,但我目前還不知道答案:即,在簡化的視覺世界表示,無論是草圖還是其他某種模態上進行預訓練,是否真的能讓你更有效率地「領悟」這些概念。我認為這其實是一個非常有趣的科學問題,值得我們去深入理解。(關於影片Token耗盡問題)Bill Peebles:我是這麼看這個問題的:影片資料「每位元所蘊含的智慧」要遠低於文字資料。但是,如果你對世界上實際存在的所有數據進行“積分”,那麼總的智能量將是高得多的。所以,直接回答你的問題:我認為很難想像視訊資料有一天會完全用完。它在世界上的存在形式實在太過分了。我懷疑,在未來很長一段時間內,你都將處於這樣一種狀態:你可以持續不斷地向預訓練中加入越來越多的數據,並持續看到模型性能的提升。未來Sora這樣的模擬器是否有可能幫助我們發現新的物理學?要達到可以進行科學發現的水平,模型是否必須在物理世界中擁有「具身性」 ?建構「通用世界模擬器」的最佳數據組合是什麼?是僅靠視頻,還是需要視頻、文字以及結構化物理定律的結合?(關於發現新物理學)Bill Peebles:我完全相信這總有一天會發生。但我認為,我們可能還需要模型質量再經歷一次「階躍函數」般的變化,才能真正達到可以進行科學實驗的程度。但是你可以想像,總有一天,你會擁有一個對物理定律泛化得極好的世界模擬器,好到你甚至不再需要現實世界中的「濕實驗室」。你可以直接在Sora 內部運行生物實驗。再說一次,這需要大量的工作才能真正實現,你需要一個足夠穩健的系統來可靠地完成這些任務。但在內部,我們將 Sora 1 視為視訊領域的“GPT-1 時刻”,這是該技術首次在該模態上開始起作用。而 Sora 2,我們將其真正視為「GPT-3.5」 時刻。因為它確實能夠激發全世界的創造力,並一舉突破了“可用性障礙”,我們正看到這些模型開始被大規模採用。我們將需要一次「GPT-4 等級」 的突破,才能真正讓它在科學領域發揮作用。就像我們現在所看到的 GPT-5 一樣,我感覺現在每天都能在 Twitter 上看到 GPT-5 Pro 又改進了某個凸優化問題的下界。我認為,最終 Sora 也會在科學領域實現同樣的目標。(關於是否必須擁有具身性)Bill Peebles:每當我們向這些模型中再投入10 倍的算力時,在訓練內容和基礎方法幾乎沒有大改的情況下,總有一些新能力“神奇地湧現”,我總是對此驚嘆不已。我猜測,一定程度的「物理能動性」肯定會有所幫助,我很難相信加入具身性會讓你在模擬碰撞或其他事情上做得更差。不過,「僅靠影片」這條路徑已經相當了不起了。如果事實證明這條路徑對於建立一個通用世界模擬器而言是「AGI 完備」的,我並不會感到驚訝。(關於最佳資料組合)Bill Peebles:我認為這在很大程度上取決於你為這個世界模擬器設想的具體用例。例如,如果你真的只想建立一個精確模擬籃球比賽的模型,我其實認為僅靠視頻數據,也許再加上音頻,就足以構建這個系統。這個通用的模擬系統中到底應該包含那些“模態”,這是個很有趣的問題。當然,如果你增加更多的模態,我很難相信智慧等級會因此下降。但我也認為,有種觀點是,相較於完全掌握視訊和音頻,一味地增加更多模態並不能帶來顯著的「邊際價值」。我認為這是一個很有趣的、懸而未決的問題。我現在也說不準,這是我們需要進一步去瞭解的。04. 人情味是AI社交的產品市場契合點圍繞著Sora,你們是如何組建產品團隊的? Sora應用程式的開發是如何啟動的?Thomas Dimson:故事的發展總是不像你想像的那麼一帆風順。 Sora 從專案啟動之初就有一個產品團隊。在Sora 1 時代,Rohan 是這份工作的負責人。但我同意Bill 的說法,那真的更像是一個「GPT-1 時刻」。我們看到了一些零星的、非常有趣的亮點。但是那些模型,沒有聲音的模型,沒有聲音的視頻,那是一個完全不同的環境。所以,我們當時在那個層面上努力,主要瞄準的是「產消者」族群。另外,Rohan 或許可以深入談談所有細節。我們當時也在 OpenAI 內部探索 AI 在社交應用上的不同可能性。我們做了很多原型,但大部分都相當糟糕。而我們開始看到一些魔力,實際上是在「圖像生成」功能發布之前。我們在內部的社交環境中試玩它。那個社交情境真的很有趣,你會看到人們在做什麼,你會拿一張圖,然後出現一系列對這張圖的「二次創作」。我們看到這些,就覺得,“哇,這太有意思了,但在社交媒體上沒人能真正做到這一點,因為從頭創作或去'演繹'別人的東西太難了。這個行為的門檻非常高。你可能得架好相機,而且不僅僅是想個點子那麼簡單。這背後涉及很多工作。”所以我們當時想 , “Sora 的一些研究還在進行中,也看到了一些希望的跡象,但還遠遠沒到可以產品化的形態。Bill 可能在他腦中已經構想好了,他總是能預見未來,但沒關係。我這人比較...我還沒辦法預見未來。所以,我們當時就在探索。我們嘗試了一些東西,然後在某個時刻,研究成果真的展現出了非常清晰的價值,甚至是一種「迭代部署」風格的價值,表明「哦,這會是人們真正想要的東西。」於是我們在兩三個月前投身到了這個項目。時間不長。就是 7 月 4 日那周。我們當時就「鎖定」了狀態,心想,「好吧,我們終於要乾了。」那總是一個標誌性的時刻。我們剛開始時沒有任何神奇的功能,只是想,「好吧,我們先試著搭建一個原生的視頻環境,讓你可以全螢幕播放,能聽到音頻。」我們快速生成了一些內容。結果非常酷,非常有趣。而且因為有了圖像生成的經驗,我們就在想,“好吧,這裡的魔力在於創作的門檻被降得非常非常低。”我從 Instagram 過來,深知讓人們在 Instagram 上創作有多難,但那偏偏是用戶最有價值的行為。那麼這能釋放什麼呢?結論是,「好吧,圖像生成中的那種『二次創作』玩法,在這裡依然適用。」於是我們集思廣益,討論各種二次創作的實現方式,以及它在這裡到底意味著什麼。其中一個點子就是「客串」功能,我想 Bill 腦子裡也有這個想法,但這個想法當時大家差不多都有了。反正是大家都有的感覺。但我們產品團隊就是把各種東西「快速搭建」起來。 「哦,試試這個行不行。」我當時根本不覺得這能成。但它在我們的功能清單上。列表上還有其他一些東西。有些點子相當瘋狂。為什麼覺得它成不了?Thomas Dimson:我不擅長預測技術。我當時並不清楚,你是否能提取一個人的“肖像”,並把它融入到想像生成的視頻中,以及這是否能行得通。所以我們有過各種早期原型,像是讓人們在影片角落做反應之類的。但當我們看到客串功能開始起作用時,甚至只是在內部試玩,Rohan,你還記得那天嗎?Rohan Sahai:記得,整個「資訊流」全是客串。變化就是這麼快,從我們沒有這個功能,到一旦有了這個功能,團隊內部立刻就實現了「產品市場契合」。我們產生的所有內容都是關於彼此的內部梗。我想一開始,我們只是覺得,「這太搞笑了,太神奇了。」一周後,我們發現,「我們居然還在玩這個。」這表示這裡面肯定有東西。Thomas Dimson:沒錯。我的意思是,一開始我們其實有點,「這真的好嗎?」「嘿,現在全是客串了。還有人關心別的嗎?大家關心別人在做什麼嗎?」但我們很快就意識到,「不,不,這其實是好事。這真的讓我有動力回來看。」它極大地增加了內容的人性化色彩。因為很多AI 影片只是靜態場景,雖然很美、很有趣,可能裡面在發生極其複雜的事情,但它們缺乏人情味。而客串功能讓人情味又回來了。Rohan Sahai:這也是從圖像生成中學到的另一點。影像生成之所以能火爆並產生病毒式傳播,就是因為你可以用一種前所未有的、低門檻的方式,把自己P到各種場景中。最明顯的例子就是那個「把我放進吉卜力場景」的潮流。還有人們和自己的偶像P合照等等。所以,你仔細一想就會發現,「是的,客串功能太合理了。」你把自己放進所有這些場景。這可太令人興奮了,你,還有你的朋友。這很新奇。這是你以前做不到的。Thomas Dimson:然後再結合二次創作。客串本身就是一種二次創作,但接著你就會開始想,「好吧,那我現在可以在Rohan 做的某件事上進行演繹,」或者別的什麼。我把Bill...我把你P進了一個「動作玩偶」的包裝盒裡。那個影片被二次創作了無數次。各種非常、非常瘋狂的事情就這麼發生了,而且是「湧現」出來的。很多東西是我自己永遠想不到的。05. Sora的演算法旨在激勵創作,而非最大化“盲目消費”Sora 吸引了那些用戶?關於早期採用者,有那些特質讓你們感到驚訝?Thomas,鑑於你在Instagram 負責排名演算法的經驗,Sora 在演算法和排名設計上吸取了那些教訓?你們如何透過產品設計,有意地防止應用淪為「無腦刷」的工具,並強化其「人」與「社交」的元素?Rohan Sahai:你只要去看看「最新」資訊流,那裡簡直是包羅萬象的「資訊洪流」。全是太空人模式,全是spacetime Thomas 模式。那個世界太瘋狂了。但它能讓你好好一窺正在發生的一切。我的意思是,我們現在每天大概有近700 萬次生成,你可以想像那裡承載了多大的資訊量。這是我最喜歡的產品回饋管道之一。人們做的事情類型、使用者的類型,都極為多元。你會看到各種年齡層的人。有些人在想像自己置身於某種激勵人心的場景中;有些人在和朋友們「玩梗」;還有些人在客串平台上已經開放客串功能的公眾人物。所以,這種多樣性讓我感到驚訝。我本來以為,Twitter 上的那群 AI 愛好者會佔領整個資訊流。他們確實主導了媒體的報導,至少是我們接觸最多的部分。但就實際使用Sora的使用者而言,群體的覆蓋範圍非常廣。最後一點是,Sora 的用戶群和之前存在的那個「小眾」 AI 電影圈有了很大的差別。那些人是很好的早期採用者,但現在,我以為我會從那個圈子開始,但感覺Sora一上來就覆蓋了更廣泛的人群。我想,登上 App Store 榜首對此功不可沒。你總是能吸引到那些隨便逛逛、然後發現了這個應用程式的人。(關於排名演算法的教訓)Thomas Dimson:這裡面有很多東西可以談。我認為,當我們思考這些平台,或具體到Sora 時,首先要考慮的就是我之前提到的關於創作的問題。 Sora 基本上讓平台上的每個人都成為了創作者。這與Instagram 之類的環境截然不同,在Instagram 上,創作者的分佈呈現出極端的「冪律」特徵。而這種冪律分佈只會自然變得越來越「頭部集中」。所以,有時候我覺得我必須為 Instagram 的演算法辯護。我們當初那麼做是有原因的,是為瞭解決一個實實在在的問題。它不是一個為了優化廣告之類的隨意決定。我們之所以那麼做,是因為我們注意到 Instagram 隨著時間的推移,由於內容是按「時間順序」排列的,每個發文的人都能保證佔據他所有粉絲資訊流的頂部位置。你只要想一想,在這種環境下,人們的動機自然是不斷地創作,因為他們一創作就能保證獲得分發。久而久之,隨著冪律分佈的頭部越來越重,那些類型的人,他們很棒,為生態系統提供了很多價值,但他們開始擠佔掉你真正關心的人的(資訊流)空間。例如,你可能關注了《國家地理》,我不是要Dunk他們,我很喜歡他們,但如果他們一天發 20 篇帖子,你的朋友可不會。你朋友沒有那樣的最佳化目標,他們可能只是寄一張咖啡的照片。結果就是,你在刷到你朋友的咖啡之前得先看 20 篇《國家地理》的帖子,而那張你真正關心的照片,你可能永遠也刷不到。如果你堅持使用固定的排序,這個問題沒太多解法。要麼,你必須取消關注所有這些你可能關心、但不如那個一天只發一條動態的人重要的帳戶;要麼,你就必須對訊息流進行「重排」。我們選擇了後一條路。我們嘗試了,在內部進行了測試。這個決定在當時爭議巨大。但我認為你完全可以從數學上推導出這一點。這就像一個證明:基本上,隨著時間的推移,你將不得不控制平台的分發權,才能防止這類問題的發生,從而向用戶展示他們真正關心的內容。這就是我們當時做這件事的原因。它也確實展現了巨大的價值。我記得早期的測試,具體數字我不多說了,但結果是毫不含糊的:它確實讓你看到了更多你關心的人,改善了你的平台體驗。它甚至還促進了創作,這很不尋常。它讓人們創作得更多了,因為他們看到了更多自己能接觸到的內容。但我也認為,這些東西隨著時間的推移可能會「偏離」。我不會說 Instagram 演算法是絕對的好或絕對的壞,但是當平台開始引入更多非關聯內容,且廣告壓力變得非常大時,公司也有一種天生的動機去優化“盲目消費”,因為那是你賺錢的方式。所以,也許平台會推送更便宜的內容,或者只是想辦法讓人們刷得更久。而這又會抑制人們的創作慾望,因為它變成了更無意識的刷屏模式。你們已承諾會防止Sora 出現這種情況?Thomas Dimson:我們做出了承諾。我們已經設定了很多“緩解措施”。但我認為對我來說,核心問題在於:我們作為一個平台,到底想做什麼?我認為這項技術的魔力在於,每個人都可以是創作者。所以我們希望這個資訊流是為了激勵你創作而被優化的。這種激勵,有時你想到“靈感”,你會想到,“哦,那是一個多麼美、多麼瘋狂、多麼優雅的場景。”但當我想起激勵時,我想到的是“梗文化”,或者一些特別好玩的東西,比如“哦,這個太酷了,我得'演繹'一下。”我認為當你在瀏覽資訊流時,這是一種完全不同的大腦模式。當然,我們還有很多其他的措施。所以,我認為這一切始於我們的激勵機制。我們當下的激勵機制,就是鼓勵生態系湧現更多的創作。但我們肯定也想阻止某些用例。我們無法保證每次都做對。這非常具有挑戰性。這是一個動態演變的系統。當你在沒有任何數據、不知道該推薦什麼、也不知道平台未來會如何演變的情況下,去編寫一個「推薦系統」是極其困難的。但這基本上就是我對資訊流激勵機制的看法。然後,Rohan,我們設定了很多緩解措施,我想你一直在思考這些,甚至可能比我更深入,用來防止那些極端情況的發生。(關於防止「無腦刷」的設計)Rohan Sahai:首先要補充一點,我們「優化創作體驗」的既定目標非常奏效。幾乎所有透過邀請碼進入應用程式的用戶,都在第一天就進行了內容創作。在他們後續的訪問中,有70% 的時間是在進行創作。甚至有30% 的用戶會將內容發佈到公共的資訊流。這意味著他們不只是為自己產生內容,而是在為整個生態系統做出貢獻。這強而有力地證明了我們模型的出色、趣味性,以及我們目前的優化策略是切實有效的。除此之外,我們優先考慮的事情之一是,我們不希望這個產品淪為一個讓人「無腦刷」的應用。因此,除了在排名演算法中優化創作權重,我們還可以做更多事情。例如,試著將使用者從純粹消費的「心流」狀態中拉出來,引導他們進入創作模式。我記得有一篇很棒的文章叫《賭場的曲線本質》,講他們如何設計賭場讓你無需做出任何決定,你只是在原地打轉,那裡沒有窗戶等等。我們可以刻意地反其道而行。例如,在資訊流中插入一個單元,提示'嘿,你剛看了幾個這個領域的視頻,要不要自己也創作一個? '或用其他方式來打斷你的消費狀態。實際上,我們的產品中已經有了類似的設計。Rohan Sahai:我想我們不會推出一個缺乏人文溫度、純粹由AI 內容構成的資訊流。那樣的產品引不起我們的興趣。當我們真正做出這款產品,有了Cameo 功能,並且團隊內部有了那種社交的感覺時,我們就意識到:『這確實有點不一樣。 'Thomas Dimson:這在當時並非顯而易見。我們是經歷了一場極其瘋狂的衝刺才走到這一步的。最初,我們完全不清楚最終會做出什麼。但現在回想起來,這個關於Cameo 的想法是合理的。可「Cameo 會成為核心功能」在當時是一個完全不符合直覺的產品決策。例如,'你當然只是想看朋友們做酷炫的事情。 '這聽起來順理-成章。但在那個瘋狂的產品研發階段,我從未真正擔心過競爭壓力,因為我們做出了一系列在當時看來「非凡」的決策,這些決策現在回想起來順理成章,但在當時卻毫不起眼,而我們正是在這些決策的基礎上層層構建起來的。例如,'好,就做 Cameos。 '但 Cameo 也可以有另一種形態,例如一個完全為你個人定製的、體驗極佳的單人模式流程,你走完一套引導流程,然後創作自己的東西。但我們當時已經觀察到了一些有趣的動態,例如:『我可以把 Rohan 拉進我的影片裡,這太酷了。 '然後我們可以來一場辯論,或者打一場動漫式的格鬥,內容不限。我當時就覺得:『這才是「人」的元素。這才是這個產品的魔力所在。 '奇怪的是,儘管所有內容都是 AI 生成的,但它比許多現有的社交網路更具社交性。這一點非常反直覺。06. API旨在服務長尾小眾需求,而Sora的探索性則使其具備遊戲DNA應用程式中的模型和API 上的模型是同一個嗎?你們觀察到API 端的主要用例是什麼?這與消費者應用程式上的使用者行為有何不同?你們認為現在的視訊模型是否已經夠好,足以讓開發者在API 之上建立視訊遊戲?還是說仍需等待模型迭代?Bill Peebles:你是說應用和API 產品之間的模型嗎?我們目前在API 和應用程式中的模型是相同狀態的。我們推出 API 的主要動機就是為了支援那些長尾的使用情境。我們的願景是利用這項技術,觸達像 ChatGPT 那樣規模的消費者受眾。但除此之外,還有大量非常小眾的需求。可以想像,在 Sora 1 階段,我們拜訪了很多工作室。他們回饋說,希望以某種特定的方式,將這個模型整合到他們技術堆疊中的某個特定環節。我們很樂意支援所有這些長尾用例,但我們不想為此開發一千個不同的介面。所以,API 承載了我們這方面的期待。到目前為止,我們看到的多是那些相對較小眾的公司。他們不是想建立一個第一方的社交應用,而是可能擁有一些電影製作領域的受眾或他們需要支援的客戶,甚至我們看到有人在嘗試,我記得有家公司在將 Sora 用於 CAD 相關的項目。所以,確實存在一些很酷的用例。我想我們仍在探索它們的全貌。Thomas Dimson:我認為這些模型大有可為。基於我的背景,我總是在思考遊戲領域。 AI 和遊戲一直是個備受爭議的話題,但很明顯,AI 在其中有它的一席之地和特定角色。也許它不必打斷創作過程,而是可以增強這個過程。我非常期待看到這類用例的出現。(關於建構電玩遊戲)Rohan Sahai:我想說,永遠不要低估人們利用科技進行創造的方式。總是會有人能建構出一款遊戲,也許現在已經有人做出來了。至於它的觀感和體驗,很明顯這個模型有延遲,所以你必須採取各種非常規的手段來規避這個問題。Thomas Dimson:我覺得人們會立刻想到那些在遊戲中顯而易見的AI 應用,我們確實也在一些研究部落格中看到過類似的東西。但我的思路經常轉向:'好吧,這是一個有點不一樣的創意工具。 '在這個方向上,真正讓我興奮的遊戲類型,我來詳細說一個,有一款叫《Infinite Craft》或叫“無限合成”的遊戲,堪稱世界上最semplice 的遊戲。它是個網頁遊戲,你只需要取得一些基本元素,像是火、水、土。開局你有四種元素。你只需拖曳它們,它們就會組合成新東西。而組合的結果是基於大語言模型的。例如,火和土可能會合成火山。然後火山加水,可能會變成海底火山,或是哥吉拉之類的。不知為何,最後總能合出哥吉拉。這就是一個很合理的例子。你會覺得:『你根本不​​需要一個固定的遊戲合成樹。LLM 可以自行衍生出這套合成樹,而遊戲過程就成了一個探索發現的過程。 '所以我認為,在那個領域還有很多未被挖掘的潛力。我再次強調,我喜歡「探索發現的過程」這個概念。事實上,我對 LLM 乃至某種程度上的視訊模型的哲學觀點是:它就是一個發現的過程。所有的可能性都已蘊含在模型的權重中。你只是在用你的提示詞這串「秘密代碼」來解鎖它們。我太愛這種感覺了。這非常奇妙。在遊戲領域,這始終是最讓我興奮的部分:發現新事物,尤其是當它是一個「真正」的發現,而不是別人預先放置在那裡的。也許開發者只是設定了它周圍的機制。所以,我認為遊戲領域蘊藏著巨大的機會,前提是你能以一種全新的方式去思考遊戲,並以一種截然不同的方式去擁抱這項技術。Thomas Dimson:我認為限制依然存在,而解決限制將是機制設計需要做的。這仍然非常依賴人類的智慧。就像很多早期基於GPT-3 的遊戲,它們可能剛開始玩一分鐘還挺有趣,但很快就偏離了軌道。你會覺得:『我完全不知道我接下來在幹嘛了。 '但是,Sora 給人一種類似的感覺,它的內核裡帶有一點點遊戲的DNA,讓人覺得非常有趣、與眾不同,且富有探索性。所以我喜歡這樣的東西,而且我認為未來會出現更多我們現在甚至無法想像的用例。07. Sora賦能個體創作,但運算成本是普及關鍵你們在創意電影製作方面觀察到了什麼? Sora 是想賦能市場的長尾用戶,還是想賦能創意市場的「頭部」專業人士?關於「長篇電影內容」的願景,我們何時能實現個人創作者製作長篇電影?未來會不會出現完全在Sora 2 上創作的長篇電影?Bill Peebles:這是個非常好的問題。我們從那些創意人士身上受益良多,他們非常願意全情擁抱早期的技術,例如DALL-E 1 和DALL-E 2,並真正幫助我們指引了前進的道路。我認為,我們必須繼續為這些人建立工具。並且,我們正在長期推進一些更針對創意領域高級用戶的專案。同時,我堅信 AI 在其最佳狀態下是一種極具民主化特徵的工具。因此,Sora 平台的魅力在於,無論何時有人創作出了爆款,例如你看到了那些衝上所有人資訊流頂部的精美動漫提示詞,任何人都可以去“混剪”它。每個人都有能力在它的基礎上進行再創作,並且可以向​​那些深諳如何最大化利用這些工具的人學習。因此,我真的很高興看到全人類的整體創造力水平因此得到提升。但我認為,實現這一點的關鍵在於繼續賦能那些總是走在最前面的人,也就是那些更偏向專業的創意人士。所以,我們也希望繼續在他們身上投資。(關於長篇電影)Bill Peebles:我認為這在某種程度上會分階段實現。如果你看了我們的發布視頻,那是Sora 團隊的Daniel Freiden 製作的。利用現有的工具,他已經能夠在最多幾天之內,高效產出那些極具吸引力的短篇故事。那幾乎是他一個人在極短的時間內獨立完成的。從那以後,他也在OpenAI 的Twitter 帳號上持續發布新的作品。所以,很明顯,這項技術正在大幅縮短電影製作的周期。但我認為,要達到讓任何人,例如任何一個孩子在家裡就能啟動應用或登入 sora.com 之類的網站去創作的程度,這本質上是一個視訊模型的經濟學問題。影片是所有模態中計算密集度最高的。它極其昂貴。我們的研究團隊正在取得良好進展,持續探索如何讓這項技術在未來能被每個人負擔得起。舉個例子,Sora 應用程式目前是完全免費的。未來,很可能會推出付費方案,人們可以透過付費來獲取更多的模型存取權限,這只是因為這是我們能進一步擴大服務規模的唯一途徑。但是,我認為我們離那個「任何人都能擁有創作絕佳內容工具」的世界已經不遠了。我猜想,這個過程中會產生大量的爛片。但同樣地,下一位偉大的電影導演,可能現在坐在他父母的房子裡,或許還在上高中,他只是缺少投資或工具來讓自己的願景成為現實。當我們把這項技術交給全世界時,我們將會發現一些絕對了不起的創作。Thomas Dimson:我想就這點再補充一句。我從推薦系統中反覆學到的經驗是:工具能激發人們更多的創造力,這將是一個巨大的釋放,因為它能讓更多普通人變得富有創造力,你不再需要那些昂貴的電影製作設備。但我們也始終觀察到,內容在某種程度上也是一種社會現象。你所看到的電影和所有其他內容,除了內容本身,還帶有一點社會屬性。因此,我認為我們將進入一個非常有趣的時代:創作者如此之多,內容如此氾濫,以至於「是否有人在關注和觀看」這件事本身將變得越來越重要。我猜這反而會促使內容的整體品質提升,因為當任何人都可以創作時,真正稀缺的將是消費者的注意力。這與我們今天所處的世界截然不同。08. Sora正與IP持有者合作,探索共贏的商業模式你們在處理IP持有者關係時顯得非常深思熟慮。能談談這方面的策略與進展嗎?Bill Peebles:我們一直與業內許多夥伴保持著密切合作,一方面是向他們展示這項新技術,另一方面,這項技術對所有權利持有者而言都具有巨大的價值主張。我們從交流中聽到了他們極大的熱情。他們真的認為這是一個新前沿,讓全世界的每個孩子都有機會使用那些備受喜愛的IP,並將其帶入自己的生活,這種體驗比以往任何時候都更加個性化和定製化。同時,我們非常希望確保我們以正確的方式推進這件事。因此,我們一直在努力收集回饋,並據此引導我們的路線圖,我們希望確保用戶在使用這些 IP 時能獲得絕佳體驗,同時權利持有者也能獲得合理的貨幣化收益和回報,實現真正的雙贏。目前,我們正在積極地規劃具體細節,例如,如果你想 Cameo 某部備受喜愛的電影中你最喜歡的角色,我們要如何讓你既能訪問這個 IP,同時產生的收益又能回流到權利持有者手中。這相當於,我們要為創作者們建構一個全新的經濟生態。我們現在必須從零開始創造這一切。關於如何正確地做到這一點,有許多深層的問題需要解決。就像對待這個應用程式的其他所有功能一樣,我們秉持開放的心態,傾聽回饋,然後快速迭代。我們不確定它最終會演變成什麼形態,但我們正與各方密切合作,共同尋找答案。09. 下一步計劃:即將推出“寵物Cameo”Sora 應用程式的下一步計劃是什麼?關於長篇電影的未來,你們認為它會是什麼形態?Bill Peebles:寵物。寵物Cameo。讓你的寵物也加入Cameo。Rohan Sahai:這是使用者需求量最大的功能之一。Bill Peebles:至少對我來說,是最大的需求。Rohan Sahai:這點千真萬確。我們承諾過,這個功能就快來了。我們當時測試這個功能時,還用了Bill 的狗,Rocket。能讓寵物真正成為主角,這體驗真的非常非常酷。你可以想像這未來有多大潛力。而且不一定要是寵物。它可以是任何東西,一個時鐘,或你身邊的任何物件。Thomas Dimson:我有一個時鐘。在《辛普森家庭》很早的一集裡,他們提到了一個會走路的時鐘。不知為何,這東西在過去30 年裡一直在我的腦海裡揮之不去。我想:'Rocket,會走路的時鐘。 '於是我就試了一下。我們一直在測試這個功能,就是想看看能不能實現,以及它是否有什麼特別之處。這也是在Sora 團隊工作的樂趣之一:你可以玩這項瘋狂的、不斷湧現的新技術,它也許會做出你完全意想不到的事情。所以我錄了一段我那個時鐘的兩秒鐘視頻,然後給它下了一些cameo 指令,我說:'你就是一個會走路的時鐘。你是會走路的時鐘。你會說話,你是一個角色。 '然後我生成了我的第一個視頻,效果簡直了。太瘋狂了。它就是一個會走路的時鐘。(關於長篇內容的未來形態)Rohan Sahai:關於未來,我想補充一點。關於長篇電影的問題,我一直在思考,它究竟會是什麼樣子?我先聲明一下:這裡只有Bill 擅長預測未來。但我的感覺是,隨著我們轉向更長的內容形式,我們所對應的「長篇電影」在觀感上將與今天的長篇電影截然不同。我不知道具體會是什麼樣,但在創作者和未來趨勢這個主題上,我認為會出現一種新的媒介和一類新的創作者。當然「新階級」也可以包含許多現有的創作者,並支援現有的媒介。但我認為,我們正處於我所設想的「下一個電影產業」的開端,而不是簡單地把它想成是(現在的)長篇電影。我認為會有全新的東西誕生。有個軼事,我希望這是真的,因為我老是提它。據說,當攝影機剛問世時,人們做的第一件事就是去錄製舞台劇。這大概是攝影機最無趣的用法了。就像是:'這有什麼了不起的?哦,我們不用到處巡迴演出了。我們可以把劇目錄下來然後分發。 '直到後來才有人反應過來:'等等。我們可以拍電影,我們可以在所有這些不同的地方拍攝。 '我覺得,我們現在正處於人們將用這項技術做各種事情的起步階段,尤其是當延遲、內容長度和所有這些限制都發生變化之後。10. Sora的終局是「數位副本」平台你們如何看待Sora這類新模擬格式的未來潛力?Sora 的終極願景是什麼?是在建構多元宇宙嗎?你們如何看待「模擬世界假說」?Sora 的理論極限是什麼?Bill Peebles:那將會非常瘋狂。我認為這裡有一個更宏觀的觀點:這款應用程式現在在很多方面都讓人感覺很熟悉。它的核心是一個社群媒體網路。但從根本上說,我們內部對它的定位是:透過Cameo 功能,我們引入了一種讓使用者向Sora 提供自身資訊的「資訊密度最低」的方式,關於你的外表、聲音等方面的資訊。你可以想像,隨著時間的推移,這個資訊通道的密度會大大增加。到那時,模型將深度理解你與他人的關係。它不僅瞭解你某一天的樣子,它看過你全部的成長經歷,所有關於你自己的細節。我們將真正使其幾乎能像數位克隆一樣運作。所以未來真的會有一個世界:Sora 應用程式幾乎變成了在你手機上運行的一個迷你替代現實。你擁有自己的數位版本,它們可以去和其他人的數位克隆互動。你可以讓它做知識性工作。它不僅僅是為了娛樂。它真的會更演變成一個平台,這與世界模擬能力的長期發展方向是高度一致的。我認為當這一切發生時,我們將看到的那些自發性湧現的事物將是超乎想像的。對於 OpenAI 而言,至關重要的是,我們要以一種迭代部署的方式來推廣技術,而不是在某個重大研究突破出現時,就向世界扔出一個「重磅炸彈」。我們希望社會與科技能夠協同演化。因此,我們認為現在推出這個功能非常重要,並且要以一種我們又一次達到了視訊領域的 GPT-3.5 時刻的方式來做。我們要確保世界瞭解到「現在已經能做到什麼」。同時,也要開始讓社會感到適應,並為這個更長遠的願景探索出「產業規範」。在那個願景裡,Sora 中、在網路空間中,到處都是你自己的副本在運行,執行任務,然後再向物理世界報告。因為,這才是我們長期的發展方向。(關於是否為建構多元宇宙)Bill Peebles:差不多是這樣。(關於模擬世界假說)Bill Peebles:這涉及到一些非常深刻的,非常深刻的存在主義問題。正在上升。我感覺我現在有穩穩的60%。事到如今,我們被模擬的可能性已經大於不是被模擬了。(關於Sora的理論極限)Bill Peebles:這真是個好問題。我稍微思考過。我覺得有一個問題是:你最終能在Sora 內部模擬一個GPU 叢集之類的東西嗎?我猜想,對於你在某個系統上實際投入的運算資源而言,你能在這個系統內部運作的運算量是存在一個非常明確的上限的。我還沒有足夠深入地思考過這個問題,但我認為這其中存在一些需要被解決的存在主義問題。完全由AI 生成的作品,會先贏得那個主流獎?屆時我們能分辨出它是AI 嗎?世界模型的第一個科學發現會是什麼領域?有那些是Sora(或世界模型)最後才能準確模擬的?Rohan Sahai:我認為合乎邏輯的答案是:一部AI 短片贏得奧斯卡。Bill Peebles:我想這很可能是對的。Thomas Dimson:我覺得,如果人們能用有趣的方式把各種素材拼接起來,你真的可以藉此創作出非常引人入勝的敘事。而且我感覺,我現在看到的那些內容,已經不那麼像AI 生成的了。這也是我注意到Sora 的一點,我甚至都沒意識到那是AI。它們本身就是有趣的內容。Thomas Dimson:能否分辨出來,會的。Rohan Sahai:也許得獎的事已經發生了。(關於第一個科學發現)Bill Peebles:我猜會是跟經典物理相關的,像是更好的湍流理論之類的。我猜是這個。Thomas Dimson:我也猜是類似的東西。例如納維-斯托克斯方程,我不知道,某個流體力學的問題,也許現在還很難理解。那個領域有很多未解難題。或者是像連續介質力學這樣的東西,它的狀態介於兩者之間,我們目前還沒有很好的模型來描述它們。(關於最後才能模擬的東西)Bill Peebles:我確實認為,對於某類物理現象而言,視訊資料是一種很差的表徵方式。舉個例子,透過影片片段來學習高速粒子碰撞,這種方式真的有效率嗎?也許吧。我真的認為,只有當你試圖瞭解的現象本身就是以物理世界的形態自然呈現時,影片才是最好的媒介。因此,當你需要研究量子力學或其他更理論化的學科時,我們並沒有相關的影片片段...Bill Peebles:是的,我們沒辦法用肉眼看見它。我們有的只是那些為了教育目的而手動渲染出來的演示。影片在理解那些事物方面,似乎是一種比較弱的媒介。所以我猜那些東西會是最後才能被模擬的。也許思考這個答案的另一種方式是:什麼是我們最後才關心去模擬的東西。我不知道。例如現在就沒什麼人在研究氣味。那還是個空白領域。Thomas Dimson:之前有一輪測試人們產生禿頭形象的效果很好。我們都在玩禿頭,生成禿頭的效果很棒。這是一個非常好的用例,雖然我不常提,但它就是視覺化。當你禿頭的時候,每個人都想試試禿頭。你只是想看看自己在某個不同情境下的樣子。我認為這可能相當有力量,甚至在某些方面有治癒效果。你只是看到自己處在某個你希望或不希望自己進入的情境中,只是看著自己的樣子。Rohan Sahai:這是個真實存在的用例。 (數位開物)