#世界模擬器
Sora 2團隊萬字實錄揭秘「世界模擬器」的終極野心
近日,OpenAI Sora 團隊負責人Bill Peebles、工程主管Thomas Dimson 和產品負責人Rohan Sahai 接受海外播客Trending Data的訪談。對話圍繞著 Sora 2展開,深入探討了其背後的核心技術,如 Diffusion Transformer (DiT) 和 "Spacetime Token" (時空Token);討論了 Sora 從 1 代到 2 代的迭代思路、 Scaling Law 如何驅動模型湧現出對物理世界的理解和AI Agent行為。此外,對「世界模擬器」概念進行詳細闡釋,也探討了視訊資料作為訓練資源的未來潛力,以及 Sora 作為社交產品的獨特設計哲學。嘉賓們一致認為,視訊生成技術正處於 "GPT-3.5 時刻",Scaling Law 是驅動模型能力實現階躍式提升的核心因素。Sora 2 的核心進步不僅是 Scaling Law 的結果,更體現在其獨特的「語意失敗」模式上——模型會選擇遵從物理規律,而非盲目迎合提示,這標誌著「AI Agent」行為的湧現。動漫等非現實數據也許有助於模型更有效率地領悟現實世界的概念。團隊也透露,正積極與 IP 持有者合作,探索讓用戶使用喜愛的 IP 創作並使權利人獲益的「新創作者經濟」模式。並預測,Sora 催生的不會是今天的長篇電影,而是一種全新的媒介。Sora 不僅是娛樂工具,更是一個平台,未來將承載用戶的「數位副本」在虛擬空間中執行任務。01. Sora 核心技術:Diffusion Transformer與Spacetime Token請你們先簡單介紹一下自己的職務Bill Peebles:我是Bill。我是OpenAI Sora 團隊的負責人。Thomas Dimson:我是Thomas。我是Sora 團隊的工程主管。Rohan Sahai:太好了。我是Rohan。目前我負責Sora 的產品團隊。Bill,身為Diffusion Transformer (DiT) 的發明者,能否介紹一下它是什麼?我們該如何理解DiT 的工作機制,例如它如何處理視訊幀?這是否等同於注意力機制,即物體在影片中的連貫運動是注意力機制的體現?Bill Peebles:大多數人應該都非常熟悉自回歸Transformer,這是目前市面上許多大語言模型的核心技術。在自迴歸模型中,你是逐一產生Token,並且需要根據所有已產生的Token 來預測下一個Token。而Diffusion Transformer 有點不同。它不使用自回歸建模作為核心目標,而是採用一種稱為擴散的技術。簡單來說,這項技術基本上就是獲取一個訊號,例如視頻,向其加入大量噪聲,然後訓練一個神經網路來預測你所加入的噪聲。這是一種不同類型的迭代生成建模。自回歸模型是逐一 Token 生成,而擴散模型則是透過逐步去除雜訊來生成內容。在 Sora 1 中,我們大力推廣了這項技術在影片生成模型中的應用。所以,如果你去看市面上所有其他的競爭對手模型,像是在美國的,絕大多數都是基於 DiTs,也就是 Diffusion Transformer。這很大程度上是因為 DiT 對影片而言是一種非常強大的歸納偏置。由於 DiT 是同時生成整個視頻的,它從根本上解決了視頻質量隨時間推移而下降或變化的問題,這是此前視頻生成系統的一大難題,而 DiT 恰好修復了它。這就是為什麼你看到 DiT 在視訊生成技術堆疊中迅速普及的原因。(關於 DiT 的工作機制)Bill Peebles:我們實際上是在「spacetime Token」的粒度上來考慮問題的,這個詞組聽起來確實有點瘋狂。但是,正如“字元”是語言的基本構建塊一樣,對於視覺而言,其基本構建塊就是這個“spacetime patch” 或叫時空補丁的概念。你可以把它想像成一個微小的長方體,它同時包含了X 和Y 軸的空間維度,以及一個時間維度。這才是建構視覺生成模型的最小單元。所以 Diffusion Transformer 考慮的是這些單元,你幾乎可以將其想像為逐個體素地處理。在這些 Diffusion Transformer 模型的傳統版本中,所有這些微小的「spacemetime patch」 都在與所有其他補丁進行「對話」。這正是你能夠讓諸如物體恆存性這樣的特性得以湧現的原因,因為模型在時空的每一個位置,都對視頻中發生的一切擁有完全的全域上下文,這對於神經網路來說是一項非常強大的能力。(關於注意力機制)Bill Peebles:是的,沒錯。在我們那篇關於「將影片生成模型視為世界模擬器」的Sora 1 部落格文章中,我們就展示了一些視覺材料,恰好解釋了你的觀點。注意力確實是一種跨越時空共享資訊的非常強大的機制。如果你將資料以「補丁化」的方式,也就是分解為一系列spacetime Token 來表示,只要正確地使用注意力機制,就能讓訊息在整個影片的所有部分一次性傳遞。02. Sora 2 的核心進步Sora 1 和 Sora 2 之間最大的差別是什麼?Sora 1 已經觀察到了湧現屬性,那麼 Sora 2 的提升純粹是 Scaling Law的結果,還是有其他重大差異?Bill Peebles:自Sora 1 發布以來,我們花了很長時間專注於核心的生成建模研究,以尋求視頻生成能力的下一個階躍函數般的提升。我們完全從第一原理出發。我們希望這些模型能極為擅長模擬物理。我們希望它們能給人一種“智能感”,而我認為此前大多數視頻生成模型都不具備這種感覺。我的意思是,如果你去看以前的任何模型,當它們試圖處理任何複雜的物理互動序列時,你會注意到很多混亂、不真實的效果,都是經典的失敗案例。上一代模型存在著非常明顯的問題,而 Sora 2 正是為瞭解決這些問題而設計的。我認為這個模型與以往模型相比,一個非常酷的點在於,當它「犯錯」時,它的失敗方式是我們前所未見的,非常獨特。舉個具體的例子:假設給 Sora 的文字提示是“一位籃球明星想要投籃”,例如投出罰球。如果在模型模擬中他投丟了,Sora 不會為了「過度樂觀」地迎合用戶要求,而神奇地讓籃球自動飛入籃框。相反,它在大多數情況下會選擇遵從物理定律,籃球會實實在地從籃板上彈開。所以,這是「模型失敗」和「AI Agent 失敗」之間一個非常有趣的差異。AI Agent 是指 Sora 在生成影片時隱式模擬的那個個體。我們在以前的視訊模型中從未見過這種獨特的「語義失敗案例」。這在 Sora 2 上是全新的,也是我們致力於投入核心生成建模研究,從而帶來能力巨大提升的成果。所以這並不純粹是 Scaling Law 的產物。你們實際上在模型中隱含了某種 AI Agent 的概念,並且在 Scaling Law 之外做了很多其他工作?Bill Peebles:我想說,AI Agent 的概念,實際上主要還是由Scaling Law 隱式帶來的。這就像我們在Sora 1 中展示的那樣:當預訓練投入的算力達到某個關鍵的flops 閾值時,「物體恆存性」就開始湧現了。當我們邁向下一個前沿時,我們看到了類似的情況發生:你開始看到這些模擬的AI Agent 表現得更聰明;你開始看到物理定律以一種在較低計算規模下所不具備的方式被尊重。03. 世界模擬器的數據與極限「時空潛在補丁」 (spacetime latent patches) 與「spacetime Token」 是什麼關係,它們如何關聯到物體恆存性及物理運動?你們如何篩選訓練資料以準確反映物理世界?例如,模型如何處理像動漫這樣不總是遵守物理定律的數據?我們是否面臨視訊預訓練Token 耗盡的風險?或者視訊數據本身就是一個尚未被充分開發的「數據金礦」?Bill Peebles:首先,我會說「spacetime patch」 和「spacetime Token」 或多或少是同義詞,我會互換使用它們。真正奇妙的地方在於:當人們開始將大語言模型從 GPT-1 擴展到 GPT-2 再到 GPT-3 時,我們開始真切地在這些系統內部看到了「世界模型」的湧現。儘管用於創建訓練資料的分詞器極其簡單,例如 BPE 或只是字元。但儘管表示方式如此簡單,當你向這些系統投入足夠的計算和數據時,為了真正解決「預測下一個 Token」這個任務,模型必鬚發展出一種關於世界如何運作的內部表示。它需要去模擬事物。在較低的計算規模下,模型會犯很多錯誤,但當你繼續從 3 推向 4 再到 5,你會發現這些內部世界模型變得越來越穩健。這與視訊領域的情況非常相似,甚至在許多方面更為明確。我認為用視訊資料更容易想像「世界模型」或「世界模擬器」是什麼樣子,因為它本身就是在表示現實世界所有原始的觀測資料。但真正卓越的是,這些「spacetime patch」 是一種非常簡單且高度可重用的表示方式,它能適用於任何類型的數據,無論是像我們錄製現場這樣的真實影片片段,還是動漫、卡通等等。你只需要建立一個神經網絡,它就能夠處理這種極其龐大且多樣化的資料集,並從中建構出模擬世界「可泛化屬性」的、極其強大的表示。你需要一個世界模擬器來預測卡通情節將如何展開,同樣,你也需要它來預測我們這場對話可能會如何發展。因此,這就給 Sora 施加了巨大的最佳化壓力,迫使它必須以一種非常數據高效的方式去「領悟」這些核心的基本概念。(關於資料篩選)Bill Peebles:我們確實花了大量時間來思考一個「世界模擬器」的最佳數據組合究竟是怎樣的。針對你的觀點,我認為在某些情況下,我們會做一些決定,也許只是為了讓模型變得非常有趣,例如,人們非常喜歡生成動漫。但這動漫數據並不一定能完美地代表那些對現實世界應用有直接幫助的物理定律。換句話說,我認為動漫中包含一些被簡化的圖元(simplified primitives),這些簡化的圖元實際上可能有助於模型理解真實世界。例如,角色同樣會在場景中移動。但是,如果裡面有條瘋狂的龍在到處亂飛,那對於領悟空氣動力學之類的知識,可能就沒什麼幫助了。我認為這確實是一個有趣的問題,但我目前還不知道答案:即,在簡化的視覺世界表示,無論是草圖還是其他某種模態上進行預訓練,是否真的能讓你更有效率地「領悟」這些概念。我認為這其實是一個非常有趣的科學問題,值得我們去深入理解。(關於影片Token耗盡問題)Bill Peebles:我是這麼看這個問題的:影片資料「每位元所蘊含的智慧」要遠低於文字資料。但是,如果你對世界上實際存在的所有數據進行“積分”,那麼總的智能量將是高得多的。所以,直接回答你的問題:我認為很難想像視訊資料有一天會完全用完。它在世界上的存在形式實在太過分了。我懷疑,在未來很長一段時間內,你都將處於這樣一種狀態:你可以持續不斷地向預訓練中加入越來越多的數據,並持續看到模型性能的提升。未來Sora這樣的模擬器是否有可能幫助我們發現新的物理學?要達到可以進行科學發現的水平,模型是否必須在物理世界中擁有「具身性」 ?建構「通用世界模擬器」的最佳數據組合是什麼?是僅靠視頻,還是需要視頻、文字以及結構化物理定律的結合?(關於發現新物理學)Bill Peebles:我完全相信這總有一天會發生。但我認為,我們可能還需要模型質量再經歷一次「階躍函數」般的變化,才能真正達到可以進行科學實驗的程度。但是你可以想像,總有一天,你會擁有一個對物理定律泛化得極好的世界模擬器,好到你甚至不再需要現實世界中的「濕實驗室」。你可以直接在Sora 內部運行生物實驗。再說一次,這需要大量的工作才能真正實現,你需要一個足夠穩健的系統來可靠地完成這些任務。但在內部,我們將 Sora 1 視為視訊領域的“GPT-1 時刻”,這是該技術首次在該模態上開始起作用。而 Sora 2,我們將其真正視為「GPT-3.5」 時刻。因為它確實能夠激發全世界的創造力,並一舉突破了“可用性障礙”,我們正看到這些模型開始被大規模採用。我們將需要一次「GPT-4 等級」 的突破,才能真正讓它在科學領域發揮作用。就像我們現在所看到的 GPT-5 一樣,我感覺現在每天都能在 Twitter 上看到 GPT-5 Pro 又改進了某個凸優化問題的下界。我認為,最終 Sora 也會在科學領域實現同樣的目標。(關於是否必須擁有具身性)Bill Peebles:每當我們向這些模型中再投入10 倍的算力時,在訓練內容和基礎方法幾乎沒有大改的情況下,總有一些新能力“神奇地湧現”,我總是對此驚嘆不已。我猜測,一定程度的「物理能動性」肯定會有所幫助,我很難相信加入具身性會讓你在模擬碰撞或其他事情上做得更差。不過,「僅靠影片」這條路徑已經相當了不起了。如果事實證明這條路徑對於建立一個通用世界模擬器而言是「AGI 完備」的,我並不會感到驚訝。(關於最佳資料組合)Bill Peebles:我認為這在很大程度上取決於你為這個世界模擬器設想的具體用例。例如,如果你真的只想建立一個精確模擬籃球比賽的模型,我其實認為僅靠視頻數據,也許再加上音頻,就足以構建這個系統。這個通用的模擬系統中到底應該包含那些“模態”,這是個很有趣的問題。當然,如果你增加更多的模態,我很難相信智慧等級會因此下降。但我也認為,有種觀點是,相較於完全掌握視訊和音頻,一味地增加更多模態並不能帶來顯著的「邊際價值」。我認為這是一個很有趣的、懸而未決的問題。我現在也說不準,這是我們需要進一步去瞭解的。04. 人情味是AI社交的產品市場契合點圍繞著Sora,你們是如何組建產品團隊的? Sora應用程式的開發是如何啟動的?Thomas Dimson:故事的發展總是不像你想像的那麼一帆風順。 Sora 從專案啟動之初就有一個產品團隊。在Sora 1 時代,Rohan 是這份工作的負責人。但我同意Bill 的說法,那真的更像是一個「GPT-1 時刻」。我們看到了一些零星的、非常有趣的亮點。但是那些模型,沒有聲音的模型,沒有聲音的視頻,那是一個完全不同的環境。所以,我們當時在那個層面上努力,主要瞄準的是「產消者」族群。另外,Rohan 或許可以深入談談所有細節。我們當時也在 OpenAI 內部探索 AI 在社交應用上的不同可能性。我們做了很多原型,但大部分都相當糟糕。而我們開始看到一些魔力,實際上是在「圖像生成」功能發布之前。我們在內部的社交環境中試玩它。那個社交情境真的很有趣,你會看到人們在做什麼,你會拿一張圖,然後出現一系列對這張圖的「二次創作」。我們看到這些,就覺得,“哇,這太有意思了,但在社交媒體上沒人能真正做到這一點,因為從頭創作或去'演繹'別人的東西太難了。這個行為的門檻非常高。你可能得架好相機,而且不僅僅是想個點子那麼簡單。這背後涉及很多工作。”所以我們當時想 , “Sora 的一些研究還在進行中,也看到了一些希望的跡象,但還遠遠沒到可以產品化的形態。Bill 可能在他腦中已經構想好了,他總是能預見未來,但沒關係。我這人比較...我還沒辦法預見未來。所以,我們當時就在探索。我們嘗試了一些東西,然後在某個時刻,研究成果真的展現出了非常清晰的價值,甚至是一種「迭代部署」風格的價值,表明「哦,這會是人們真正想要的東西。」於是我們在兩三個月前投身到了這個項目。時間不長。就是 7 月 4 日那周。我們當時就「鎖定」了狀態,心想,「好吧,我們終於要乾了。」那總是一個標誌性的時刻。我們剛開始時沒有任何神奇的功能,只是想,「好吧,我們先試著搭建一個原生的視頻環境,讓你可以全螢幕播放,能聽到音頻。」我們快速生成了一些內容。結果非常酷,非常有趣。而且因為有了圖像生成的經驗,我們就在想,“好吧,這裡的魔力在於創作的門檻被降得非常非常低。”我從 Instagram 過來,深知讓人們在 Instagram 上創作有多難,但那偏偏是用戶最有價值的行為。那麼這能釋放什麼呢?結論是,「好吧,圖像生成中的那種『二次創作』玩法,在這裡依然適用。」於是我們集思廣益,討論各種二次創作的實現方式,以及它在這裡到底意味著什麼。其中一個點子就是「客串」功能,我想 Bill 腦子裡也有這個想法,但這個想法當時大家差不多都有了。反正是大家都有的感覺。但我們產品團隊就是把各種東西「快速搭建」起來。 「哦,試試這個行不行。」我當時根本不覺得這能成。但它在我們的功能清單上。列表上還有其他一些東西。有些點子相當瘋狂。為什麼覺得它成不了?Thomas Dimson:我不擅長預測技術。我當時並不清楚,你是否能提取一個人的“肖像”,並把它融入到想像生成的視頻中,以及這是否能行得通。所以我們有過各種早期原型,像是讓人們在影片角落做反應之類的。但當我們看到客串功能開始起作用時,甚至只是在內部試玩,Rohan,你還記得那天嗎?Rohan Sahai:記得,整個「資訊流」全是客串。變化就是這麼快,從我們沒有這個功能,到一旦有了這個功能,團隊內部立刻就實現了「產品市場契合」。我們產生的所有內容都是關於彼此的內部梗。我想一開始,我們只是覺得,「這太搞笑了,太神奇了。」一周後,我們發現,「我們居然還在玩這個。」這表示這裡面肯定有東西。Thomas Dimson:沒錯。我的意思是,一開始我們其實有點,「這真的好嗎?」「嘿,現在全是客串了。還有人關心別的嗎?大家關心別人在做什麼嗎?」但我們很快就意識到,「不,不,這其實是好事。這真的讓我有動力回來看。」它極大地增加了內容的人性化色彩。因為很多AI 影片只是靜態場景,雖然很美、很有趣,可能裡面在發生極其複雜的事情,但它們缺乏人情味。而客串功能讓人情味又回來了。Rohan Sahai:這也是從圖像生成中學到的另一點。影像生成之所以能火爆並產生病毒式傳播,就是因為你可以用一種前所未有的、低門檻的方式,把自己P到各種場景中。最明顯的例子就是那個「把我放進吉卜力場景」的潮流。還有人們和自己的偶像P合照等等。所以,你仔細一想就會發現,「是的,客串功能太合理了。」你把自己放進所有這些場景。這可太令人興奮了,你,還有你的朋友。這很新奇。這是你以前做不到的。Thomas Dimson:然後再結合二次創作。客串本身就是一種二次創作,但接著你就會開始想,「好吧,那我現在可以在Rohan 做的某件事上進行演繹,」或者別的什麼。我把Bill...我把你P進了一個「動作玩偶」的包裝盒裡。那個影片被二次創作了無數次。各種非常、非常瘋狂的事情就這麼發生了,而且是「湧現」出來的。很多東西是我自己永遠想不到的。05. Sora的演算法旨在激勵創作,而非最大化“盲目消費”Sora 吸引了那些用戶?關於早期採用者,有那些特質讓你們感到驚訝?Thomas,鑑於你在Instagram 負責排名演算法的經驗,Sora 在演算法和排名設計上吸取了那些教訓?你們如何透過產品設計,有意地防止應用淪為「無腦刷」的工具,並強化其「人」與「社交」的元素?Rohan Sahai:你只要去看看「最新」資訊流,那裡簡直是包羅萬象的「資訊洪流」。全是太空人模式,全是spacetime Thomas 模式。那個世界太瘋狂了。但它能讓你好好一窺正在發生的一切。我的意思是,我們現在每天大概有近700 萬次生成,你可以想像那裡承載了多大的資訊量。這是我最喜歡的產品回饋管道之一。人們做的事情類型、使用者的類型,都極為多元。你會看到各種年齡層的人。有些人在想像自己置身於某種激勵人心的場景中;有些人在和朋友們「玩梗」;還有些人在客串平台上已經開放客串功能的公眾人物。所以,這種多樣性讓我感到驚訝。我本來以為,Twitter 上的那群 AI 愛好者會佔領整個資訊流。他們確實主導了媒體的報導,至少是我們接觸最多的部分。但就實際使用Sora的使用者而言,群體的覆蓋範圍非常廣。最後一點是,Sora 的用戶群和之前存在的那個「小眾」 AI 電影圈有了很大的差別。那些人是很好的早期採用者,但現在,我以為我會從那個圈子開始,但感覺Sora一上來就覆蓋了更廣泛的人群。我想,登上 App Store 榜首對此功不可沒。你總是能吸引到那些隨便逛逛、然後發現了這個應用程式的人。(關於排名演算法的教訓)Thomas Dimson:這裡面有很多東西可以談。我認為,當我們思考這些平台,或具體到Sora 時,首先要考慮的就是我之前提到的關於創作的問題。 Sora 基本上讓平台上的每個人都成為了創作者。這與Instagram 之類的環境截然不同,在Instagram 上,創作者的分佈呈現出極端的「冪律」特徵。而這種冪律分佈只會自然變得越來越「頭部集中」。所以,有時候我覺得我必須為 Instagram 的演算法辯護。我們當初那麼做是有原因的,是為瞭解決一個實實在在的問題。它不是一個為了優化廣告之類的隨意決定。我們之所以那麼做,是因為我們注意到 Instagram 隨著時間的推移,由於內容是按「時間順序」排列的,每個發文的人都能保證佔據他所有粉絲資訊流的頂部位置。你只要想一想,在這種環境下,人們的動機自然是不斷地創作,因為他們一創作就能保證獲得分發。久而久之,隨著冪律分佈的頭部越來越重,那些類型的人,他們很棒,為生態系統提供了很多價值,但他們開始擠佔掉你真正關心的人的(資訊流)空間。例如,你可能關注了《國家地理》,我不是要Dunk他們,我很喜歡他們,但如果他們一天發 20 篇帖子,你的朋友可不會。你朋友沒有那樣的最佳化目標,他們可能只是寄一張咖啡的照片。結果就是,你在刷到你朋友的咖啡之前得先看 20 篇《國家地理》的帖子,而那張你真正關心的照片,你可能永遠也刷不到。如果你堅持使用固定的排序,這個問題沒太多解法。要麼,你必須取消關注所有這些你可能關心、但不如那個一天只發一條動態的人重要的帳戶;要麼,你就必須對訊息流進行「重排」。我們選擇了後一條路。我們嘗試了,在內部進行了測試。這個決定在當時爭議巨大。但我認為你完全可以從數學上推導出這一點。這就像一個證明:基本上,隨著時間的推移,你將不得不控制平台的分發權,才能防止這類問題的發生,從而向用戶展示他們真正關心的內容。這就是我們當時做這件事的原因。它也確實展現了巨大的價值。我記得早期的測試,具體數字我不多說了,但結果是毫不含糊的:它確實讓你看到了更多你關心的人,改善了你的平台體驗。它甚至還促進了創作,這很不尋常。它讓人們創作得更多了,因為他們看到了更多自己能接觸到的內容。但我也認為,這些東西隨著時間的推移可能會「偏離」。我不會說 Instagram 演算法是絕對的好或絕對的壞,但是當平台開始引入更多非關聯內容,且廣告壓力變得非常大時,公司也有一種天生的動機去優化“盲目消費”,因為那是你賺錢的方式。所以,也許平台會推送更便宜的內容,或者只是想辦法讓人們刷得更久。而這又會抑制人們的創作慾望,因為它變成了更無意識的刷屏模式。你們已承諾會防止Sora 出現這種情況?Thomas Dimson:我們做出了承諾。我們已經設定了很多“緩解措施”。但我認為對我來說,核心問題在於:我們作為一個平台,到底想做什麼?我認為這項技術的魔力在於,每個人都可以是創作者。所以我們希望這個資訊流是為了激勵你創作而被優化的。這種激勵,有時你想到“靈感”,你會想到,“哦,那是一個多麼美、多麼瘋狂、多麼優雅的場景。”但當我想起激勵時,我想到的是“梗文化”,或者一些特別好玩的東西,比如“哦,這個太酷了,我得'演繹'一下。”我認為當你在瀏覽資訊流時,這是一種完全不同的大腦模式。當然,我們還有很多其他的措施。所以,我認為這一切始於我們的激勵機制。我們當下的激勵機制,就是鼓勵生態系湧現更多的創作。但我們肯定也想阻止某些用例。我們無法保證每次都做對。這非常具有挑戰性。這是一個動態演變的系統。當你在沒有任何數據、不知道該推薦什麼、也不知道平台未來會如何演變的情況下,去編寫一個「推薦系統」是極其困難的。但這基本上就是我對資訊流激勵機制的看法。然後,Rohan,我們設定了很多緩解措施,我想你一直在思考這些,甚至可能比我更深入,用來防止那些極端情況的發生。(關於防止「無腦刷」的設計)Rohan Sahai:首先要補充一點,我們「優化創作體驗」的既定目標非常奏效。幾乎所有透過邀請碼進入應用程式的用戶,都在第一天就進行了內容創作。在他們後續的訪問中,有70% 的時間是在進行創作。甚至有30% 的用戶會將內容發佈到公共的資訊流。這意味著他們不只是為自己產生內容,而是在為整個生態系統做出貢獻。這強而有力地證明了我們模型的出色、趣味性,以及我們目前的優化策略是切實有效的。除此之外,我們優先考慮的事情之一是,我們不希望這個產品淪為一個讓人「無腦刷」的應用。因此,除了在排名演算法中優化創作權重,我們還可以做更多事情。例如,試著將使用者從純粹消費的「心流」狀態中拉出來,引導他們進入創作模式。我記得有一篇很棒的文章叫《賭場的曲線本質》,講他們如何設計賭場讓你無需做出任何決定,你只是在原地打轉,那裡沒有窗戶等等。我們可以刻意地反其道而行。例如,在資訊流中插入一個單元,提示'嘿,你剛看了幾個這個領域的視頻,要不要自己也創作一個? '或用其他方式來打斷你的消費狀態。實際上,我們的產品中已經有了類似的設計。Rohan Sahai:我想我們不會推出一個缺乏人文溫度、純粹由AI 內容構成的資訊流。那樣的產品引不起我們的興趣。當我們真正做出這款產品,有了Cameo 功能,並且團隊內部有了那種社交的感覺時,我們就意識到:『這確實有點不一樣。 'Thomas Dimson:這在當時並非顯而易見。我們是經歷了一場極其瘋狂的衝刺才走到這一步的。最初,我們完全不清楚最終會做出什麼。但現在回想起來,這個關於Cameo 的想法是合理的。可「Cameo 會成為核心功能」在當時是一個完全不符合直覺的產品決策。例如,'你當然只是想看朋友們做酷炫的事情。 '這聽起來順理-成章。但在那個瘋狂的產品研發階段,我從未真正擔心過競爭壓力,因為我們做出了一系列在當時看來「非凡」的決策,這些決策現在回想起來順理成章,但在當時卻毫不起眼,而我們正是在這些決策的基礎上層層構建起來的。例如,'好,就做 Cameos。 '但 Cameo 也可以有另一種形態,例如一個完全為你個人定製的、體驗極佳的單人模式流程,你走完一套引導流程,然後創作自己的東西。但我們當時已經觀察到了一些有趣的動態,例如:『我可以把 Rohan 拉進我的影片裡,這太酷了。 '然後我們可以來一場辯論,或者打一場動漫式的格鬥,內容不限。我當時就覺得:『這才是「人」的元素。這才是這個產品的魔力所在。 '奇怪的是,儘管所有內容都是 AI 生成的,但它比許多現有的社交網路更具社交性。這一點非常反直覺。06. API旨在服務長尾小眾需求,而Sora的探索性則使其具備遊戲DNA應用程式中的模型和API 上的模型是同一個嗎?你們觀察到API 端的主要用例是什麼?這與消費者應用程式上的使用者行為有何不同?你們認為現在的視訊模型是否已經夠好,足以讓開發者在API 之上建立視訊遊戲?還是說仍需等待模型迭代?Bill Peebles:你是說應用和API 產品之間的模型嗎?我們目前在API 和應用程式中的模型是相同狀態的。我們推出 API 的主要動機就是為了支援那些長尾的使用情境。我們的願景是利用這項技術,觸達像 ChatGPT 那樣規模的消費者受眾。但除此之外,還有大量非常小眾的需求。可以想像,在 Sora 1 階段,我們拜訪了很多工作室。他們回饋說,希望以某種特定的方式,將這個模型整合到他們技術堆疊中的某個特定環節。我們很樂意支援所有這些長尾用例,但我們不想為此開發一千個不同的介面。所以,API 承載了我們這方面的期待。到目前為止,我們看到的多是那些相對較小眾的公司。他們不是想建立一個第一方的社交應用,而是可能擁有一些電影製作領域的受眾或他們需要支援的客戶,甚至我們看到有人在嘗試,我記得有家公司在將 Sora 用於 CAD 相關的項目。所以,確實存在一些很酷的用例。我想我們仍在探索它們的全貌。Thomas Dimson:我認為這些模型大有可為。基於我的背景,我總是在思考遊戲領域。 AI 和遊戲一直是個備受爭議的話題,但很明顯,AI 在其中有它的一席之地和特定角色。也許它不必打斷創作過程,而是可以增強這個過程。我非常期待看到這類用例的出現。(關於建構電玩遊戲)Rohan Sahai:我想說,永遠不要低估人們利用科技進行創造的方式。總是會有人能建構出一款遊戲,也許現在已經有人做出來了。至於它的觀感和體驗,很明顯這個模型有延遲,所以你必須採取各種非常規的手段來規避這個問題。Thomas Dimson:我覺得人們會立刻想到那些在遊戲中顯而易見的AI 應用,我們確實也在一些研究部落格中看到過類似的東西。但我的思路經常轉向:'好吧,這是一個有點不一樣的創意工具。 '在這個方向上,真正讓我興奮的遊戲類型,我來詳細說一個,有一款叫《Infinite Craft》或叫“無限合成”的遊戲,堪稱世界上最semplice 的遊戲。它是個網頁遊戲,你只需要取得一些基本元素,像是火、水、土。開局你有四種元素。你只需拖曳它們,它們就會組合成新東西。而組合的結果是基於大語言模型的。例如,火和土可能會合成火山。然後火山加水,可能會變成海底火山,或是哥吉拉之類的。不知為何,最後總能合出哥吉拉。這就是一個很合理的例子。你會覺得:『你根本不​​需要一個固定的遊戲合成樹。LLM 可以自行衍生出這套合成樹,而遊戲過程就成了一個探索發現的過程。 '所以我認為,在那個領域還有很多未被挖掘的潛力。我再次強調,我喜歡「探索發現的過程」這個概念。事實上,我對 LLM 乃至某種程度上的視訊模型的哲學觀點是:它就是一個發現的過程。所有的可能性都已蘊含在模型的權重中。你只是在用你的提示詞這串「秘密代碼」來解鎖它們。我太愛這種感覺了。這非常奇妙。在遊戲領域,這始終是最讓我興奮的部分:發現新事物,尤其是當它是一個「真正」的發現,而不是別人預先放置在那裡的。也許開發者只是設定了它周圍的機制。所以,我認為遊戲領域蘊藏著巨大的機會,前提是你能以一種全新的方式去思考遊戲,並以一種截然不同的方式去擁抱這項技術。Thomas Dimson:我認為限制依然存在,而解決限制將是機制設計需要做的。這仍然非常依賴人類的智慧。就像很多早期基於GPT-3 的遊戲,它們可能剛開始玩一分鐘還挺有趣,但很快就偏離了軌道。你會覺得:『我完全不知道我接下來在幹嘛了。 '但是,Sora 給人一種類似的感覺,它的內核裡帶有一點點遊戲的DNA,讓人覺得非常有趣、與眾不同,且富有探索性。所以我喜歡這樣的東西,而且我認為未來會出現更多我們現在甚至無法想像的用例。07. Sora賦能個體創作,但運算成本是普及關鍵你們在創意電影製作方面觀察到了什麼? Sora 是想賦能市場的長尾用戶,還是想賦能創意市場的「頭部」專業人士?關於「長篇電影內容」的願景,我們何時能實現個人創作者製作長篇電影?未來會不會出現完全在Sora 2 上創作的長篇電影?Bill Peebles:這是個非常好的問題。我們從那些創意人士身上受益良多,他們非常願意全情擁抱早期的技術,例如DALL-E 1 和DALL-E 2,並真正幫助我們指引了前進的道路。我認為,我們必須繼續為這些人建立工具。並且,我們正在長期推進一些更針對創意領域高級用戶的專案。同時,我堅信 AI 在其最佳狀態下是一種極具民主化特徵的工具。因此,Sora 平台的魅力在於,無論何時有人創作出了爆款,例如你看到了那些衝上所有人資訊流頂部的精美動漫提示詞,任何人都可以去“混剪”它。每個人都有能力在它的基礎上進行再創作,並且可以向​​那些深諳如何最大化利用這些工具的人學習。因此,我真的很高興看到全人類的整體創造力水平因此得到提升。但我認為,實現這一點的關鍵在於繼續賦能那些總是走在最前面的人,也就是那些更偏向專業的創意人士。所以,我們也希望繼續在他們身上投資。(關於長篇電影)Bill Peebles:我認為這在某種程度上會分階段實現。如果你看了我們的發布視頻,那是Sora 團隊的Daniel Freiden 製作的。利用現有的工具,他已經能夠在最多幾天之內,高效產出那些極具吸引力的短篇故事。那幾乎是他一個人在極短的時間內獨立完成的。從那以後,他也在OpenAI 的Twitter 帳號上持續發布新的作品。所以,很明顯,這項技術正在大幅縮短電影製作的周期。但我認為,要達到讓任何人,例如任何一個孩子在家裡就能啟動應用或登入 sora.com 之類的網站去創作的程度,這本質上是一個視訊模型的經濟學問題。影片是所有模態中計算密集度最高的。它極其昂貴。我們的研究團隊正在取得良好進展,持續探索如何讓這項技術在未來能被每個人負擔得起。舉個例子,Sora 應用程式目前是完全免費的。未來,很可能會推出付費方案,人們可以透過付費來獲取更多的模型存取權限,這只是因為這是我們能進一步擴大服務規模的唯一途徑。但是,我認為我們離那個「任何人都能擁有創作絕佳內容工具」的世界已經不遠了。我猜想,這個過程中會產生大量的爛片。但同樣地,下一位偉大的電影導演,可能現在坐在他父母的房子裡,或許還在上高中,他只是缺少投資或工具來讓自己的願景成為現實。當我們把這項技術交給全世界時,我們將會發現一些絕對了不起的創作。Thomas Dimson:我想就這點再補充一句。我從推薦系統中反覆學到的經驗是:工具能激發人們更多的創造力,這將是一個巨大的釋放,因為它能讓更多普通人變得富有創造力,你不再需要那些昂貴的電影製作設備。但我們也始終觀察到,內容在某種程度上也是一種社會現象。你所看到的電影和所有其他內容,除了內容本身,還帶有一點社會屬性。因此,我認為我們將進入一個非常有趣的時代:創作者如此之多,內容如此氾濫,以至於「是否有人在關注和觀看」這件事本身將變得越來越重要。我猜這反而會促使內容的整體品質提升,因為當任何人都可以創作時,真正稀缺的將是消費者的注意力。這與我們今天所處的世界截然不同。08. Sora正與IP持有者合作,探索共贏的商業模式你們在處理IP持有者關係時顯得非常深思熟慮。能談談這方面的策略與進展嗎?Bill Peebles:我們一直與業內許多夥伴保持著密切合作,一方面是向他們展示這項新技術,另一方面,這項技術對所有權利持有者而言都具有巨大的價值主張。我們從交流中聽到了他們極大的熱情。他們真的認為這是一個新前沿,讓全世界的每個孩子都有機會使用那些備受喜愛的IP,並將其帶入自己的生活,這種體驗比以往任何時候都更加個性化和定製化。同時,我們非常希望確保我們以正確的方式推進這件事。因此,我們一直在努力收集回饋,並據此引導我們的路線圖,我們希望確保用戶在使用這些 IP 時能獲得絕佳體驗,同時權利持有者也能獲得合理的貨幣化收益和回報,實現真正的雙贏。目前,我們正在積極地規劃具體細節,例如,如果你想 Cameo 某部備受喜愛的電影中你最喜歡的角色,我們要如何讓你既能訪問這個 IP,同時產生的收益又能回流到權利持有者手中。這相當於,我們要為創作者們建構一個全新的經濟生態。我們現在必須從零開始創造這一切。關於如何正確地做到這一點,有許多深層的問題需要解決。就像對待這個應用程式的其他所有功能一樣,我們秉持開放的心態,傾聽回饋,然後快速迭代。我們不確定它最終會演變成什麼形態,但我們正與各方密切合作,共同尋找答案。09. 下一步計劃:即將推出“寵物Cameo”Sora 應用程式的下一步計劃是什麼?關於長篇電影的未來,你們認為它會是什麼形態?Bill Peebles:寵物。寵物Cameo。讓你的寵物也加入Cameo。Rohan Sahai:這是使用者需求量最大的功能之一。Bill Peebles:至少對我來說,是最大的需求。Rohan Sahai:這點千真萬確。我們承諾過,這個功能就快來了。我們當時測試這個功能時,還用了Bill 的狗,Rocket。能讓寵物真正成為主角,這體驗真的非常非常酷。你可以想像這未來有多大潛力。而且不一定要是寵物。它可以是任何東西,一個時鐘,或你身邊的任何物件。Thomas Dimson:我有一個時鐘。在《辛普森家庭》很早的一集裡,他們提到了一個會走路的時鐘。不知為何,這東西在過去30 年裡一直在我的腦海裡揮之不去。我想:'Rocket,會走路的時鐘。 '於是我就試了一下。我們一直在測試這個功能,就是想看看能不能實現,以及它是否有什麼特別之處。這也是在Sora 團隊工作的樂趣之一:你可以玩這項瘋狂的、不斷湧現的新技術,它也許會做出你完全意想不到的事情。所以我錄了一段我那個時鐘的兩秒鐘視頻,然後給它下了一些cameo 指令,我說:'你就是一個會走路的時鐘。你是會走路的時鐘。你會說話,你是一個角色。 '然後我生成了我的第一個視頻,效果簡直了。太瘋狂了。它就是一個會走路的時鐘。(關於長篇內容的未來形態)Rohan Sahai:關於未來,我想補充一點。關於長篇電影的問題,我一直在思考,它究竟會是什麼樣子?我先聲明一下:這裡只有Bill 擅長預測未來。但我的感覺是,隨著我們轉向更長的內容形式,我們所對應的「長篇電影」在觀感上將與今天的長篇電影截然不同。我不知道具體會是什麼樣,但在創作者和未來趨勢這個主題上,我認為會出現一種新的媒介和一類新的創作者。當然「新階級」也可以包含許多現有的創作者,並支援現有的媒介。但我認為,我們正處於我所設想的「下一個電影產業」的開端,而不是簡單地把它想成是(現在的)長篇電影。我認為會有全新的東西誕生。有個軼事,我希望這是真的,因為我老是提它。據說,當攝影機剛問世時,人們做的第一件事就是去錄製舞台劇。這大概是攝影機最無趣的用法了。就像是:'這有什麼了不起的?哦,我們不用到處巡迴演出了。我們可以把劇目錄下來然後分發。 '直到後來才有人反應過來:'等等。我們可以拍電影,我們可以在所有這些不同的地方拍攝。 '我覺得,我們現在正處於人們將用這項技術做各種事情的起步階段,尤其是當延遲、內容長度和所有這些限制都發生變化之後。10. Sora的終局是「數位副本」平台你們如何看待Sora這類新模擬格式的未來潛力?Sora 的終極願景是什麼?是在建構多元宇宙嗎?你們如何看待「模擬世界假說」?Sora 的理論極限是什麼?Bill Peebles:那將會非常瘋狂。我認為這裡有一個更宏觀的觀點:這款應用程式現在在很多方面都讓人感覺很熟悉。它的核心是一個社群媒體網路。但從根本上說,我們內部對它的定位是:透過Cameo 功能,我們引入了一種讓使用者向Sora 提供自身資訊的「資訊密度最低」的方式,關於你的外表、聲音等方面的資訊。你可以想像,隨著時間的推移,這個資訊通道的密度會大大增加。到那時,模型將深度理解你與他人的關係。它不僅瞭解你某一天的樣子,它看過你全部的成長經歷,所有關於你自己的細節。我們將真正使其幾乎能像數位克隆一樣運作。所以未來真的會有一個世界:Sora 應用程式幾乎變成了在你手機上運行的一個迷你替代現實。你擁有自己的數位版本,它們可以去和其他人的數位克隆互動。你可以讓它做知識性工作。它不僅僅是為了娛樂。它真的會更演變成一個平台,這與世界模擬能力的長期發展方向是高度一致的。我認為當這一切發生時,我們將看到的那些自發性湧現的事物將是超乎想像的。對於 OpenAI 而言,至關重要的是,我們要以一種迭代部署的方式來推廣技術,而不是在某個重大研究突破出現時,就向世界扔出一個「重磅炸彈」。我們希望社會與科技能夠協同演化。因此,我們認為現在推出這個功能非常重要,並且要以一種我們又一次達到了視訊領域的 GPT-3.5 時刻的方式來做。我們要確保世界瞭解到「現在已經能做到什麼」。同時,也要開始讓社會感到適應,並為這個更長遠的願景探索出「產業規範」。在那個願景裡,Sora 中、在網路空間中,到處都是你自己的副本在運行,執行任務,然後再向物理世界報告。因為,這才是我們長期的發展方向。(關於是否為建構多元宇宙)Bill Peebles:差不多是這樣。(關於模擬世界假說)Bill Peebles:這涉及到一些非常深刻的,非常深刻的存在主義問題。正在上升。我感覺我現在有穩穩的60%。事到如今,我們被模擬的可能性已經大於不是被模擬了。(關於Sora的理論極限)Bill Peebles:這真是個好問題。我稍微思考過。我覺得有一個問題是:你最終能在Sora 內部模擬一個GPU 叢集之類的東西嗎?我猜想,對於你在某個系統上實際投入的運算資源而言,你能在這個系統內部運作的運算量是存在一個非常明確的上限的。我還沒有足夠深入地思考過這個問題,但我認為這其中存在一些需要被解決的存在主義問題。完全由AI 生成的作品,會先贏得那個主流獎?屆時我們能分辨出它是AI 嗎?世界模型的第一個科學發現會是什麼領域?有那些是Sora(或世界模型)最後才能準確模擬的?Rohan Sahai:我認為合乎邏輯的答案是:一部AI 短片贏得奧斯卡。Bill Peebles:我想這很可能是對的。Thomas Dimson:我覺得,如果人們能用有趣的方式把各種素材拼接起來,你真的可以藉此創作出非常引人入勝的敘事。而且我感覺,我現在看到的那些內容,已經不那麼像AI 生成的了。這也是我注意到Sora 的一點,我甚至都沒意識到那是AI。它們本身就是有趣的內容。Thomas Dimson:能否分辨出來,會的。Rohan Sahai:也許得獎的事已經發生了。(關於第一個科學發現)Bill Peebles:我猜會是跟經典物理相關的,像是更好的湍流理論之類的。我猜是這個。Thomas Dimson:我也猜是類似的東西。例如納維-斯托克斯方程,我不知道,某個流體力學的問題,也許現在還很難理解。那個領域有很多未解難題。或者是像連續介質力學這樣的東西,它的狀態介於兩者之間,我們目前還沒有很好的模型來描述它們。(關於最後才能模擬的東西)Bill Peebles:我確實認為,對於某類物理現象而言,視訊資料是一種很差的表徵方式。舉個例子,透過影片片段來學習高速粒子碰撞,這種方式真的有效率嗎?也許吧。我真的認為,只有當你試圖瞭解的現象本身就是以物理世界的形態自然呈現時,影片才是最好的媒介。因此,當你需要研究量子力學或其他更理論化的學科時,我們並沒有相關的影片片段...Bill Peebles:是的,我們沒辦法用肉眼看見它。我們有的只是那些為了教育目的而手動渲染出來的演示。影片在理解那些事物方面,似乎是一種比較弱的媒介。所以我猜那些東西會是最後才能被模擬的。也許思考這個答案的另一種方式是:什麼是我們最後才關心去模擬的東西。我不知道。例如現在就沒什麼人在研究氣味。那還是個空白領域。Thomas Dimson:之前有一輪測試人們產生禿頭形象的效果很好。我們都在玩禿頭,生成禿頭的效果很棒。這是一個非常好的用例,雖然我不常提,但它就是視覺化。當你禿頭的時候,每個人都想試試禿頭。你只是想看看自己在某個不同情境下的樣子。我認為這可能相當有力量,甚至在某些方面有治癒效果。你只是看到自己處在某個你希望或不希望自己進入的情境中,只是看著自己的樣子。Rohan Sahai:這是個真實存在的用例。 (數位開物)
特斯拉“世界模擬器”來了:1天學習人類500年駕駛經驗,柯博文可共用同款“大腦”
特斯拉披露了基於神經網路的“世界模擬器”,這是為其自動駕駛(FSD)和柯博文機器人項目打造的逼真虛擬訓練場。它能生成連續、多視角的駕駛場景,實現AI在一天內學習相當於人類500年駕駛經驗,大幅降低真實路測依賴。模擬器可用於閉環評估、再現危險場景和創造極端“長尾”測試,是實現端到端通用AI的關鍵。特斯拉正在向外界展示其宏大AI敘事的最新一塊拼圖。該公司26日正式披露了一個名為“世界模擬器”的神經網路系統,旨在為其自動駕駛和機器人項目打造一個無限逼真的虛擬訓練場。根據特斯拉AI負責人Ashok Elluswamy的介紹和官方發佈的演示,該模擬器是一個完全由神經網路構成的“孿生世界”。它能夠基於真實世界的海量資料,以極高的保真度生成連續、多視角的虛擬駕駛場景。特斯拉稱,通過這種方式,其AI系統能在一天之內學習相當於人類500年駕駛時長的經驗。這一進展的直接影響是,特斯拉可以大幅降低對真實道路測試的依賴,從而在更安全、高效的環境中評估和改進其FSD(完全自動駕駛)系統。該模擬器不僅可以重現歷史上的危險場景並探索不同的應對策略,還能主動創造現實中極為罕見的“長尾場景”和對抗性測試,以挑戰AI的極限。更重要的是,這套底層AI引擎和模擬平台具備通用性。特斯拉已表示,用於訓練汽車的“世界模擬器”同樣被用於訓練其“柯博文”(Optimus)人形機器人。這印證了馬斯克的終極設想:打造一個能夠理解並與物理世界互動的通用AI,而汽車和機器人只是其不同的“身體”。模擬現實,AI的無限試煉場特斯拉的“世界模擬器”並非傳統的遊戲引擎,而是一個通過學習海量真實世界資料訓練而成的神經網路。它的核心功能不是駕駛,而是預測——根據當前的車輛狀態和駕駛指令,即時生成“下一秒世界會變成什麼樣”的完整視覺畫面。演示顯示,該系統可以一次性生成長達6分鐘、覆蓋8個攝影機的逼真駕駛視訊,其細節還原度驚人。對於自動駕駛開發而言,它的威力體現在三個方面:閉環評估:新的FSD模型可以被直接放入這個虛擬世界中進行長期駕駛,以評估其綜合表現,無需承擔真實路測的風險和成本。情景再現與修改:開發者可以擷取一段真實發生的危險場景,讓AI在模擬器中以多種不同方式重新應對,尋找最優解。對抗性場景生成:系統可以人為創造極端、罕見的危險情況,例如讓虛擬車輛做出不合常理的舉動,專門測試AI模型的穩健性和應急處理能力。這個無限的虛擬試煉場,是特斯拉尋求其FSD和柯博文項目實現跨越式發展的關鍵武器。端到端架構:特斯拉的技術路線選擇“世界模擬器”的實現,與特斯拉在自動駕駛領域選擇的“端到端”(End-to-End)技術路線密不可分。行業主流方案是“感知、預測、規劃”三件套,各模組獨立工作再拼起來,特斯拉認為斯拉認為這種方式介面複雜、難以最佳化。而“端到端”AI模型直接“看”到像素,“吐出”駕駛指令,一步到位,整個系統可以被整體最佳化。這不僅是為瞭解決駕駛問題,更是為了在AI的“苦澀教訓”面前,站在可規模化擴展的正確一側。這個網路的輸入端是攝影機捕捉的原始像素畫面及其他車輛感測器資料,輸出端則直接是控制車輛的指令,如轉動方向盤的角度和加減速的力度。特斯拉認為,該路線具備根本性優勢:消除資訊損失:在模組化方案中,資訊在不同模組間傳遞時容易失真。例如,對於“一群雞似乎要過馬路”和“一群鵝只是在路邊休息”這兩種微妙的“軟意圖”,端到端網路能直接從像素中理解並做出不同決策(減速等待或繞行),而無需經過僵化的資訊定義。學習人類價值觀:複雜的現實路況充滿了難以用程式碼規則窮舉的權衡。端到端模型可以通過學習海量人類駕駛資料,在面臨類似“是否要為避開水坑而短暫借用對向車道”這類“迷你電車難題”時,做出更接近人類價值觀的判斷。可擴展性與簡潔性:這種架構被認為能更好地處理無窮無盡的“長尾問題”,且計算架構統一,延遲更低,更符合“強大的通用方法和海量算力最終將超越複雜的人工設計”這一理念。從資料瀑布到破解“黑箱”儘管優勢明顯,但端到端方案面臨兩大核心挑戰:海量資料的處理和系統的“黑箱”特性。首先,一個安全的自動駕駛系統需要處理高維度輸入資訊,特斯拉估計其輸入token總數高達20億個,而輸出僅為2個(轉向和加減速),這使其極易學到錯誤的“相關性”而非真正的“因果性”。對此,特斯拉的解法是利用其車隊產生的“瀑布式”資料流,並建立一套複雜的“資料引擎”,自動篩選出最罕見、最有價值的訓練樣本,通過海量高品質資料強行攻克難題。其次,對於“黑箱”問題,即工程師難以理解AI決策過程的批評,特斯拉AI負責人Ashok Elluswamy回應稱,這個“黑箱”可以被打開。其神經網路在輸出最終指令的同時,也能輸出可供人類理解的“中間token”,類似於AI的“思考過程”。通過名為“生成式高斯潑濺”等技術,系統可以即時生成車輛周圍環境的3D模型,直觀展示AI“看到”和“理解”的世界。此外,系統還能用自然語言解釋其決策原因。終局超越汽車:通用AI與市場疑慮特斯拉的雄心顯然已超越汽車本身。這套為FSD打造的AI系統和“世界模擬器”被無縫遷移至柯博文機器人項目,用於訓練機器人在物理世界中的導航與互動。這表明,特斯拉正在打造的是一套解決通用物理世界互動問題的底層AI引擎,汽車只是其第一個大規模應用載體。然而,這一戰略路徑也引發了新的市場討論和投資者的疑慮。根據X上部分網友的評論,一些觀點認為,如果模擬技術發展到可以高度替代真實世界資料,理論上競爭對手無需擁有龐大的車隊,也能通過模擬足夠多的場景來追趕特斯拉。也有使用者指出,在關注宏大敘事的同時,特斯拉仍需解決當前產品中存在的“幻影剎車”等實際安全問題。對投資者而言,特斯拉的估值已深度繫結其AI前景,而“世界模擬器”的公佈,既是其技術實力的最新展示,也使其未來的競爭格局和技術壁壘變得更加複雜和值得審視。 (invest wallstreet)
特斯拉世界模擬器亮相ICCV!VP親自解密端到端自動駕駛技術路線
特斯拉世界模擬器來了!這些看似真實的駕駛場景,全都是用模擬器生成:這個模擬器在今年的電腦視覺頂會ICCV上亮相,由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。網友看了之後表示,這個模型實在是泰褲辣。同時,Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖,表示端到端才是智能駕駛的未來。世界模擬器生成自動駕駛場景除了開頭看到的多場景駕駛視訊,特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。比如右側的車輛突然連並兩條線,闖入預設的駕駛路徑。也可以讓AI在已有的場景中執行自動駕駛任務,躲避行人和障礙物。模型生成的場景視訊,除了讓自動駕駛模型在裡面練手,也可以當成電子遊戲,供人類玩耍體驗。當然除了駕駛相關,對其他具身智能場景——比如特斯拉的柯博文機器人——也同樣有用。與這個模型一同被揭秘的,還有特斯拉在自動駕駛上的一整套方法論。特斯拉VP:端到端才是自動駕駛的未來ICCV演講中,特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節,同時還在X上發表了文字版本。Ashok首先明確,端到端AI才是自動駕駛的未來。特斯拉利用端到端神經網路實現自動駕駛,這個端到端神經網路會利用來自各個攝影機的圖像、運動訊號(例如車速)、音訊、地圖等資料,生成驅動汽車的控制指令。與端到端相對的另一種方法是採用大量感測器的模組化駕駛,這類系統的優勢是在初期更容易開發和偵錯,但相比之下,端到端的優勢更加明顯:將人類價值觀規則化極其困難,但從資料中學習則容易;模組化方法中感知、預測和規劃之間的介面定義不明確,但在端到端中梯度從控制一直流向感測器輸入,從而整體最佳化整個網路;端到端方法可輕鬆擴展以處理現實世界機器人的繁重和長尾問題;端到端具有確定性延遲的同質計算。Ashok舉了一些例子,比如車輛行駛過程中發現前方路面存在積水,此時有兩種策略,一是直接從積水上開過,二是借用對向車道繞過積水。駛入對向車道是危險的,但在這個具體場景中視野開闊,在避開水坑所需的路程之內對向車道沒有車輛,借用對向車道避開水坑是一種可行的選擇。這種權衡取捨就很難用傳統的程式設計邏輯來表達,而對於人類來說,這在觀察場景時卻相當簡單。基於以上考慮及其他因素,特斯拉採用了端到端的自動駕駛架構,當然,端到端系統也仍有許多挑戰需要克服。特斯拉如何解決端到端自動駕駛困難端到端自動駕駛面臨的困難,其中之一就是評估。特斯拉推出的世界模擬器,也正是針對這一難題。該模擬器使用特斯拉篩選出的同樣的海量資料集進行訓練,其功能並非預測給定狀態下的行動,而是根據當前狀態和下一步行動來合成未來狀態。這樣的狀態可以與智能體或策略AI模型連接起來,以閉環方式運行,從而評估性能。同時,這些視訊並不侷限於評估,它還可以用於閉環大規模強化學習,從而實現超越人類的表現。除了評估之外,端到端自動駕駛還面臨“維數災難”,以及可解釋性和安全性保證的問題。在現實世界中,想讓自動駕駛系統安全運行,就需要處理高影格率、高解析度、長上下文輸入。假設輸入資訊包括7個攝影機×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動資料,以及48KHz的音訊資料,大約會有20億輸入Token。神經網路需要學習正確的因果對應,將這20億個Token精簡為2個,即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關係是一個極其棘手的問題。為此,特斯拉通過龐大的車隊,每天收集相當於500年駕駛總和的資料,並使用複雜的資料引擎篩選最高品質的資料樣本。使用這樣的資料進行訓練,就能讓模型獲得極高的泛化能力,從而應對極端情況。對於可解釋和安全性問題,如果車輛的行為不符合預期,端到端系統的偵錯可能就會變得很困難,但模型也可以生成可解釋的中間Token,可以根據情況用作推理Token。特斯拉的生成式高斯潑濺就是這樣一項任務,它具有出色的泛化能力,無需初始化即可建模動態物體,並可與端到端模型聯合訓練。其中所有的高斯函數都是基於量產車配置的攝影機生成的。除了3D幾何之外,推理還可以通過自然語言和視訊背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。更多技術細節,可以到Ashok的文章和原始演講視訊當中一探究竟。端到端自動駕駛兩大路線:VLA還是世界模型?雖然端到端被視為自動駕駛的未來,但在業界,具體的軟體演算法路線也一直存在VLA和世界模型之爭。以國內為例,華為和蔚來都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認為應該將兩者結合。VLA玩家認為,該範式一方面可以應用網際網路已有的海量資料,積累豐富常識,進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力,能夠理解長時序資料並進行推理。更尖銳的觀點認為,有些廠家不用VLA是因為算力不夠,帶不動VLA模型。世界模型玩家們則堅持世界模型更接近問題本質,例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧,並不能真正走向自動駕駛”。而現在,特斯拉的方案之所以備受關注,也正是因為在自動駕駛發展歷程中,馬斯克從未有過“選錯”。特斯拉選什麼路線,VLA還是世界模型,關於端到端自動駕駛兩大技術路線的歷史性決戰。你看好VLA,還是世界模型?參考連結:[1]https://x.com/Tesla/status/1982255564974641628[2]https://x.com/aelluswamy/status/1981644831790379245 (量子位)
特斯拉造出“世界模擬器”,一天學完人類500年駕駛經驗
特斯拉人工智慧與自動駕駛軟體副總裁阿肖克·埃盧斯瓦米在ICCV 2025會議上首次公開披露了名為“世界模擬器”的神經網路系統。這一系統並非傳統的遊戲引擎或預程式設計模擬工具,而是一個完全通過海量真實世界資料訓練生成的“數字孿生世界”,能夠以極高保真度模擬車輛行駛中的多視角連續場景,一次可生成長達6分鐘、覆蓋8個攝影機的逼真駕駛視訊。技術核心:端到端神經網路架構特斯拉的“世界模擬器”與其自動駕駛系統FSD共享同一套“端到端”神經網路架構。與行業主流的“模組化”方案(將駕駛任務拆解為感知、預測、規劃三個獨立模組)不同,特斯拉的端到端模型直接從攝影機像素、車輛運動資料、導航資訊等原始資料輸入,一步到位輸出方向盤轉角和油門剎車控制指令。這種設計消除了模組間介面的資訊損耗,使系統能夠整體最佳化。例如,在面對“雞群試圖過馬路”和“鵝群僅在路邊停留”兩種場景時,端到端模型能直接從像素中理解動物意圖的差異,做出停車等待或繞行的不同決策,而無需依賴僵化的規則定義。資料引擎:每天消化500年駕駛經驗端到端模型面臨的核心挑戰是輸入維度極高(特斯拉估算其輸入token總數達20億個),而輸出僅有兩個控制指令。為解決這一“維度詛咒”,特斯拉依託其全球車隊每天產生的相當於人類500年駕駛時長的海量資料,通過“資料引擎”流水線自動篩選最具價值的罕見場景樣本進行訓練。例如,在雨天路滑場景中,FSD可提前5秒預判前車可能打滑撞牆後反彈,主動減速。這種對“二階效應”的預判能力,正是通過海量複雜場景資料訓練所獲得。可解釋性突破:打開AI“黑箱”針對端到端模型決策過程不透明的質疑,特斯拉通過兩項技術提升可解釋性:一是“生成式高斯潑濺”技術,可在220毫秒內根據攝影機視訊即時生成周圍環境的3D動態模型,直觀展示AI“所見”世界;二是引入自然語言推理能力,在FSD v14.x版本中,AI可用語言解釋其決策邏輯(如“施工封路,應向左繞行”)。這些中間輸出層使開發者能夠追溯AI的“思考鏈條”,部分破解黑箱問題。模擬器三大應用:閉環評估、場景復現與對抗測試世界模擬器的核心價值在於為自動駕駛測試提供無限規模的虛擬試煉場:閉環評估:新版FSD模型可直接在模擬器中長期駕駛,評估綜合表現,無需真實路測;場景復現與修改:重現真實危險場景,測試不同應對策略的優劣;對抗性場景生成:主動創造極端罕見情況(如車輛連續變道加塞),壓力測試AI的應急能力。通用AI野心:從汽車到柯博文機器人特斯拉明確表示,世界模擬器並非僅用於自動駕駛,已無縫遷移至人形機器人“柯博文”的訓練中。同一套神經網路在模擬器中同時生成車輛行駛和機器人在工廠內導航的畫面。這印證了馬斯克的終極目標:打造一個理解並互動物理世界的通用AI,汽車與機器人僅是其在不同的“身體”上的應用。特斯拉的世界模擬器不僅是自動駕駛技術的突破,更是其對“通用物理AI”戰略的關鍵佈局。通過端到端架構與虛擬訓練場的結合,特斯拉正試圖用資料與算力暴力破解機器智能的規模化難題。 (MaXTe)