OpenAI Sora負責人最新萬字乾貨深訪· 完整版+視頻
在影片生成領域,只有兩種模型:OpenAI Sora模型,以及其他不是Sora的模型。
Sora影片產生的能力相比其他影片產生模型完全是世代的碾壓,號稱影片生成的GPT時刻當之無愧。只可惜Sora還沒有發佈時間表,很多時候,關心影片生成的人只能看著偶爾發布的幾個生成範例望梅止渴。
剛剛,NoPriors播客最新發布了Sora專案團隊三位負責人的現場訪談。在這個訪談裡, 三位負責人透露了大量Sora的研究訓練和使用的細節,投資人主持的問題也可圈可點。這可以說是至今關於Sora最詳細的一次探討,非常推薦!
Sora的核心負責人由三位才華洋溢的年輕研究者組成。他們分別是Tim Brooks、William Peebles(暱稱Bill)和Aditya Ramesh。
Tim Brooks是DALL-E 3的主要作者之一。他本科就讀於卡內基美隆大學,主修邏輯與計算,輔修電腦科學。去年1月,他順利從加州大學柏克萊分校獲得博士學位後,立即加入OpenAI,參與了DALL-E 3和Sora的開發工作。
與Tim同樣畢業於柏克萊、只是晚了4個月的William Peebles,是Sora的另一位核心成員。 Bill本科就讀於麻省理工學院,主修電腦科學。在校期間,他參與了GAN和text2video的研究,也曾在輝達實習,專注於深度學習、自動駕駛和電腦視覺。 2022年,Bill在Meta實習期間,與謝賽寧合作發表了DiT模型,開創性地將Transformer與擴散模型結合。這項突破性成果被ICCV 2023錄取為Oral論文。有趣的是,業界普遍認為OpenAI的Sora正是基於DiT模式建構的。去年5月,Bill從柏克萊畢業後也加入了OpenAI。
相比之下,Aditya Ramesh在OpenAI已經是個"老人"。作為DALL-E的創造者,他主導了三代DALL-E的研究工作,並在每一版論文中擔任共同一作。
三位負責人都認為,像Sora這樣的模型是實現人工智慧的關鍵步驟,因為它能模擬複雜的環境和世界。他們預計,隨著模型的擴大,將能建造類似世界模擬器的東西,任何人都可以與之互動,這是通往人工智慧的道路。
目前,Sora模型的存取權限已提供給一小部分藝術家和紅隊成員,以了解其可能產生的影響。他們從藝術家那裡得到了反饋,關於如何讓它成為對他們最有用的工具,以及從紅隊成員那裡得到了反饋,關於如何讓它安全,如何將它介紹給公眾。這將為他們未來的研究設定路線圖,並告知他們未來是否最終會推出產品,確切的時間表是什麼。
三位負責人討論了模型的世界模擬功能,接著討論了模型的創新,包括擴散Transformer的概念和應用,以及模型的縮放定律。 Sora的開發需要處理大量數據,需要開發新的基礎設施和系統。 Sora的架構與其他模型有所不同,它並不是從圖像生成器開始並嘗試添加視頻,而是從頭開始,專注於視頻生成。
Sora的應用可能超越了目前沒有應用端到端深度學習的領域,包括自動駕駛等。 Sora的視覺美感引人注目,但其美學並未深入嵌入模型中。然而,Sora的語言理解能力允許使用者以比其他模型更難的方式來操縱它。
討論也涉及了Sora的潛在應用,包括教育和娛樂。例如,製作客製化的教育影片或用影片闡述觀點。此外,Sora也可能應用於數位化身分等領域,但目前團隊的重點仍在於科技的基礎發展,而不是特定的下游應用。
Aditya提到,許多安全緩解措施可以從DALL-E 3移植過來,但也會有新的安全問題需要關注,例如錯誤訊息和攻擊性文字的生成。
Tim分享了他對未來產品路線圖的興奮,特別是人們如何利用他們的產品創造新的東西。他期待這項技術能幫助才華洋溢、富有創造力的人創造出他們想要的東西。
Bill討論了讓這項技術更廣泛普及的挑戰,包括如何降低成本,以及如何處理可能出現的錯誤訊息和相關風險。他還提到了他們正在研究的一些功能,例如更準確的長期物理互動。
Tim比較了Sora過程與人類大腦的工作方式,強調了世界建模在人類智慧中的重要性。他對Sora的前景持樂觀態度,認為它將取代人類的某些能力,並有朝一日超越人類的智慧。並認為,隨著規模的擴大,真正有效的方法仍然只是預測數據,這就是他們在Sora中對文字和視覺數據所做的。預測資料是以可擴展的方式學習智慧的最佳方法。
Aditya則認為,只需擴大模型的規模就能賦予它們驚人的能力,這一點在GPT模型中已得到證實。將同樣的方法應用於視訊模型也會帶來非常驚人的能力,Sora 1就是這一觀點的存在證明。
=以下是訪談全文的天空之城書面版=
主持人:
今天,我們很榮幸能與OpenAI 的Sora 專案團隊進行交談。 Sora 是一種全新的影片生成模型,它能根據文字提示產生高清、視覺連貫且長達一分鐘的剪輯。 Sora 也探討了這些大型視訊模型是否能成為世界模擬器的問題,並將可擴展的Transformers 架構應用於視訊領域。我們今天的來賓是Sora 專案團隊的Aditya Ramesh、Tim Brooks 和Bill Peebles。歡迎大家收聽NoPriors,非常感謝你們接受我們的邀約。
首先,我們希望你們每個人都能簡單介紹一下自己,這樣我們的聽眾就能知道我們正在與誰交談。 Aditya,你願意先開始嗎?
Aditya: 好的,我是Aditya,我與Tim 和Bill 一起領導Sora 專案團隊。
Tim: 大家好,我是Tim,我也是Sora 專案團隊的leader。
Bill:我是Bill,同樣是Sora 專案團隊的leader。
很好。或許我們可以從OpenAI 的使命開始談起,那就是實現AGI,也就是更強大的人工智慧。那麼,文字轉影片的技術是否符合這個使命呢?你們是如何開始研究這個領域的呢?
Bill:是的,我們堅信像Sora 這樣的模型確實是實現AGI 的關鍵步驟。我們認為一個很好的例子就是一群人在冬天穿越東京的場景。在這個場景中,複雜性無所不在。你可以想像一個攝影機飛過這個場景,有很多人在互動,他們在說話,他們手牽著手,有人在附近的攤位上賣東西。我們真的認為這個例子說明了Sora 是如何在神經網路的權重範圍內模擬極其複雜的環境和世界的。
展望未來,為了產生真正逼真的視頻,你必須學習一些關於人們如何運作、如何與他人互動、最終如何思考的模型。這不僅包括人,還有動物,以及任何你想要模擬的物體。因此,展望未來,隨著我們繼續擴大像Sora 這樣的模型,我們認為我們將能夠建立這些類似世界模擬器的東西,基本上任何人都可以與它們互動。身為人類,我可以運行自己的模擬器,我可以去給模擬器中的人佈置工作,他們做完後可以帶著工作回來。我們認為這是通往AGI 的道路,隨著我們未來擴大Sora 的規模,AGI 就會實現。
有人說,儘管對消費產品的需求龐大,我們仍然遙不可及,例如路線圖上的內容是什麼?在更廣泛地使用Sora 之前,您需要做什麼工作? Tim,你願意談談這個問題嗎?
Tim:是的,我們真的希望能與OpenAI 以外的人交流,思考Sora 將如何影響世界,它將如何對人類有用。因此,我們目前還沒有製定產品的即時計劃,甚至沒有製定產品的時間表。然而,我們正在做的是,我們將Sora的訪問權限提供給一小部分藝術家以及紅隊成員,以開始了解Sora將產生的影響。我們從藝術家那裡得到了反饋,關於如何讓它成為對他們最有用的工具,以及從紅隊成員那裡得到了反饋,關於如何讓它安全,如何將它介紹給公眾。這將為我們未來的研究設定路線圖,並告知我們未來是否最終會推出產品,確切的時間表是什麼。
你能告訴我們你得到的一些回饋嗎?
Aditya:是的,我們已經將Sora的訪問權限提供給了少數藝術家和創作者,只是為了獲得早期回饋。總的來說,我認為一件大事就是可控性。目前模型實際上只接受文字作為輸入。雖然這很有用,但在能夠指定你想要的精確描述方面仍然相當受限。因此,我們正在考慮如何在未來擴展模型的功能,以便您能夠提供除文字之外的輸入。
你們有沒有看到藝術家或其他人用它製作的最喜歡的東西,或者最喜歡的影片或你覺得非常鼓舞人心的東西?
我知道,當它推出時,很多人都被一些圖像的美麗、引人注目所震撼,你會看到一隻貓在水池中的影子或諸如此類的東西。但我只是好奇,隨著越來越多的人開始使用它,你看到了什麼。
Tim:是的,看到藝術家們用這個模型做了什麼真的很棒,因為我們有自己的想法去嘗試一些東西。但是,那些以製作創意內容為職業的人非常有創造力,做瞭如此令人驚嘆的事情。例如,Shy Kids製作了一個非常酷的視頻,他們製作了這個短篇故事Airhead,這個角色有一個氣球。他們真的很喜歡這個故事。看到Sora能夠解鎖並讓這個故事更容易講述,這真的很酷。我認為這甚至與Sora製作的某個特定剪輯或影片無關,而與這些藝術家想要講述並能夠分享的故事有關,而Sora可以幫助實現這一點。這真的很棒。
你提到了東京場景。其他的呢?
Bill:我個人最喜歡的我們製作的樣本是Bling Zoo。我在我們推出Sora的那天在Twitter上發布了這個。它本質上是一個紐約動物園的多鏡頭場景,它也是一家珠寶店。所以你會看到劍齒虎裝飾著閃亮的東西。
這非常超現實。
Bill:是的,我喜歡這些樣本,因為作為一個喜歡創造內容但又沒有足夠技能的人,使用這個模型並激發出一堆想法並得到一些非常引人注目的東西是非常容易的。例如,在迭代提示方面,實際生成它所花費的時間真的不到一個小時,我就得到了我真正喜歡的東西。所以我很開心只是玩這個模型來得到這樣的東西。我非常高興地看到藝術家們也熱衷於使用這些模型,並從中創作出精彩的作品。
這些模型在短片或其他領域的廣泛應用的時間表是什麼?如果你回顧皮克斯的發展歷程,你會發現他們最初是製作短片,然後部分短片逐漸演變成了長片。這在很大程度上與他們如何精細模擬頭髮運動等細節有關。觀察上一代科技的發展過程非常有趣,我認為它已經有30年的歷史了。
我們何時會開始看到來自Sora或其他模型的實際內容,這些內容將由專業人士製作,並成為更廣泛媒體類型的一部分?
Tim:這是一個好問題。我沒有確切的時間表預測,但我對此非常感興趣,那就是除了傳統電影之外,人們可能會將其用於什麼。我認為,在接下來的幾年裡,我們會看到人們開始製作越來越多的電影,但我認為人們也會找到使用這些模型的全新方式,這些方式與我們習慣的當前媒體完全不同。因為這是一個非常不同的範例,你可以告訴這些模型你希望它們看到什麼,它們可以做出某種反應,也許它們就像真正有創意的藝術家想出的新內容互動模式。所以我實際上最興奮的是人們將要做的事情,這些事情與我們目前所做的完全不同。
你提到的一點非常有趣,這也是一種進行世界建模的方法。 Aditya在OpenAI工作了大約五年,因此你見證了許多模式和公司的發展。原本是機械手臂之類的東西,它是遊戲的自動play之類的東西。
當你考慮這個世界模擬模型的功能時,你認為它會成為模擬的實體引擎嗎?人們實際上正在模擬風洞?它是機器人技術的基礎嗎?還是別的東西?我對未來可能出現的其他一些前瞻性應用非常好奇。
Aditya:是的,我完全認為在視訊模型中進行模擬是我們將來某個時候能夠做到的事情。 Bill其實對這種事情有很多想法。
Bill:我認為你說到了點子上。對於像機器人這樣的應用,你可以從影片中學到很多東西,而這些不一定能從其他模式中獲得。 OpenAI等公司過去在這方面投入了大量資金,例如語言,例如手臂和關節如何在空間中移動的細節,再次回到東京的那個場景,那些腿是如何移動的,它們是如何以物理上準確的方式與地面接觸的。所以,你只需透過對原始影片的訓練就能學到很多關於物理世界的知識,我們真的相信,這對於未來的物理體現等事情至關重要。
再談談模型本身,這裡有很多非常有趣的創新。所以不是要讓你為難,Tim,你能向廣大技術受眾描述一下什麼是擴散Transformer嗎?
Tim:所以Sora是建立在OpenAI的DALL-E模型和GPT模型的研究之上。擴散是一種資料生成過程,以我們的案例為例,即視訊生成。這個過程從噪音開始,透過反覆多次去除噪音,直到最終去除了足夠的噪音,只產生一個樣本。這就是我們生成影片的過程。我們從一段有噪音的影片開始,逐步去除噪音。
然而,從架構角度來看,我們的模型必須是可擴展的,它們需要能夠從大量資料中學習,並理解影片中那些非常複雜且具有挑戰性的關係,這一點至關重要。因此,我們採用了一種類似GPT模型的架構,稱為Transformer。因此,將這兩個概念與Transformer架構結合的擴散Transformer使我們能夠擴展這些模型。隨著我們投入更多的計算和更多的數據來訓練它們,它們的表現會越來越好。
我們甚至發布了一份關於Sora的技術報告,展示了在使用較少、中等和更多的計算量時,從同一提示中獲得的結果。我們堅信,透過使用這種方法,隨著你使用越來越多的計算,結果會越來越好。因此,透過使用這種非常簡單的方法,我們將能夠透過增加更多的計算來繼續改進這些模型,添加更多數據,它們將能夠完成我們一直在談論的所有這些令人驚奇的事情,包括更好的模擬和更長期的生成。
我們能否描述一下這種模型的縮放定律是什麼樣的?
Bill:這是一個好問題。正如Tim所提到的,使用Transformer的好處之一是,你可以繼承我們在語言等其他領域看到的所有優秀屬性。因此,你完全可以開始提出影片而不是語言的縮放定律。這是我們團隊正在積極研究的事情,我們不僅在建立這些模型,還在尋找讓它們變得更好的方法。所以,如果我使用相同數量的訓練計算,我是否可以在不從根本上增加所需計算量的情況下獲得更好的損失?這些都是我們的研究團隊每天要解決的問題,以使Sora和未來的模型盡可能好。
關於在這個領域應用Transformer的問題之一就是標記化(Tokenization),對嗎?順便說一句,我不知道是誰想出了這個名字,但像Latent Spacetime Patches這樣的科幻名字在這裡很棒。你能解釋一下它是什麼以及為什麼它與此相關嗎?因為,能夠進行長達一分鐘的生成並獲得視覺和時間連貫性真的很棒。
Tim:我認為我們想出的並不是一個名字,而是一個描述性的東西,確切地描述了我們稱之為什麼。
是的,甚至更好。
Tim:因此,LLM範式的一個關鍵成功就是token的概念。如果你看看互聯網,你會發現上面有各種各樣的文字資料。有書籍、程式碼和數學。語言模型的妙處在於它們有token這個單一概念,這使得它們能夠在如此廣泛的資料上進行訓練。之前的視覺生成模型真的沒有類似的東西。所以,在Sora之前,非常標準的做法是,你會在256 x 256解析度的圖像或256 x 256的影片上訓練圖像生成模型或影片生成模型,這些影片剛好是四秒長。這個問題的關鍵在於,資料類型的使用受到了嚴重的限制,這使得我們無法充分利用網路上大量存在的視覺資料。這種限制也削弱了模型的通用性。因此,在Sora專案中,我們引入了「時空補丁」的概念。這種方法允許我們僅表示數據,而這些數據可以存在於圖像、長視頻和高垂直視頻中,我們只需提取立方體即可。
你可以將影片想像為一個堆疊,就像一個垂直堆疊的單一影像,你可以從中提取這些3D立方體。當我們最終將其輸入Transformer時,這就是我們對token的理解。因此,Sora能夠做的不僅僅是產生固定時長的720p影片。你可以產生垂直視頻、寬螢幕視頻,甚至可以在一比二到二比一之間執行任何操作。它還可以生成圖像,這是一個圖像生成模型。
實際上,這是第一個具有廣度的視覺內容生成模型,就像語言模型一樣。這就是我們追求這個方向的真正原因。
在輸入和訓練方面,它同樣重要,因為它能夠接收不同類型的視訊。
Bill:這個專案的很大一部分實際上是開發基礎設施和系統,以便能夠以先前的圖像或視訊生成系統所不需要的方式處理如此龐大的資料。
Tim:在Sora之前,許多處理影片的模型實際上都在考慮擴展影像生成模型。在圖像生成方面有很多出色的工作。許多人一直在做的是使用圖像生成器並對其進行一些擴展,而不是生成一張圖像,你可以生成幾秒鐘的圖像。但對於Sora來說,真正重要的是架構上的差異,而不是從圖像生成器開始並嘗試添加視頻,而是從頭開始,我們從如何製作一分鐘的高清鏡頭的問題開始。這就是我們的目標。
當你有這個目標時,我們知道我們不能只是擴展圖像生成器。我們知道,為了製作一分鐘的高清鏡頭,我們需要可擴展的東西,將資料分解成非常簡單的方式,以便我們可以使用可擴展的模型。所以我認為這確實是從圖像生成器到Sora的架構演進。
這是一個非常有趣的框架,因為它感覺可以應用在人們目前沒有應用端到端深度學習的各種其他領域。
Tim: 這是有道理的,因為在最短的時間內,我們並不是第一個推出影片產生器的人。很多人,很多人在視頻生成方面做了令人印象深刻的工作,但我們覺得,好吧,我們寧願選擇未來的一個點,然後,花一年時間研究它。而且有這種快速做事的壓力,因為人工智慧太快了。最快的做法是,哦,讓我們採用現在有效的東西,然後添加一些東西。正如您所說,這可能比將圖像轉換為影片更為普遍,還涉及其他方面。然而,有時候我們需要退後一步進行思考,例如,三年後這個問題的解決方案會是什麼樣子?讓我們開始建造它。
確實,最近在自動駕駛領域也出現了類似的轉變,人們從客製化的邊緣案例預測和啟發式方法轉向了新模型中的端到端深度學習。因此,看到它在視頻中的應用非常令人興奮。
Sora最引人注目的一點就是它的視覺美感。我對此感到好奇,你是如何調整或製作這種美感的?因為我知道在一些較傳統的圖像生成模型中,你們都有回饋,有助於影響美感的演變。但在某些情況下,人們實際上是在調整模型。所以我有點好奇你在Sora的背景下是如何考慮這個問題的。
Bill: 實際上,我們並沒有為Sora投入大量精力。世界很美?這是一個很好的答案。我認為這可能是對大部分問題的誠實回答。我認為Sora的語言理解絕對允許使用者以比其他模型更難的方式來操縱它。你可以提供很多提示和視覺提示,這些提示將引導模型朝著你想要的代數類型發展。
但美學並不是深深嵌入的。
我認為展望未來,模型會賦予人們某種力量,讓他們理解你的個人美感,這將是許多人期待的事情。
我們接觸的許多藝術家和創作者都希望將他們的全部資產上傳到模型中,這樣在寫標題時就可以藉鑑大量的作品,並讓模型理解他們設計公司幾十年來積累的術語等等。因此我認為個性化以及它如何與美學結合在一起將會成為以後值得探索的一件很酷的事情。
我認為Tim所說的就像超越傳統娛樂的新應用。我工作、旅行,還有年幼的孩子。所以我不知道這是否是需要評判的事情。但我今天做的事情之一是製作一些類似短篇有聲讀物的東西,裡面有聲音克隆、多莉圖像,還有你知道的,風格類似的故事,比如魔法樹屋之類的,或者圍繞我感興趣的某個話題,例如,哦,和羅馬皇帝十世一起出去玩,對吧?或是女孩們、我的孩子感興趣的東西。
但這在計算上很昂貴,很難,而且不太可能。但我想像每個人都會擁有類似桌面皮克斯的某個版本,我認為孩子們會首先發現這一點,但我會講述一個故事,並讓神奇的視覺效果實時發生。我認為這是一種與我們現在完全不同的娛樂模式。
我們會得到它嗎?
Tim:我認為我們正朝著那個方向前進。還有不同的娛樂模式、不同的教育模式和溝通模式。娛樂是其中很重要的一部分,但我認為一旦真正了解我們的世界,就會有很多潛在的應用。我們的世界和我們體驗世界的方式很大程度上都是視覺化的。這些模型真正酷的地方在於,它們開始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些科技來娛樂自己,也可以用它們來教育我們。有時候,當我想學習一些東西時,最有效的方法就是找一個客製化的教育影片來解釋。同樣,如果我想和某人交流一些觀點,可能最好的方式就是製作一個影片來闡述我的觀點。因此,我認為娛樂和視訊模型可能有更廣泛的潛在應用。
這是非常合理的。這引起了我的共鳴,我認為如果你問年輕一代的人,他們會說當今世界上最大的教育動力是YouTube。
無論是好是壞。你們有嘗試過將這些技術應用於數位化身分等方面嗎?像Synesthesia、Heygen 這樣的公司在這個領域做了一些有趣的事情。但是,擁有一種真正能夠以非常深刻和豐富的方式囊括一個人的技術,似乎是一種有趣的潛在適應性方法。我只是好奇你是否已經嘗試過類似的事情,或者這是否不太適用,因為它更像是文字到影片的提示。
Tim:到目前為止,我們並沒有真正專注於背後的核心技術。因此,我們並沒有太多關注特定的應用,包括化身的概念,這是非常有意義的。我認為嘗試一下會很酷。我認為我們現在在Sora 的軌跡中的位置就像是這個新視覺模型範式的GPT-1。我們真正在研究基礎研究,以使它們變得更好,使其成為可以為所有這些不同事物提供動力的更好的引擎。所以,我們現在的重點只是這項技術的基礎發展,可能比特定的下游應用更重要。這是非常有道理的。
是的,我問化身問題的原因之一是它開始引發有關安全性的問題。所以我有點好奇,你們是如何看待視頻模型中的安全性以及進行深度偽造或惡搞之類的事情的可能性的。
Aditya:是的,我可以談談這個。這絕對是一個相當複雜的話題。我認為很多安全緩解措施可能都可以從DALL-E 3 移植過來。例如,我們處理色情圖片或血腥圖片的方式,諸如此類。肯定會有新的安全問題需要擔心,例如錯誤訊息。或者例如,我們是否允許使用者產生帶有攻擊性文字的圖片?
我認為這裡要弄清楚的一個關鍵問題是,部署這項技術的公司承擔多少責任?例如,社群媒體公司應該做多少工作來告知用戶他們看到的內容可能不是來自可信任來源?使用者在使用這項技術創造某些東西時要承擔多少責任?所以我認為這很棘手。我們需要認真思考這些問題,以找到我們認為對人們最有利的立場。這是有道理的。
而且,還有很多先例。就像人們過去使用Photoshop 處理圖像然後發布它們一樣。並提出索賠。人們並沒有說,因此,Photoshop 的製造商要為濫用該技術的人負責。因此,在考慮這些事情方面,似乎有很多先例。
Aditya:確實如此,我們的目標是發布一些能讓人們真正感受到自由,可以自由表達自己並做他們想做的事情的產品。然而,有時這與做一些負責任的事情以及以人們可以習慣的方式逐步發布技術相矛盾。
我想向在座的各位提出一個問題,也許可以從Tim開始,如果你能分享這一點,那就太好了。關於未來的產品路線圖、你的發展方向或接下來要開發的一些功能,你最興奮的是什麼?
Tim:確實,這是個好問題。我對人們將如何利用我們的產品創造出新的東西感到非常興奮。我認為有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難,因為他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多有才華、有創意的人創造出他們想要的東西。我真的很期待他們將要製作出什麼了不起的東西,以及這項技術將如何幫助他們。
Bill,我想問你一個問題,這是否像你剛才提到的GPT-1一樣,我們還有很長的路要走。這不是普通大眾有機會嘗試的東西。除了長度等顯而易見的問題之外,你能描述一下你想要解決的限製或差距嗎?
Bill:是的,我認為,在讓這項技術更廣泛地普及方面,還有很多服務方面的考慮需要考慮。一個大問題是如何讓這項技術夠便宜,讓人們可以使用。我們過去說過,在生成影片方面,這在很大程度上取決於確切的參數,例如你正在製作的影片的解析度和長度。但是,這不是即時的。你必須至少等待幾分鐘才能看到我們產生的這些很長的影片。所以我們正在積極地研究線程,以降低成本,以便更廣泛地普及它。
我認為,正如Aditya和Sam所暗示的那樣,在安全方面也有很多考慮。因此,為了讓這項技術真正變得更加廣泛地普及,我們需要確保,特別是在選舉年,我們對可能出現的錯誤訊息和任何相關風險非常謹慎。我們今天正在積極努力解決這些問題。這是我們研究路線圖的重要組成部分。
那麼,關於核心問題,例如品質問題,有沒有更好的術語?有沒有具體的事情,例如你正在考慮物體永久性或某些類型的互動?
Bill:是的,當我們展望GPT-2或GPT-3的時刻時,我們真的很高興非常複雜的長期物理互動變得更加準確。舉一個具體例子,如果我有一段某人踢足球的視頻,他們在踢球,在某個時刻,那個球可能會蒸發掉,也許會回來。所以它可以相當可靠地進行某些更簡單的交互,例如人們走路。但這些更詳細的物件與物件之間的互動肯定仍然是一個正在醞釀的功能,我們認為隨著規模的擴大,它會變得更好。但這是一件值得期待的事。
我認為有一個例子可以作為少數幾個的縮影。當然,這樣的例子有很多,但我曾經見過的一個例子是,一個男人咬了一口漢堡,而這一口在漢堡裡留下的痕跡,就像保持了某種狀態一樣,這非常酷。
Bill:是的,我們對這個非常興奮。還有另一個例子,就像一個女人用水彩在畫布上作畫,畫筆在畫布上真的留下了痕跡。所以,正如你所說,目前的模型中有一些這種能力的閃光點,我們認為它在未來會變得更好。
可以談談你在Sora計畫上的工作是如何影響更廣泛的研究路線圖的嗎?
Tim:是的,我認為這是關於Sora計畫的一個重要方面,就是透過查看所有這些視覺數據來了解世界的知識。它理解3D,這是一件很酷的事情,因為我們還沒有對它進行訓練。我們並沒有明確地將3D訊息融入其中。我們只是用視訊資料對它進行了訓練,它學會了3D,因為這些影片中存在3D。它也學會了當你咬一口漢堡包時,會留下咬痕。所以它學到了很多關於我們這個世界的東西。當我們與世界互動時,很多都是視覺的。我們一生中看到和學到的東西很多都是視覺訊息。所以我們真的認為,對於智能,對於引導更智能的人工智慧模型,更好地理解世界,這對它們來說非常重要,因為它們需要有這樣的基礎,例如,嘿,這就是我們生活的世界。這裡面有太多的複雜性。有許多關於人們如何互動、事情如何發生、過去的事件如何影響未來的事件的內容,這實際上會導致比生成影片更廣泛的更聰明的人工智慧模型。
這幾乎就像你同時發明了未來的視覺皮層和大腦推理部分的某些部分。
Tim: 是的,這是一個很酷的比較,因為人類擁有的許多智慧實際上都與世界建模有關,對吧?當我們思考如何做事時,我們總是在腦海中演繹各種場景。我們會在夢中在腦海中演繹各種場景。我們在做事之前會提前思考。如果我這樣做,這件事就會發生。如果我做另一件事,會發生什麼,對吧?所以我們有一個世界模型,將Sora建構成世界模型與人類擁有的大部分智慧非常相似。
你們如何看待與人類的類比,也就是擁有一個非常近似的世界模型,而不是像傳統意義上的實體引擎那樣精確的東西,對吧?因為如果我拿著一個蘋果然後把它扔下,我預計它會以一定的速度掉落,但大多數人並不認為這是用計算速度來表達路徑。你認為這種學習在大型模型中就像是並行的嗎?
Bill:我認為這是一個非常有趣的觀察。我認為我們思考事物的方式是,它幾乎就像人類的缺陷,就是它沒有那麼高的保真度。因此,當你涉及到一組非常狹窄的物理學時,我們實際上無法做出非常準確的長期預測,這是我們可以透過其中一些系統進行改進的。因此,我們對Sora的前景持樂觀態度,認為它將取代人類的某些能力。從長遠來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。然而,這也是一個明確的證據,表明對於其他類型的智慧來說,Sora並非必要。無論如何,這仍然是Sora和未來模型可以改進的地方。
顯然,對於預測投擲足球的軌跡,下一版的模型將會有更好的表現,例如我的模型會更好。
Tim:如果我可以補充一點,這與規模範式有關,也與我們希望隨著計算能力的增加,方法能夠不斷改進的一些痛苦經驗有關。在這個範式中,真正有效的方法就是執行簡單但具有挑戰性的任務,也就是預測資料。你可以嘗試提出更複雜的任務,例如,不直接使用視頻,而是在某種類似的空間中模擬近似的事物。但是,當涉及到方法如何隨著規模的擴大而改進的縮放定律時,所有這些複雜性實際上並沒有帶來任何好處。隨著規模的擴大,真正有效的方法仍然只是預測數據。這就是我們對文本所做的,我們只是預測文本。這也是我們在Sora中對視覺數據所做的,我們並沒有複雜化問題,而是試著找出一些新的東西來優化。我們認為,以可擴展的方式學習智慧的最佳方法就是預測數據,這是非常合理的。
關於你所說的,預測會變得更好,沒有必要的限制來接近人類。你認為大眾對視訊模型或Sora有什麼誤解嗎?或者你想讓他們知道什麼?
Aditya:我認為,對於大眾來說,Sora的發布可能是最大的更新。正如Bill和Tim所說,在內部,我們一直在將Sora與GPT模型進行比較。當GPT-1和GPT-2問世時,人們開始越來越清楚地認識到,只需擴大這些模型的規模就能賦予它們驚人的能力。目前還不清楚,擴大下一個標記預測的規模是否會產生一個有助於編寫程式碼的語言模型。對我們來說,很明顯,將同樣的方法應用於視訊模型也會帶來非常驚人的能力。我認為Sora 1是一種存在證明,表明現在縮放曲線上有一個點,我們對這將帶來什麼感到非常興奮。
這真是太棒了。我不知道為什麼這讓每個人都如此驚訝,但痛苦的教訓又一次得到了證實。
是的,我只想說,正如Tim和Aditya所暗示的那樣,我們確實覺得這是GPT-1的時刻,這些模型很快就會變得更好。我們真的很興奮,我們認為這將為創意世界帶來令人難以置信的好處,這對AGI的長期影響是什麼。
同時,我們正在努力非常注意安全考慮,並建立一個強大的堆棧,以確保社會真正從中獲益,同時減輕負面影響。但這是一個令人興奮的時刻,我們期待未來模型能實現什麼。 (Web3天空之城)