Google推世界首個AI遊戲引擎，2000億遊戲產業恐顛覆！0程式碼生成遊戲，老黃預言成真

2024/08/30

•

【新智元導讀】炸裂！世界上首個完全由AI驅動的遊戲引擎來了。Google研究者訓練的GameNGen，能以每秒20幀即時生成DOOM的遊戲畫面，畫面如此逼真，60%的片段都沒讓玩家認出是AI！全球2000億美元的遊戲行業，從此將被改變。

世界上第一個完全由神經模型驅動的遊戲引擎，剛剛誕生了！

「黑神話：悟空」的熱度正旺，AI又在遊戲中創造了全新的里程碑。

史上首次，AI能在沒有遊戲引擎的情況下，為玩家生成即時遊戲了。

從此，我們開始進入一個炸裂的新時代：遊戲不僅能被AI玩，還能由AI來創造和驅動。

Google的GameNGen，可以在單個TPU上，讓AI以每秒20幀的速度，生成即時可玩的遊戲。每一幀，都是由擴散模型預測的。

幾年後，AI即時生成3A遊戲大作的願望還會遠嗎？

從此，開發者不必再手動程式設計遊戲邏輯，開發時間和成本都會顯著降低。

價值2000億美元的全球遊戲產業，可能會被徹底顛覆！

Google研究者表示，GameNGen是第一個完全由神經模型驅動的遊戲引擎，能夠在複雜環境中，實現高品質的長軌跡即時互動。

論文地址：https://arxiv.org/abs/2408.14837

不僅速度是即時的，它的優秀畫質，也是讓開發者顫抖的地步。

模擬「毀滅戰士」時，它下一幀預測的峰值訊號雜訊比（PSNR）達到了29.4，已經可以和有損JPEG壓縮相媲美。

在神經網路上即時執行階段，視覺質量已經達到了與原始遊戲相當。

模擬片段和遊戲片段如此相似，讓不少人類被試都分不清，眼前的究竟是遊戲還是模擬？

網友感慨：這不是遊戲，這是人生模擬器。

小島秀夫的另一個預言，成真了。

3A電視劇是不是也來了？想像下，按照自己的喜好生成一版《權游》。

想像下，1000年後或一百萬年後，這項技術是什麼樣？我們是模擬的機率，已經無限接近於1了。

從此，遊戲開發不再需要遊戲引擎？

AI首次完全模擬具有高品質圖形和複雜互動的複雜視訊遊戲，就做到了這個地步，實在是太令人驚嘆了。

作為最受歡迎、最具傳奇色彩的第一人稱射擊遊戲，自1993年發佈以來，「毀滅戰士」一直是個技術標竿。

它被移植到一系列超乎想像的平台上，包括微波爐、數位相機、洗衣機、保時捷等等。

而這次，GameNGen把這些早期改編一舉超越了。

從前，傳統的遊戲引擎依賴的是精心編碼的軟體，來管理遊戲狀態和渲染視覺效果。

而GameNGen，只用AI驅動的生成擴散模型，就能自動模擬整個遊戲環境了。

從視訊中可以看出，神經網路復現遊戲標誌性視覺效果的能力簡直是一絕，AI即時生成複雜互動環境的潛力非常驚人

「毀滅戰士」一直以複雜的3D環境和快節奏的動作聞名，現在，所有這些都不需要遊戲引擎的常用元件了！

AI引擎的意義，不僅僅是減少遊戲的開發時間和成本。

這種技術，可以使遊戲創作徹底民主化，無論是小型工作室，還是個人創作者，都能創造出從前難以想像的複雜互動體驗。

此外，AI遊戲引擎，還給全新的遊戲類型打開了大門。

無論是環境、敘事，還是遊戲機制，都可以根據玩家的行為動態來發展。

從此，遊戲格局可能會被整個重塑，行業會從熱門遊戲為中心的模式，轉向更多樣化的生態系統。

順便一提，「DOOM」的大小只有12MB。

大佬們「瘋了」

AI初創HyperWrite的CEO Matt Schumer表示，這簡直太瘋狂了！使用者玩遊戲時，一個模型正在即時生成遊戲。

如果將大多數AI模型的進展/軌跡對應到這上面，那麼在幾年內，我們將會得到3A級生成遊戲。

輝達高級科學家Jim Fan感慨道，被駭客們在各種地方瘋狂運行的DOOM，竟然在純粹的擴散模型中實現了，每個像素都是生成的。

連Sora跟它比起來，都黯然失色。我們只能設定初始條件（一個文字或初始幀），然後只能被動觀看模擬過程。

因為Sora無法進行互動，因此還不算是一個「資料驅動的物理引擎」。

而GameNGen是一個真正的神經世界模型。它將過去的幀（狀態）和使用者的一個動作（鍵盤/滑鼠）作為輸入，並輸出下一幀。這種質量，是他見過的最令人印象深刻的DOOM。

隨後，他深度探討了一些GameNGen中存在的限制。

比如在單個遊戲上過擬合到了極致；無法想像新的場景，無法合成新的遊戲或互動機制；資料集的瓶頸，導致了方法無法推廣；無法實現用提示詞創造可玩世界，或用世界模型訓練更好的具身AI，等等。

一個真正有用的神經世界模型，應該是什麼樣子？

馬斯克的回答是：「特斯拉可以用真實世界的視訊做類似的事情」。

的確，資料是難點。

Autopilot團隊可能擁有數兆的資料對（攝影機視訊，方向盤動作）。

有了如此豐富的真實世界資料，完全有可能訓練一個涵蓋各種極端情況的通用駕駛模擬器，並使用它來部署和驗證新的完全自動駕駛（FSD）版本，而不需要實體車輛。

最後Jim Fan總結道：不管怎麼說，GameNGen仍是一個非常出色的概念驗證——至少我們現在知道，9億幀是將高解析度DOOM壓縮到神經網路中的上限。

網友們感慨：擴散網路學習物理引擎和遊戲規則的方式，太瘋狂了。

核心作者：個人里程碑

GoogleDeepMind核心貢獻者，項目負責人Shlomi Fruchter，在社交媒體上，介紹了自己開發GameNGen的過程。

他表示，「GameNGen是自己開發路上的里程碑」。\

從最初手寫GPU渲染程式碼（顯式），到現在訓練能在GPU上運行的神經網路（隱式），甚至包含了遊戲邏輯，讓我有一種實現了完整「閉環」的感覺。

Fruchter進行的第一個大型編碼項目之一是3D引擎（如下圖所示）。早在2002年，GPU仍只能用於渲染圖形。

還記得，第一款圖形處理器GeForce 256是在1999年發行。

渲染3D圖形恰好需要大量的矩陣運算，這恰恰是GPU所擅長的。

然後Google研究人員編寫高級著色器語言程式碼，計算自訂渲染邏輯並建構新的視覺效果，同時還能保持高影格率。

GameNGen的誕生，是源於一個好奇心：

「我們能否在當前的處理器上，運行一個隱式神經網路，來進行即時互動遊戲」。

對於Fruchter以及團隊成員來說，最終答案是一個令人興奮的發現。

AI大牛Karpathy曾說過，100%純軟體2.0電腦，只有一個神經網路，完全沒有傳統軟體。

裝置輸入（音訊、視訊、觸摸等）直接到神經網路中，其輸出直接作為音訊/視訊在揚聲器/螢幕上顯示，就是這樣。

有網友便問道，那就是它不能運行DOOM了？

對此，Karpathy表示，如果能夠很好提出請求，它可能可以非常接近地模擬DOOM。

而現在，Fruchter更加肯定，它可以運行DOOM了。

另一位Google作者Dani Valevski也轉發了此帖，對此願景表示極度認可。

GameNGen或許標誌著遊戲引擎全新範式的開啟，想像一下，和自動生成的圖像或視訊一樣，遊戲也是自動生成的。

雖然關鍵問題依舊存在，比如如何訓練、如何最大程度利用人類輸入，以及怎樣利用神經遊戲引擎建立全新的遊戲。但作者表示，這種全新範式的可能性讓人興奮。

而且，GameNGen的名字也暗藏彩蛋，可以讀出來試一試——和Game Engine有相似的發音。

Agent採集軌跡，SD預測生成

在手動製作電腦遊戲的時代，工作流程包括（1）收集使用者輸入（2）更新遊戲狀態，以及（3）將更新後的狀態渲染為螢幕像素，計算量取決於影格率。

儘管極客工程師們手中的Doom可以在ipod、相機，甚至微波爐、跑步機等各種硬體上運行，但其原理依舊是原樣模擬模擬手動編寫的遊戲軟體。

看起來截然不同的遊戲引擎，也遵循著相同的底層邏輯——工程師們手動程式設計，指定遊戲狀態的更新規則和渲染邏輯。

如果和擴散模型的即時視訊生成放在一起，乍一看好像沒什麼區別。然而，正如Jim Fan指出的互動式世界模擬不僅僅是非常快速的視訊生成。

其一，生成過程需要以使用者的輸入動作流為條件，這打破了現有擴散模型架構的一些假設。

其二，模型需要自回歸生成幀，這往往會導致採樣發散、模型不穩定等問題。

Agent資料收集

由於無法直接對遊戲資料進行大規模採樣，因此首先教會一個agent玩遊戲，在各種場景中生成類似於人類且足夠多樣化的訓練資料。

agent模型使用深度強化學習方法進行PPO訓練，以簡單的CNN作為特徵網路，共生成900M幀的𝒯_a⁢g⁢e⁢n⁢t資料集，包括agent的動作以及對環境的觀察，用於後續的訓練、推理和微調。

訓練生成模型

GameNGen使用的Stable Diffusion 1.4是文生圖擴散模型，其中最重要的架構修改就是，讓以文字為條件的模型適應資料集中的動作資料a_{<n}和對先前幀的觀察結果o_{<n}。

具體來說，首先訓練一個嵌入模組A_e⁢m⁢b，將agent的每個動作（例如特定的按鍵）轉換為單個token，並將交叉注意力中的文字取代為編碼後的動作序列。

為了能接受o_{<n}作為條件，同樣使用自動編碼器ϕ將其編碼到潛在空間中（即x_t），同時在潛在的通道維度上與噪聲隱變數ε_α拼接在一起。

實驗中也嘗試過用交叉注意力處理o_{<n}輸入，但並沒有明顯改進。

相比原來的Stable Diffusion，GameNGen對最佳化方法也做了改進，使用velocity parameterization方法最小化擴散損失。

GameNGen方法概述（省略v-prediction細節）

噪聲增強減輕自回歸漂移

從原Stable Diffusion的教師強制訓練轉換為遊戲引擎中的自回歸採樣，會不可避免地導致錯誤累積和樣本質量快速下降。

為了避免這個問題，訓練生成模型時會在編碼過的上下文幀中新增不同數量的高斯噪聲，同時將噪聲水平作為模型的輸入，從而讓降噪網路可以糾正先前幀中採樣的資訊。

這些操作對於隨著時間推移時保證幀質量至關重要。在推理過程中，也可以控制新增的噪聲水平以最大限度地提高生成質量。

自回歸漂移：上圖中， 20-30個步驟後，生成質量會快速下降；而下圖中，具有噪聲增強的相同軌跡不會出現質量下降

推理

模型在推理時使用DDIM採樣方法。之所以能達到20FPS的即時生成效率，與GameNGen推理期極高的採樣效率直接相關。

通常，生成擴散模型（例如Stable Diffusion）無法只用單個去噪步驟產生高品質結果，而是需要數十個採樣步驟。

但令人驚訝的是，GameNGen只需4個DDIM採樣步驟就能穩健地模擬 DOOM，而且相比使用20個或更多採樣步驟時，質量並沒有明顯下降。

作者推測，這可能源於多個因素的共同作用，包括可採樣的圖像空間受限，以及通過先前幀資訊施加了較強的條件限制。

僅使用4個降噪步驟讓U-Net的推理成本降低至40ms，加上自動編碼器，總推理成本為50ms，相當於每秒生成20幀圖像。

實驗還發現，模型蒸餾後進行單步採樣能夠進一步提高影格率，達到50FPS，但會以犧牲模擬質量為代價，因此最後還是選用了20FPS的採樣方案。

AI遊戲生成太逼真，60%片段玩家沒認出

模擬質量

總的來說，就影像品質而言，GameNGen在長時間軌跡上預測，達到了與原始遊戲相當的模擬質量。

對於短時間軌跡，人評估者在模擬片段和真實遊戲畫面中，進行區分時，比隨機猜測略強一些。

這意味著什麼？

AI生成的遊戲畫面，太過逼真沉浸，讓人類玩家有時根本無法辨別。

影像品質

這裡，評估中採用了LPIPS和PSNR作為評估指標。這是在強制教學設定下進行測量，即基於真實過去觀察預測單個幀。

對5個不同關卡中，隨機抽取的2048個軌跡進行評估時，GameNGen達到了29.43的PSNR和0.249的LPIPS。

下圖5展示了，模型預測和相應的真實樣本示例。

視訊質量

針對視訊質量，研究人員使用了自回歸設定，即模型基於自己的過去預測來生成後續幀。

不過，預測和真實軌跡在幾步後會發生偏離，主要是由於幀間移動速度的微小差異累積。

如下圖6所示，隨著時間推移，每幀的PSNR值下降，LPIPS值上升。

預測軌跡在內容和影像品質方面，仍與實際遊戲相似，但逐幀指標在捕捉這一點上，能力有限。

因此，研究團隊測量了在512個隨機保留軌跡上，計算的FVD（用於測量預測和真實軌跡分佈之間的距離）。

這裡，分別對16幀（0.8秒）和32幀（1.6秒）兩種模擬長度，進行了測試。

最終，得到的FVD分別是114.02，以及186.23。

人工評估

為了得到更真實的評估，研究者向10名人類評分者，提供了130個隨機短片段（長度為1.6秒和3.2秒）。

並且，將GameNGen模擬的遊戲和真實遊戲並排對比，如下所示。

評估者的任務，便是識別其中，那一個是真實遊戲。

結果發現，針對1.6秒生成遊戲的片段，在58%情況下，他們認為GameNGen生成遊戲是真實的。

而對於3.2秒片段，這一比率更高，達到了60%。

消融實驗

接下來，研究者評估了架構中，不同元件的重要性，從評估資料集中採樣軌跡，並計算地面真值與預測幀之間的LPIPS和PSNR指標。

上下文

通過訓練N∈{1, 2, 4, 8, 16, 32, 64}模型，測試上下文中過去觀察數量N的影響。（標準模型使用了N=64）。

這影響了歷史幀和動作的數量。

保持解碼器凍結情況下，訓練模型200,000步，並在5個關卡的測試集軌跡上進行評估。

結果如下表1所示，如預期一樣，研究者觀察到GameNGen生成質量，隨著上下文增加，而提升。

更有趣的是，在1幀和2幀之間，這一改進非常大，但往後開始很快接近了閾值線，改進質量逐漸放緩。

即便用上了最大上下文（64幀），GameNGen模型也僅能訪問，略超過3秒的歷史資訊。

另一個發現是，大部分遊戲狀態可能會持續更長時間。

表1結果很好地說明了，未來可能需要改變模型架構，來支援更長的上下文。同時，探索更好的方法，採用過去幀作為條件。

噪聲增強

為了消除噪聲增強的影響，研究人員還訓練了一個沒有新增噪聲的模型。

通過對比評估，經過噪聲增強的標準模型和沒有新增噪聲的模型（在200k訓練步驟後），以自回歸方式計算預測幀與真實幀之間的PSNR和LPIPS指標。

如下圖7所示，呈現了每個自回歸步驟的平均指標值，總共達64幀。

這些評估是在隨機保留的512條軌跡上進行的。

結果顯示，沒有噪聲增強時，與真實值的LPIPS距離，比起研究標準噪聲增強模型增加得更快，而PSNR下降，表明模擬與真實值的偏離。

智能體

最後，研究人員將智能體生成的資料訓練，與使用隨機策略生成的資料訓練，進行了比較。

這裡，通過訓練兩個模型，以及解碼器，每個模型訓練700k步。

它們在一個由5個關卡組成的2048條人類遊戲軌跡的資料集上，進行評估。

而且，研究人員比較了在64幀真實歷史上下文條件下，生成的第一幀，以及經過3秒自回歸生成後的幀。

總得來說，研究觀察到，在隨機軌跡上訓練模型效果出乎意料地好，但受限於隨機策略的探索能力。

而在比較單幀生成時，智能體僅略勝一籌，達到25.06 PNSR，而隨機策略為24.42。

而在比較3秒情況下，差異增加到19.02 Vs 16.84。

在手動操作模型時，他們還觀察到，某些區域對兩者都非常容易，某些區域對兩者都非常困難，而在某些區域智能體表現更好。

因此，作者根據其在遊戲中與起始位置的距離，將456個示例手動分為三個等級：簡單、中等和困難。

如下表2所示，結果觀察到，在簡單和困難集合中，智能體僅略優於隨機，而在中等集合中，智能體的優勢如預期般更大。

0程式碼生成遊戲，老黃預言成真

今天，視訊遊戲，是由人類程式設計的。

GameNGen的誕生，開啟了即時互動視訊遊戲的全新範式。

在這一範式中，遊戲是神經模型的「權重」，而非程式碼行。

如今看來，老黃的預言近在眼前。

每個像素很快都將會是生成的，並非是渲染的。

在今年GTC大會的記者會上，Bilawal Sidhu就老黃的話，提出了一個後續問題：「我們距每個像素都是以即時幀速率生成的世界還有多遠」？

老黃表示，我們還需要5-8年的時間，並且現已看到了跨越創新S曲線的跡象。

它表明，當前存在一種架構和模型權重，可以讓神經網路能夠在現有GPU上，有效互動運行複雜遊戲DOOM。

不過，GameNGen仍有許多重要的問題存在，這也是Google開發者接下來繼續攻克的問題。

Shlomi Fruchter帶領團隊開闢了遊戲製作的另一片天地，並希望這個範式能為前路指明方向。

在這種新範式下，能夠直接拉低視訊遊戲的開發成本，並讓更多人得到訪問。

僅需一句話，或者是一個示例圖像，未來可任何一個開發者，皆可以對遊戲進行開發和編輯。

另外，為現有遊戲建立/修改行為，可能在短期就能實現了。

比如，我們可以將一組幀，轉化為一個全新可玩的關卡，或者僅基於示例圖像建立一個新角色，無需編寫程式碼。

新範式的好處，或許還能保持足夠優秀的影格率，和極少的記憶體佔用。

正如論文作者所述，他們希望這小小一步的嘗試，能夠對人們遊戲體驗，甚至更廣泛地對日常互動軟體系統的互動，帶來有極大價值的改善。

從遊戲到自動駕駛汽車，令人興奮的可能性

更令人興奮的是，GameNGen的潛在應用，遠遠超出了遊戲領域！

無論是虛擬現實、自動駕駛汽車還是智能城市行業，都可能因此而變革。

因為在這些行業中，即時模擬對於培訓、測試和營運管理都至關重要。

比如在自動駕駛汽車中，需要能夠模擬無數的駕駛場景，以安全地在複雜的環境中行駛。

而GameNGen這類AI驅動引擎，恰恰可以通過高保真度和即時處理來執行這項任務。

在VR和AR領域，AI引擎可以建立完全沉浸式的互動式世界，還能即時適應使用者輸入。

這種互動式模擬產生的巨大吸引力，可能會徹底改變教育、醫療保健和遠端工作等行業！

當然，GameNGen也存在一些挑戰。

雖然它可以以互動速度運行《毀滅戰士》，但圖形密集程度更高的遊戲，可能會需要更大的算力。

另外，它是針對特定遊戲量身定製的，因此要開發能運行多個遊戲的通用AI遊戲引擎，挑戰仍然艱巨。

但現在，我們儼然已至未來的風口浪尖，從此，我們最喜歡的遊戲不是從程式碼行中誕生，而是從機器的無限創造力中誕生。

從此，人類創造力和機器智能之間的界限會越來越模糊。

通過GameNGen，Google研究人員讓我們對未來有了令人興奮的一瞥——

在這個世界中，阻礙我們虛擬體驗的唯一限制，就是AI的想像力。(新智元)