Google推世界首個AI遊戲引擎,2000億遊戲產業恐顛覆!0程式碼生成遊戲,老黃預言成真


新智元報導


【新智元導讀】炸裂!世界上首個完全由AI驅動的遊戲引擎來了。Google研究者訓練的GameNGen,能以每秒20幀即時生成DOOM的遊戲畫面,畫面如此逼真,60%的片段都沒讓玩家認出是AI!全球2000億美元的遊戲行業,從此將被改變。


世界上第一個完全由神經模型驅動的遊戲引擎,剛剛誕生了!

「黑神話:悟空」的熱度正旺,AI又在遊戲中創造了全新的里程碑。

史上首次,AI能在沒有遊戲引擎的情況下,為玩家生成即時遊戲了。


從此,我們開始進入一個炸裂的新時代:遊戲不僅能被AI玩,還能由AI來創造和驅動。


Google的GameNGen,可以在單個TPU上,讓AI以每秒20幀的速度,生成即時可玩的遊戲。每一幀,都是由擴散模型預測的。

幾年後,AI即時生成3A遊戲大作的願望還會遠嗎?

從此,開發者不必再手動程式設計遊戲邏輯,開發時間和成本都會顯著降低。

價值2000億美元的全球遊戲產業,可能會被徹底顛覆!

Google研究者表示,GameNGen是第一個完全由神經模型驅動的遊戲引擎,能夠在複雜環境中,實現高品質的長軌跡即時互動。


論文地址:https://arxiv.org/abs/2408.14837

不僅速度是即時的,它的優秀畫質,也是讓開發者顫抖的地步。

模擬「毀滅戰士」時,它下一幀預測的峰值訊號雜訊比(PSNR)達到了29.4,已經可以和有損JPEG壓縮相媲美。

在神經網路上即時執行階段,視覺質量已經達到了與原始遊戲相當。

模擬片段和遊戲片段如此相似,讓不少人類被試都分不清,眼前的究竟是遊戲還是模擬?


網友感慨:這不是遊戲,這是人生模擬器。


小島秀夫的另一個預言,成真了。


3A電視劇是不是也來了?想像下,按照自己的喜好生成一版《權游》。


想像下,1000年後或一百萬年後,這項技術是什麼樣?我們是模擬的機率,已經無限接近於1了。



從此,遊戲開發不再需要遊戲引擎?

AI首次完全模擬具有高品質圖形和複雜互動的複雜視訊遊戲,就做到了這個地步,實在是太令人驚嘆了。

作為最受歡迎、最具傳奇色彩的第一人稱射擊遊戲,自1993年發佈以來,「毀滅戰士」一直是個技術標竿。

它被移植到一系列超乎想像的平台上,包括微波爐、數位相機、洗衣機、保時捷等等。


而這次,GameNGen把這些早期改編一舉超越了。

從前,傳統的遊戲引擎依賴的是精心編碼的軟體,來管理遊戲狀態和渲染視覺效果。

而GameNGen,只用AI驅動的生成擴散模型,就能自動模擬整個遊戲環境了。

從視訊中可以看出,神經網路復現遊戲標誌性視覺效果的能力簡直是一絕,AI即時生成複雜互動環境的潛力非常驚人

「毀滅戰士」一直以複雜的3D環境和快節奏的動作聞名,現在,所有這些都不需要遊戲引擎的常用元件了!

AI引擎的意義,不僅僅是減少遊戲的開發時間和成本。

這種技術,可以使遊戲創作徹底民主化,無論是小型工作室,還是個人創作者,都能創造出從前難以想像的複雜互動體驗。

此外,AI遊戲引擎,還給全新的遊戲類型打開了大門。

無論是環境、敘事,還是遊戲機制,都可以根據玩家的行為動態來發展。

從此,遊戲格局可能會被整個重塑,行業會從熱門遊戲為中心的模式,轉向更多樣化的生態系統。

順便一提,「DOOM」的大小只有12MB。



大佬們「瘋了」

AI初創HyperWrite的CEO Matt Schumer表示,這簡直太瘋狂了!使用者玩遊戲時,一個模型正在即時生成遊戲。

如果將大多數AI模型的進展/軌跡對應到這上面,那麼在幾年內,我們將會得到3A級生成遊戲。


輝達高級科學家Jim Fan感慨道,被駭客們在各種地方瘋狂運行的DOOM,竟然在純粹的擴散模型中實現了,每個像素都是生成的。


連Sora跟它比起來,都黯然失色。我們只能設定初始條件(一個文字或初始幀),然後只能被動觀看模擬過程。

因為Sora無法進行互動,因此還不算是一個「資料驅動的物理引擎」。

而GameNGen是一個真正的神經世界模型。它將過去的幀(狀態)和使用者的一個動作(鍵盤/滑鼠)作為輸入,並輸出下一幀。這種質量,是他見過的最令人印象深刻的DOOM。

隨後,他深度探討了一些GameNGen中存在的限制。

比如在單個遊戲上過擬合到了極致;無法想像新的場景,無法合成新的遊戲或互動機制;資料集的瓶頸,導致了方法無法推廣;無法實現用提示詞創造可玩世界,或用世界模型訓練更好的具身AI,等等。


一個真正有用的神經世界模型,應該是什麼樣子?

馬斯克的回答是:「特斯拉可以用真實世界的視訊做類似的事情」。

的確,資料是難點。

Autopilot團隊可能擁有數兆的資料對(攝影機視訊,方向盤動作)。

有了如此豐富的真實世界資料,完全有可能訓練一個涵蓋各種極端情況的通用駕駛模擬器,並使用它來部署和驗證新的完全自動駕駛(FSD)版本,而不需要實體車輛。


最後Jim Fan總結道:不管怎麼說,GameNGen仍是一個非常出色的概念驗證——至少我們現在知道,9億幀是將高解析度DOOM壓縮到神經網路中的上限。

網友們感慨:擴散網路學習物理引擎和遊戲規則的方式,太瘋狂了。



核心作者:個人里程碑

GoogleDeepMind核心貢獻者,項目負責人Shlomi Fruchter,在社交媒體上,介紹了自己開發GameNGen的過程。


他表示,「GameNGen是自己開發路上的里程碑」。\


從最初手寫GPU渲染程式碼(顯式),到現在訓練能在GPU上運行的神經網路(隱式),甚至包含了遊戲邏輯,讓我有一種實現了完整「閉環」的感覺。


Fruchter進行的第一個大型編碼項目之一是3D引擎(如下圖所示)。早在2002年,GPU仍只能用於渲染圖形。

還記得,第一款圖形處理器GeForce 256是在1999年發行。

渲染3D圖形恰好需要大量的矩陣運算,這恰恰是GPU所擅長的。

然後Google研究人員編寫高級著色器語言程式碼,計算自訂渲染邏輯並建構新的視覺效果,同時還能保持高影格率。


GameNGen的誕生,是源於一個好奇心:

「我們能否在當前的處理器上,運行一個隱式神經網路,來進行即時互動遊戲」。

對於Fruchter以及團隊成員來說,最終答案是一個令人興奮的發現。

AI大牛Karpathy曾說過,100%純軟體2.0電腦,只有一個神經網路,完全沒有傳統軟體。

裝置輸入(音訊、視訊、觸摸等)直接到神經網路中,其輸出直接作為音訊/視訊在揚聲器/螢幕上顯示,就是這樣。

有網友便問道,那就是它不能運行DOOM了?

對此,Karpathy表示,如果能夠很好提出請求,它可能可以非常接近地模擬DOOM。


而現在,Fruchter更加肯定,它可以運行DOOM了。


另一位Google作者Dani Valevski也轉發了此帖,對此願景表示極度認可。


GameNGen或許標誌著遊戲引擎全新範式的開啟,想像一下,和自動生成的圖像或視訊一樣,遊戲也是自動生成的。

雖然關鍵問題依舊存在,比如如何訓練、如何最大程度利用人類輸入,以及怎樣利用神經遊戲引擎建立全新的遊戲。但作者表示,這種全新範式的可能性讓人興奮。

而且,GameNGen的名字也暗藏彩蛋,可以讀出來試一試——和Game Engine有相似的發音。


Agent採集軌跡,SD預測生成

在手動製作電腦遊戲的時代,工作流程包括(1)收集使用者輸入(2)更新遊戲狀態,以及(3)將更新後的狀態渲染為螢幕像素,計算量取決於影格率。

儘管極客工程師們手中的Doom可以在ipod、相機,甚至微波爐、跑步機等各種硬體上運行,但其原理依舊是原樣模擬模擬手動編寫的遊戲軟體。

看起來截然不同的遊戲引擎,也遵循著相同的底層邏輯——工程師們手動程式設計,指定遊戲狀態的更新規則和渲染邏輯。

如果和擴散模型的即時視訊生成放在一起,乍一看好像沒什麼區別。然而,正如Jim Fan指出的互動式世界模擬不僅僅是非常快速的視訊生成。

其一,生成過程需要以使用者的輸入動作流為條件,這打破了現有擴散模型架構的一些假設。

其二,模型需要自回歸生成幀,這往往會導致採樣發散、模型不穩定等問題。


Agent資料收集


由於無法直接對遊戲資料進行大規模採樣,因此首先教會一個agent玩遊戲,在各種場景中生成類似於人類且足夠多樣化的訓練資料。

agent模型使用深度強化學習方法進行PPO訓練,以簡單的CNN作為特徵網路,共生成900M幀的𝒯_a⁢g⁢e⁢n⁢t資料集,包括agent的動作以及對環境的觀察,用於後續的訓練 、推理和微調。


訓練生成模型


GameNGen使用的Stable Diffusion 1.4是文生圖擴散模型,其中最重要的架構修改就是,讓以文字為條件的模型適應資料集中的動作資料a_{<n}和對先前幀的觀察結果o_{<n}。

具體來說,首先訓練一個嵌入模組A_e⁢m⁢b,將agent的每個動作(例如特定的按鍵)轉換為單個token,並將交叉注意力中的文字取代為編碼後的動作序列。

為了能接受o_{<n}作為條件,同樣使用自動編碼器ϕ將其編碼到潛在空間中(即x_t),同時在潛在的通道維度上與噪聲隱變數ε_α拼接在一起。

實驗中也嘗試過用交叉注意力處理o_{<n}輸入,但並沒有明顯改進。

相比原來的Stable Diffusion,GameNGen對最佳化方法也做了改進,使用velocity parameterization方法最小化擴散損失。



GameNGen方法概述(省略v-prediction細節)

噪聲增強減輕自回歸漂移


從原Stable Diffusion的教師強制訓練轉換為遊戲引擎中的自回歸採樣,會不可避免地導致錯誤累積和樣本質量快速下降。

為了避免這個問題,訓練生成模型時會在編碼過的上下文幀中新增不同數量的高斯噪聲,同時將噪聲水平作為模型的輸入,從而讓降噪網路可以糾正先前幀中採樣的資訊。

這些操作對於隨著時間推移時保證幀質量至關重要。在推理過程中,也可以控制新增的噪聲水平以最大限度地提高生成質量。


自回歸漂移:上圖中, 20-30個步驟後,生成質量會快速下降;而下圖中,具有噪聲增強的相同軌跡不會出現質量下降

推理


模型在推理時使用DDIM採樣方法。之所以能達到20FPS的即時生成效率,與GameNGen推理期極高的採樣效率直接相關。

通常,生成擴散模型(例如Stable Diffusion)無法只用單個去噪步驟產生高品質結果,而是需要數十個採樣步驟。

但令人驚訝的是,GameNGen只需4個DDIM採樣步驟就能穩健地模擬 DOOM,而且相比使用20個或更多採樣步驟時,質量並沒有明顯下降。

作者推測,這可能源於多個因素的共同作用,包括可採樣的圖像空間受限,以及通過先前幀資訊施加了較強的條件限制。

僅使用4個降噪步驟讓U-Net的推理成本降低至40ms,加上自動編碼器,總推理成本為50ms,相當於每秒生成20幀圖像。

實驗還發現,模型蒸餾後進行單步採樣能夠進一步提高影格率,達到50FPS,但會以犧牲模擬質量為代價,因此最後還是選用了20FPS的採樣方案。


AI遊戲生成太逼真,60%片段玩家沒認出

模擬質量


總的來說,就影像品質而言,GameNGen在長時間軌跡上預測,達到了與原始遊戲相當的模擬質量。

對於短時間軌跡,人評估者在模擬片段和真實遊戲畫面中,進行區分時,比隨機猜測略強一些。

這意味著什麼?

AI生成的遊戲畫面,太過逼真沉浸,讓人類玩家有時根本無法辨別。


影像品質

這裡,評估中採用了LPIPS和PSNR作為評估指標。這是在強制教學設定下進行測量,即基於真實過去觀察預測單個幀。

對5個不同關卡中,隨機抽取的2048個軌跡進行評估時,GameNGen達到了29.43的PSNR和0.249的LPIPS。

下圖5展示了,模型預測和相應的真實樣本示例。


視訊質量

針對視訊質量,研究人員使用了自回歸設定,即模型基於自己的過去預測來生成後續幀。

不過,預測和真實軌跡在幾步後會發生偏離,主要是由於幀間移動速度的微小差異累積。

如下圖6所示,隨著時間推移,每幀的PSNR值下降,LPIPS值上升。


預測軌跡在內容和影像品質方面,仍與實際遊戲相似,但逐幀指標在捕捉這一點上,能力有限。

因此,研究團隊測量了在512個隨機保留軌跡上,計算的FVD(用於測量預測和真實軌跡分佈之間的距離)。

這裡,分別對16幀(0.8秒)和32幀(1.6秒)兩種模擬長度,進行了測試。

最終,得到的FVD分別是114.02,以及186.23。

人工評估

為了得到更真實的評估,研究者向10名人類評分者,提供了130個隨機短片段(長度為1.6秒和3.2秒)。

並且,將GameNGen模擬的遊戲和真實遊戲並排對比,如下所示。


評估者的任務,便是識別其中,那一個是真實遊戲。

結果發現,針對1.6秒生成遊戲的片段,在58%情況下,他們認為GameNGen生成遊戲是真實的。

而對於3.2秒片段,這一比率更高,達到了60%。

消融實驗

接下來,研究者評估了架構中,不同元件的重要性,從評估資料集中採樣軌跡,並計算地面真值與預測幀之間的LPIPS和PSNR指標。

上下文

通過訓練N∈{1, 2, 4, 8, 16, 32, 64}模型,測試上下文中過去觀察數量N的影響。(標準模型使用了N=64)。

這影響了歷史幀和動作的數量。

保持解碼器凍結情況下,訓練模型200,000步,並在5個關卡的測試集軌跡上進行評估。

結果如下表1所示,如預期一樣,研究者觀察到GameNGen生成質量,隨著上下文增加,而提升。

更有趣的是,在1幀和2幀之間,這一改進非常大,但往後開始很快接近了閾值線,改進質量逐漸放緩。

即便用上了最大上下文(64幀),GameNGen模型也僅能訪問,略超過3秒的歷史資訊。

另一個發現是,大部分遊戲狀態可能會持續更長時間。


表1結果很好地說明了,未來可能需要改變模型架構,來支援更長的上下文。同時,探索更好的方法,採用過去幀作為條件。

噪聲增強

為了消除噪聲增強的影響,研究人員還訓練了一個沒有新增噪聲的模型。

通過對比評估,經過噪聲增強的標準模型和沒有新增噪聲的模型(在200k訓練步驟後),以自回歸方式計算預測幀與真實幀之間的PSNR和LPIPS指標。

如下圖7所示,呈現了每個自回歸步驟的平均指標值,總共達64幀。

這些評估是在隨機保留的512條軌跡上進行的。


結果顯示,沒有噪聲增強時,與真實值的LPIPS距離,比起研究標準噪聲增強模型增加得更快,而PSNR下降,表明模擬與真實值的偏離。

智能體

最後,研究人員將智能體生成的資料訓練,與使用隨機策略生成的資料訓練,進行了比較。

這裡,通過訓練兩個模型,以及解碼器,每個模型訓練700k步。

它們在一個由5個關卡組成的2048條人類遊戲軌跡的資料集上,進行評估。

而且,研究人員比較了在64幀真實歷史上下文條件下,生成的第一幀,以及經過3秒自回歸生成後的幀。


總得來說,研究觀察到,在隨機軌跡上訓練模型效果出乎意料地好,但受限於隨機策略的探索能力。

而在比較單幀生成時,智能體僅略勝一籌,達到25.06 PNSR,而隨機策略為24.42。

而在比較3秒情況下,差異增加到19.02 Vs 16.84。

在手動操作模型時,他們還觀察到,某些區域對兩者都非常容易,某些區域對兩者都非常困難,而在某些區域智能體表現更好。

因此,作者根據其在遊戲中與起始位置的距離,將456個示例手動分為三個等級:簡單、中等和困難。

如下表2所示,結果觀察到,在簡單和困難集合中,智能體僅略優於隨機,而在中等集合中,智能體的優勢如預期般更大。




0程式碼生成遊戲,老黃預言成真

今天,視訊遊戲,是由人類程式設計的。

GameNGen的誕生,開啟了即時互動視訊遊戲的全新範式。

在這一範式中,遊戲是神經模型的「權重」,而非程式碼行。

如今看來,老黃的預言近在眼前。


每個像素很快都將會是生成的,並非是渲染的。

在今年GTC大會的記者會上,Bilawal Sidhu就老黃的話,提出了一個後續問題:「我們距每個像素都是以即時幀速率生成的世界還有多遠」?

老黃表示,我們還需要5-8年的時間,並且現已看到了跨越創新S曲線的跡象。


它表明,當前存在一種架構和模型權重,可以讓神經網路能夠在現有GPU上,有效互動運行複雜遊戲DOOM。

不過,GameNGen仍有許多重要的問題存在,這也是Google開發者接下來繼續攻克的問題。

Shlomi Fruchter帶領團隊開闢了遊戲製作的另一片天地,並希望這個範式能為前路指明方向。

在這種新範式下,能夠直接拉低視訊遊戲的開發成本,並讓更多人得到訪問。

僅需一句話,或者是一個示例圖像,未來可任何一個開發者,皆可以對遊戲進行開發和編輯。

另外,為現有遊戲建立/修改行為,可能在短期就能實現了。


比如,我們可以將一組幀,轉化為一個全新可玩的關卡,或者僅基於示例圖像建立一個新角色,無需編寫程式碼。

新範式的好處,或許還能保持足夠優秀的影格率,和極少的記憶體佔用。

正如論文作者所述,他們希望這小小一步的嘗試,能夠對人們遊戲體驗,甚至更廣泛地對日常互動軟體系統的互動,帶來有極大價值的改善。


從遊戲到自動駕駛汽車,令人興奮的可能性

更令人興奮的是,GameNGen的潛在應用,遠遠超出了遊戲領域!

無論是虛擬現實、自動駕駛汽車還是智能城市行業,都可能因此而變革。

因為在這些行業中,即時模擬對於培訓、測試和營運管理都至關重要。

比如在自動駕駛汽車中,需要能夠模擬無數的駕駛場景,以安全地在複雜的環境中行駛。


而GameNGen這類AI驅動引擎,恰恰可以通過高保真度和即時處理來執行這項任務。

在VR和AR領域,AI引擎可以建立完全沉浸式的互動式世界,還能即時適應使用者輸入。

這種互動式模擬產生的巨大吸引力,可能會徹底改變教育、醫療保健和遠端工作等行業!

當然,GameNGen也存在一些挑戰。

雖然它可以以互動速度運行《毀滅戰士》,但圖形密集程度更高的遊戲,可能會需要更大的算力。


另外,它是針對特定遊戲量身定製的,因此要開發能運行多個遊戲的通用AI遊戲引擎,挑戰仍然艱巨。

但現在,我們儼然已至未來的風口浪尖,從此,我們最喜歡的遊戲不是從程式碼行中誕生,而是從機器的無限創造力中誕生。

從此,人類創造力和機器智能之間的界限會越來越模糊。

通過GameNGen,Google研究人員讓我們對未來有了令人興奮的一瞥——

在這個世界中,阻礙我們虛擬體驗的唯一限制,就是AI的想像力。(新智元)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題