【新智元導讀】炸裂!世界上首個完全由AI驅動的遊戲引擎來了。Google研究者訓練的GameNGen,能以每秒20幀即時生成DOOM的遊戲畫面,畫面如此逼真,60%的片段都沒讓玩家認出是AI!全球2000億美元的遊戲行業,從此將被改變。
世界上第一個完全由神經模型驅動的遊戲引擎,剛剛誕生了!
「黑神話:悟空」的熱度正旺,AI又在遊戲中創造了全新的里程碑。
史上首次,AI能在沒有遊戲引擎的情況下,為玩家生成即時遊戲了。
從此,我們開始進入一個炸裂的新時代:遊戲不僅能被AI玩,還能由AI來創造和驅動。
Google的GameNGen,可以在單個TPU上,讓AI以每秒20幀的速度,生成即時可玩的遊戲。每一幀,都是由擴散模型預測的。
幾年後,AI即時生成3A遊戲大作的願望還會遠嗎?
從此,開發者不必再手動程式設計遊戲邏輯,開發時間和成本都會顯著降低。
價值2000億美元的全球遊戲產業,可能會被徹底顛覆!
Google研究者表示,GameNGen是第一個完全由神經模型驅動的遊戲引擎,能夠在複雜環境中,實現高品質的長軌跡即時互動。
論文地址:https://arxiv.org/abs/2408.14837
不僅速度是即時的,它的優秀畫質,也是讓開發者顫抖的地步。
模擬「毀滅戰士」時,它下一幀預測的峰值訊號雜訊比(PSNR)達到了29.4,已經可以和有損JPEG壓縮相媲美。
在神經網路上即時執行階段,視覺質量已經達到了與原始遊戲相當。
模擬片段和遊戲片段如此相似,讓不少人類被試都分不清,眼前的究竟是遊戲還是模擬?
網友感慨:這不是遊戲,這是人生模擬器。
小島秀夫的另一個預言,成真了。
3A電視劇是不是也來了?想像下,按照自己的喜好生成一版《權游》。
想像下,1000年後或一百萬年後,這項技術是什麼樣?我們是模擬的機率,已經無限接近於1了。
作為最受歡迎、最具傳奇色彩的第一人稱射擊遊戲,自1993年發佈以來,「毀滅戰士」一直是個技術標竿。
它被移植到一系列超乎想像的平台上,包括微波爐、數位相機、洗衣機、保時捷等等。
而這次,GameNGen把這些早期改編一舉超越了。
從前,傳統的遊戲引擎依賴的是精心編碼的軟體,來管理遊戲狀態和渲染視覺效果。
而GameNGen,只用AI驅動的生成擴散模型,就能自動模擬整個遊戲環境了。
從視訊中可以看出,神經網路復現遊戲標誌性視覺效果的能力簡直是一絕,AI即時生成複雜互動環境的潛力非常驚人
「毀滅戰士」一直以複雜的3D環境和快節奏的動作聞名,現在,所有這些都不需要遊戲引擎的常用元件了!
AI引擎的意義,不僅僅是減少遊戲的開發時間和成本。
這種技術,可以使遊戲創作徹底民主化,無論是小型工作室,還是個人創作者,都能創造出從前難以想像的複雜互動體驗。
此外,AI遊戲引擎,還給全新的遊戲類型打開了大門。
無論是環境、敘事,還是遊戲機制,都可以根據玩家的行為動態來發展。
從此,遊戲格局可能會被整個重塑,行業會從熱門遊戲為中心的模式,轉向更多樣化的生態系統。
順便一提,「DOOM」的大小只有12MB。
如果將大多數AI模型的進展/軌跡對應到這上面,那麼在幾年內,我們將會得到3A級生成遊戲。
輝達高級科學家Jim Fan感慨道,被駭客們在各種地方瘋狂運行的DOOM,竟然在純粹的擴散模型中實現了,每個像素都是生成的。
連Sora跟它比起來,都黯然失色。我們只能設定初始條件(一個文字或初始幀),然後只能被動觀看模擬過程。
因為Sora無法進行互動,因此還不算是一個「資料驅動的物理引擎」。
而GameNGen是一個真正的神經世界模型。它將過去的幀(狀態)和使用者的一個動作(鍵盤/滑鼠)作為輸入,並輸出下一幀。這種質量,是他見過的最令人印象深刻的DOOM。
隨後,他深度探討了一些GameNGen中存在的限制。
比如在單個遊戲上過擬合到了極致;無法想像新的場景,無法合成新的遊戲或互動機制;資料集的瓶頸,導致了方法無法推廣;無法實現用提示詞創造可玩世界,或用世界模型訓練更好的具身AI,等等。
一個真正有用的神經世界模型,應該是什麼樣子?
馬斯克的回答是:「特斯拉可以用真實世界的視訊做類似的事情」。
的確,資料是難點。
Autopilot團隊可能擁有數兆的資料對(攝影機視訊,方向盤動作)。
有了如此豐富的真實世界資料,完全有可能訓練一個涵蓋各種極端情況的通用駕駛模擬器,並使用它來部署和驗證新的完全自動駕駛(FSD)版本,而不需要實體車輛。
最後Jim Fan總結道:不管怎麼說,GameNGen仍是一個非常出色的概念驗證——至少我們現在知道,9億幀是將高解析度DOOM壓縮到神經網路中的上限。
網友們感慨:擴散網路學習物理引擎和遊戲規則的方式,太瘋狂了。
GoogleDeepMind核心貢獻者,項目負責人Shlomi Fruchter,在社交媒體上,介紹了自己開發GameNGen的過程。
他表示,「GameNGen是自己開發路上的里程碑」。\
從最初手寫GPU渲染程式碼(顯式),到現在訓練能在GPU上運行的神經網路(隱式),甚至包含了遊戲邏輯,讓我有一種實現了完整「閉環」的感覺。
Fruchter進行的第一個大型編碼項目之一是3D引擎(如下圖所示)。早在2002年,GPU仍只能用於渲染圖形。
還記得,第一款圖形處理器GeForce 256是在1999年發行。
渲染3D圖形恰好需要大量的矩陣運算,這恰恰是GPU所擅長的。
然後Google研究人員編寫高級著色器語言程式碼,計算自訂渲染邏輯並建構新的視覺效果,同時還能保持高影格率。
GameNGen的誕生,是源於一個好奇心:
「我們能否在當前的處理器上,運行一個隱式神經網路,來進行即時互動遊戲」。
對於Fruchter以及團隊成員來說,最終答案是一個令人興奮的發現。
AI大牛Karpathy曾說過,100%純軟體2.0電腦,只有一個神經網路,完全沒有傳統軟體。
裝置輸入(音訊、視訊、觸摸等)直接到神經網路中,其輸出直接作為音訊/視訊在揚聲器/螢幕上顯示,就是這樣。
有網友便問道,那就是它不能運行DOOM了?
對此,Karpathy表示,如果能夠很好提出請求,它可能可以非常接近地模擬DOOM。
而現在,Fruchter更加肯定,它可以運行DOOM了。
另一位Google作者Dani Valevski也轉發了此帖,對此願景表示極度認可。
GameNGen或許標誌著遊戲引擎全新範式的開啟,想像一下,和自動生成的圖像或視訊一樣,遊戲也是自動生成的。
雖然關鍵問題依舊存在,比如如何訓練、如何最大程度利用人類輸入,以及怎樣利用神經遊戲引擎建立全新的遊戲。但作者表示,這種全新範式的可能性讓人興奮。
而且,GameNGen的名字也暗藏彩蛋,可以讀出來試一試——和Game Engine有相似的發音。
儘管極客工程師們手中的Doom可以在ipod、相機,甚至微波爐、跑步機等各種硬體上運行,但其原理依舊是原樣模擬模擬手動編寫的遊戲軟體。
看起來截然不同的遊戲引擎,也遵循著相同的底層邏輯——工程師們手動程式設計,指定遊戲狀態的更新規則和渲染邏輯。
如果和擴散模型的即時視訊生成放在一起,乍一看好像沒什麼區別。然而,正如Jim Fan指出的互動式世界模擬不僅僅是非常快速的視訊生成。
其一,生成過程需要以使用者的輸入動作流為條件,這打破了現有擴散模型架構的一些假設。
其二,模型需要自回歸生成幀,這往往會導致採樣發散、模型不穩定等問題。
由於無法直接對遊戲資料進行大規模採樣,因此首先教會一個agent玩遊戲,在各種場景中生成類似於人類且足夠多樣化的訓練資料。
agent模型使用深度強化學習方法進行PPO訓練,以簡單的CNN作為特徵網路,共生成900M幀的𝒯_agent資料集,包括agent的動作以及對環境的觀察,用於後續的訓練 、推理和微調。
GameNGen使用的Stable Diffusion 1.4是文生圖擴散模型,其中最重要的架構修改就是,讓以文字為條件的模型適應資料集中的動作資料a_{<n}和對先前幀的觀察結果o_{<n}。
具體來說,首先訓練一個嵌入模組A_emb,將agent的每個動作(例如特定的按鍵)轉換為單個token,並將交叉注意力中的文字取代為編碼後的動作序列。
為了能接受o_{<n}作為條件,同樣使用自動編碼器ϕ將其編碼到潛在空間中(即x_t),同時在潛在的通道維度上與噪聲隱變數ε_α拼接在一起。
實驗中也嘗試過用交叉注意力處理o_{<n}輸入,但並沒有明顯改進。
相比原來的Stable Diffusion,GameNGen對最佳化方法也做了改進,使用velocity parameterization方法最小化擴散損失。
GameNGen方法概述(省略v-prediction細節)
從原Stable Diffusion的教師強制訓練轉換為遊戲引擎中的自回歸採樣,會不可避免地導致錯誤累積和樣本質量快速下降。
為了避免這個問題,訓練生成模型時會在編碼過的上下文幀中新增不同數量的高斯噪聲,同時將噪聲水平作為模型的輸入,從而讓降噪網路可以糾正先前幀中採樣的資訊。
這些操作對於隨著時間推移時保證幀質量至關重要。在推理過程中,也可以控制新增的噪聲水平以最大限度地提高生成質量。
自回歸漂移:上圖中, 20-30個步驟後,生成質量會快速下降;而下圖中,具有噪聲增強的相同軌跡不會出現質量下降
模型在推理時使用DDIM採樣方法。之所以能達到20FPS的即時生成效率,與GameNGen推理期極高的採樣效率直接相關。
通常,生成擴散模型(例如Stable Diffusion)無法只用單個去噪步驟產生高品質結果,而是需要數十個採樣步驟。
但令人驚訝的是,GameNGen只需4個DDIM採樣步驟就能穩健地模擬 DOOM,而且相比使用20個或更多採樣步驟時,質量並沒有明顯下降。
作者推測,這可能源於多個因素的共同作用,包括可採樣的圖像空間受限,以及通過先前幀資訊施加了較強的條件限制。
僅使用4個降噪步驟讓U-Net的推理成本降低至40ms,加上自動編碼器,總推理成本為50ms,相當於每秒生成20幀圖像。
實驗還發現,模型蒸餾後進行單步採樣能夠進一步提高影格率,達到50FPS,但會以犧牲模擬質量為代價,因此最後還是選用了20FPS的採樣方案。
AI遊戲生成太逼真,60%片段玩家沒認出
總的來說,就影像品質而言,GameNGen在長時間軌跡上預測,達到了與原始遊戲相當的模擬質量。
對於短時間軌跡,人評估者在模擬片段和真實遊戲畫面中,進行區分時,比隨機猜測略強一些。
這意味著什麼?
AI生成的遊戲畫面,太過逼真沉浸,讓人類玩家有時根本無法辨別。
影像品質
這裡,評估中採用了LPIPS和PSNR作為評估指標。這是在強制教學設定下進行測量,即基於真實過去觀察預測單個幀。
對5個不同關卡中,隨機抽取的2048個軌跡進行評估時,GameNGen達到了29.43的PSNR和0.249的LPIPS。
下圖5展示了,模型預測和相應的真實樣本示例。
視訊質量
針對視訊質量,研究人員使用了自回歸設定,即模型基於自己的過去預測來生成後續幀。
不過,預測和真實軌跡在幾步後會發生偏離,主要是由於幀間移動速度的微小差異累積。
如下圖6所示,隨著時間推移,每幀的PSNR值下降,LPIPS值上升。
預測軌跡在內容和影像品質方面,仍與實際遊戲相似,但逐幀指標在捕捉這一點上,能力有限。
因此,研究團隊測量了在512個隨機保留軌跡上,計算的FVD(用於測量預測和真實軌跡分佈之間的距離)。
這裡,分別對16幀(0.8秒)和32幀(1.6秒)兩種模擬長度,進行了測試。
最終,得到的FVD分別是114.02,以及186.23。
人工評估
為了得到更真實的評估,研究者向10名人類評分者,提供了130個隨機短片段(長度為1.6秒和3.2秒)。
並且,將GameNGen模擬的遊戲和真實遊戲並排對比,如下所示。
評估者的任務,便是識別其中,那一個是真實遊戲。
結果發現,針對1.6秒生成遊戲的片段,在58%情況下,他們認為GameNGen生成遊戲是真實的。
而對於3.2秒片段,這一比率更高,達到了60%。
接下來,研究者評估了架構中,不同元件的重要性,從評估資料集中採樣軌跡,並計算地面真值與預測幀之間的LPIPS和PSNR指標。
上下文
通過訓練N∈{1, 2, 4, 8, 16, 32, 64}模型,測試上下文中過去觀察數量N的影響。(標準模型使用了N=64)。
這影響了歷史幀和動作的數量。
保持解碼器凍結情況下,訓練模型200,000步,並在5個關卡的測試集軌跡上進行評估。
結果如下表1所示,如預期一樣,研究者觀察到GameNGen生成質量,隨著上下文增加,而提升。
更有趣的是,在1幀和2幀之間,這一改進非常大,但往後開始很快接近了閾值線,改進質量逐漸放緩。
即便用上了最大上下文(64幀),GameNGen模型也僅能訪問,略超過3秒的歷史資訊。
另一個發現是,大部分遊戲狀態可能會持續更長時間。
表1結果很好地說明了,未來可能需要改變模型架構,來支援更長的上下文。同時,探索更好的方法,採用過去幀作為條件。
噪聲增強
為了消除噪聲增強的影響,研究人員還訓練了一個沒有新增噪聲的模型。
通過對比評估,經過噪聲增強的標準模型和沒有新增噪聲的模型(在200k訓練步驟後),以自回歸方式計算預測幀與真實幀之間的PSNR和LPIPS指標。
如下圖7所示,呈現了每個自回歸步驟的平均指標值,總共達64幀。
這些評估是在隨機保留的512條軌跡上進行的。
結果顯示,沒有噪聲增強時,與真實值的LPIPS距離,比起研究標準噪聲增強模型增加得更快,而PSNR下降,表明模擬與真實值的偏離。
智能體
最後,研究人員將智能體生成的資料訓練,與使用隨機策略生成的資料訓練,進行了比較。
這裡,通過訓練兩個模型,以及解碼器,每個模型訓練700k步。
它們在一個由5個關卡組成的2048條人類遊戲軌跡的資料集上,進行評估。
而且,研究人員比較了在64幀真實歷史上下文條件下,生成的第一幀,以及經過3秒自回歸生成後的幀。
總得來說,研究觀察到,在隨機軌跡上訓練模型效果出乎意料地好,但受限於隨機策略的探索能力。
而在比較單幀生成時,智能體僅略勝一籌,達到25.06 PNSR,而隨機策略為24.42。
而在比較3秒情況下,差異增加到19.02 Vs 16.84。
在手動操作模型時,他們還觀察到,某些區域對兩者都非常容易,某些區域對兩者都非常困難,而在某些區域智能體表現更好。
因此,作者根據其在遊戲中與起始位置的距離,將456個示例手動分為三個等級:簡單、中等和困難。
如下表2所示,結果觀察到,在簡單和困難集合中,智能體僅略優於隨機,而在中等集合中,智能體的優勢如預期般更大。
0程式碼生成遊戲,老黃預言成真
今天,視訊遊戲,是由人類程式設計的。
GameNGen的誕生,開啟了即時互動視訊遊戲的全新範式。
在這一範式中,遊戲是神經模型的「權重」,而非程式碼行。
如今看來,老黃的預言近在眼前。
每個像素很快都將會是生成的,並非是渲染的。
在今年GTC大會的記者會上,Bilawal Sidhu就老黃的話,提出了一個後續問題:「我們距每個像素都是以即時幀速率生成的世界還有多遠」?
老黃表示,我們還需要5-8年的時間,並且現已看到了跨越創新S曲線的跡象。
它表明,當前存在一種架構和模型權重,可以讓神經網路能夠在現有GPU上,有效互動運行複雜遊戲DOOM。
不過,GameNGen仍有許多重要的問題存在,這也是Google開發者接下來繼續攻克的問題。
Shlomi Fruchter帶領團隊開闢了遊戲製作的另一片天地,並希望這個範式能為前路指明方向。
在這種新範式下,能夠直接拉低視訊遊戲的開發成本,並讓更多人得到訪問。
僅需一句話,或者是一個示例圖像,未來可任何一個開發者,皆可以對遊戲進行開發和編輯。
另外,為現有遊戲建立/修改行為,可能在短期就能實現了。
比如,我們可以將一組幀,轉化為一個全新可玩的關卡,或者僅基於示例圖像建立一個新角色,無需編寫程式碼。
新範式的好處,或許還能保持足夠優秀的影格率,和極少的記憶體佔用。
正如論文作者所述,他們希望這小小一步的嘗試,能夠對人們遊戲體驗,甚至更廣泛地對日常互動軟體系統的互動,帶來有極大價值的改善。
無論是虛擬現實、自動駕駛汽車還是智能城市行業,都可能因此而變革。
因為在這些行業中,即時模擬對於培訓、測試和營運管理都至關重要。
比如在自動駕駛汽車中,需要能夠模擬無數的駕駛場景,以安全地在複雜的環境中行駛。
而GameNGen這類AI驅動引擎,恰恰可以通過高保真度和即時處理來執行這項任務。
在VR和AR領域,AI引擎可以建立完全沉浸式的互動式世界,還能即時適應使用者輸入。
這種互動式模擬產生的巨大吸引力,可能會徹底改變教育、醫療保健和遠端工作等行業!
當然,GameNGen也存在一些挑戰。
雖然它可以以互動速度運行《毀滅戰士》,但圖形密集程度更高的遊戲,可能會需要更大的算力。
另外,它是針對特定遊戲量身定製的,因此要開發能運行多個遊戲的通用AI遊戲引擎,挑戰仍然艱巨。
但現在,我們儼然已至未來的風口浪尖,從此,我們最喜歡的遊戲不是從程式碼行中誕生,而是從機器的無限創造力中誕生。
從此,人類創造力和機器智能之間的界限會越來越模糊。
通過GameNGen,Google研究人員讓我們對未來有了令人興奮的一瞥——
在這個世界中,阻礙我們虛擬體驗的唯一限制,就是AI的想像力。(新智元)