李飛飛全新「世界模型」問世!單張H100即時生成3D永恆世界

一張圖,一個3D世界!今天,李飛飛團隊重磅放出即時生成世界模型「RTFM」,通過端到端學習大規模視訊資料,直接從輸入2D圖像生成同一場景下新視角的圖像。值得一提的是,它僅需單塊H100 GPU便能即時渲染出持久且3D一致的世界。

就在剛剛,李飛飛World Labs重磅發佈全新即時生成式世界模型——RTFM(Real-Time Frame Model,即時幀模型)!

這是一款效率極高的,在大型視訊資料上進行端到端訓練的自回歸擴散Transformer模型。

僅需一塊H100 GPU,RTFM就能在你與之互動時,即時渲染出持久且3D一致的世界,無論是真實場景還是想像空間。

其獨特之處在於,它不建構世界的顯式三維表徵。相反,它接收一張或多張二維圖像作為輸入,然後直接從不同視點生成同一場景的全新二維圖像。

簡單來說,你可以將它看作一個「學會了渲染的AI」。

僅僅通過觀察訓練集中的視訊,RTFM便學會了對三維幾何、反射、陰影等複雜物理現象進行建模;而且,還能利用少量稀疏拍攝的照片,重建出真實世界的具體地點。

請注意,接下來你看到的這些不是真實視訊,它們完全是由RTFM即時生成的畫面。

RTFM的設計圍繞三大核心原則:

高效性:僅需單塊H100 GPU,RTFM便能以互動式影格率運行即時推理。可擴展性:RTFM的設計使其能隨著資料和算力的增加而擴展。它在建模3D世界時不依賴於顯式的3D表示,並採用一種通用的端到端架構,從大規模視訊資料中學習。持久性:可以與RTFM進行無休止的互動,而這個世界將永不消逝。它所模擬的是一個持久的3D世界,不會在您移開視線時消失。

RTFM可渲染由單張圖像生成的3D場景。同一個模型能處理多樣的場景類型、視覺風格和效果,包括反射、光滑表面、陰影和鏡頭光暈

有網友戲言,「我們的世界或許是在單個H100上運行的」。

前Google高級工程師表示,RTFM最新成果真正解決了,長期困擾世界模型可擴展性的問題。

現在,RTFM正式開放,任何人皆可試玩。

傳送門:https://rtfm.worldlabs.ai/

世界模型:算力吞噬者

我們憧憬著這樣一個未來:強大的世界模型能夠即時地重建、生成並模擬一個持久、可互動且遵循物理規律的世界。這類模型將徹底改變從傳媒到機器人等眾多行業。

過去一年,隨著生成式視訊建模的進步被應用於生成式世界建模,這項新興技術的發展令人振奮。

隨著技術的發展,有一點日益清晰:生成式世界模型的算力需求將極其龐大,遠超當今的大語言模型。

如果我們簡單地將現有視訊架構應用於此,要以60fps的影格率生成一個互動式的4K視訊流,每秒需要生成超過10萬個token(大約相當於《弗蘭肯斯坦》或第一本《哈利·波特》的長度)。

而要在一小時或更長的互動中維持這些內容的持久性,則需要處理超過1億token的上下文窗口。

以當今的計算基礎設施而言,這既不可行,也不具備經濟效益。

團隊堅信「苦澀的教訓」(The Bitter Lesson):在AI領域,那些能隨著算力增長而平滑擴展的簡單方法往往會佔據主導地位,因為它們能受益於數十年來驅動所有技術進步的、呈指數級下降的計算成本。

生成式世界模型恰好能從未來算力成本持續降低的趨勢中獲得巨大優勢。

這自然引出一個問題:生成式世界模型是否會受限於當今的硬體瓶頸?或者說,我們是否有辦法在今天就一窺這項技術的未來?

高效性:將未來提前帶到眼前

對此,李飛飛團隊設定了一個簡單的目標:設計一個足夠高效、可在當前部署,並能隨算力增長而持續擴展的生成式世界模型。

而更為宏大的目標是:建構一個能在單塊H100 GPU上部署的模型,既要保持互動式影格率,又要確保世界無論互動多久都能持久存在。

實現這些,將讓我們得以將未來願景呈現在當下,通過今天的體驗一窺這類模型在未來的巨大潛力。

而這一目標,也影響了從任務設定到模型架構的整個系統設計。

為此,團隊精細最佳化了推理堆疊的每一個環節,應用了架構設計、模型蒸餾和推理最佳化等領域的最新進展,力求在今天的硬體上,以最高保真度預覽未來模型的樣貌。

可擴展性:將世界模型視為「學習型渲染器」

傳統的3D圖形管線使用顯式的3D表徵(如三角網格、高斯濺射)來對世界進行建模,再通過渲染生成2D圖像。它們依賴於人工設計的演算法和資料結構來模擬3D幾何、材質、光照、陰影、反射等效果。

這些方法作為電腦圖形學領域數十年來可靠的支柱,卻難以隨資料和算力的增長而輕鬆擴展。

相比之下,RTFM則另闢蹊徑。

它基於生成式視訊建模的最新進展,訓練一個單一的神經網路。該網路僅需輸入場景的一張或多張2D圖像,便能從新的視角生成該場景的2D圖像,而無需建構任何顯式的3D世界表示。

RTFM的實現是一個在幀序列上運行的自回歸擴散Transformer。它通過對大規模視訊資料進行端到端訓練,學會在給定前序幀的條件下預測下一幀。

RTFM可被視為一個「學習型渲染器」——

  • 輸入的幀被轉換為神經網路的啟動值(即KV快取),從而隱式地表徵了整個世界;
  • 生成新幀時,網路通過注意力機制從這一表徵中讀取資訊,從而建立出與輸入檢視一致的世界新檢視。

從輸入檢視到世界表徵的轉換,再到從表徵渲染新幀的整個機制,均通過資料進行端到端學習,而非人工設計。

RTFM僅通過在訓練中觀察,便學會了模擬反射、陰影等複雜效果。

可以通過將RTFM與Marble相結合,由單張圖像建立3D世界。RTFM能夠渲染光照和反射等複雜效果,這些都是端到端地從資料中學習得到的

RTFM打破了重建(在現有檢視之間進行插值)與生成(創造輸入檢視中未見的新內容)之間的界限,而在電腦視覺領域,這兩者歷來被視為獨立問題。

當為RTFM提供大量輸入檢視時,由於任務約束更強,它更傾向於重建;而當輸入檢視較少時,它則必須進行外推和想像。

可以使用RTFM從短影片中渲染真實世界的場景

持久性:以帶位姿的幀作為空間記憶

真實世界的一個關鍵屬性是持久性:當你移開視線時,世界不會消失或徹底改變;無論你離開多久,總能回到曾經到過的地方。

這對於自回歸幀模型而言一直是個挑戰。

由於世界僅通過2D圖像幀被隱式表徵,要實現持久性,模型就必須在使用者探索世界時,對一個不斷增長的幀集合進行推理。這意味著生成每個新幀的成本都比前一個更高,因此模型對世界的記憶實際上受限於其算力預算。

RTFM通過為每個幀建模一個在 3D 空間中的位姿(位置和方向)來規避此問題。

團隊通過向模型查詢待生成幀的位姿來生成新幀。這樣,模型對世界的記憶(包含在其幀中)便具有了空間結構;它使用帶位姿的幀作為一種空間記憶。

這為模型賦予了一個弱先驗——即它所建模的世界是一個三維歐幾里得空間——而無需強迫它明確預測該世界中物體的3D幾何形狀。

RTFM配合「上下文調度」技術,使其能在大型場景中保持幾何形狀的持久性,同時維持高效

RTFM的空間記憶實現了無限的持久性。

在生成新幀時,會通過從帶位姿幀的空間記憶中檢索附近的幀,為模型形成一個自訂的上下文。

團隊將這種技術稱為「上下文調度」(context juggling):模型在空間的不同區域生成內容時,會使用不同的上下文幀。

這使得RTFM能夠在長時間的互動中保持大型世界的持久性,而無需對一個不斷增長的幀集合進行推理。

展望未來

RTFM將未來提前帶到眼前,讓我們看到了未來世界模型在當今硬體上部署的雛形,並為「將世界模型視為從資料中端到端學習的渲染器」這一理念設定了技術路線。

擴展RTFM有許多激動人心的方向。比如,通過增強使其能夠模擬動態世界,並允許使用者與生成的世界互動;同樣,它也非常適合擴展。

當前的模型目標是在單塊H100 GPU上實現即時推理,李飛飛團隊期待,面向更大推理預算的更大型號模型將持續帶來性能提升。 (新智元)