#Marble模型
巨大進步!李飛飛“空間智能”最新成果,單個圖像生成大規模3D世界,更持久、可導航、可控制
今天,“AI教母”、斯坦福大學教授李飛飛創辦的AI公司空間智能(World Labs)發佈了一項重磅新成果:Marble模型,可從單個圖像生成持久的3D世界,比以往更大更好。李飛飛表示:“這是3D世界生成領域取得的巨大進步,它讓我驚嘆不已!”空間智能團隊在介紹部落格中提到,這次提高了模型生成清晰、連貫的幾何圖形來代表完整的3D環境的能力,並以多種多樣的風格想像世界。使用者只需要給定一個圖像或文字提示,Marble模型就能生成一個3D世界,還可以讓你隨心所欲地探索——沒有時間限制、沒有變形、沒有不一致性。借助World Labs提供的開源渲染庫Spark,愛好者和建構者可以將生成的3D世界匯出為高斯分佈圖,並將其用於後續商業項目,例如建構基於Web的3D體驗,在桌上型電腦、筆記型電腦、移動裝置和VR頭顯上進行高效渲染。目前該公司在Marble.worldlabs.ai推出Marble模型的有限訪問Beta預覽版,使用者可以在此頁面查看和建立3D世界。技術層面的大升級據瞭解,Marble模型採用了更優的幾何結構,通過建立可導航的3D場景解決方案,讓使用者能像電影製作人一樣在連貫一致的3D場景中規劃鏡頭。對於視覺創作者而言,在連貫一致的3D世界中自由導航與互動是眾多工作流程和應用場景的核心。Marble生成的3D世界支援在使用者瀏覽器中免費進行自由視點導航,與深度圖或點雲提供的有限3D體驗不同,該模型生成的世界具有更豐富的幾何複雜性,能生成更完整的3D世界,讓使用者可以窺見輸入視角之外的景象。不過,官方表示,當前的模型只專注於建立3D環境,處理孤立或核心物體例如人物或動物還不支援。一起來看看部分使用者生成的效果:其次,Marble支援的生成風格更加多樣化,既能生成超寫實的環境,又能創造風格化的動漫世界,為遊戲或創意工作提供更多可能。生成式AI最令人興奮的特質之一是在創意過程中能自由迭代視覺效果。Marble模型可將多種不同風格的輸入內容轉化為3D形式——從扁平色彩卡通到寫實細膩的圖像,讓創作者能通過探索迭代找到最適合項目的虛擬世界。最後一個技術特徵是實現了大規模持久化的3D幾何重建,初步展示了使用者將生成空間組合成更宏大環境時的可能性——憑藉模型實現的風格一致性與幾何連貫性,Marble模型現已能流暢導航、瀏覽此類擴展世界,並為宏大場景構想多種應用方案。產品發佈上線後,有使用者問這與Google Genie項目相比如何?李飛飛回覆說,Marble生成的世界將永久存在,使用者可以隨心所欲地在世界中導航,無需支付任何費用。不斷進化的空間智能有早期使用者表示Gen-AI讓將創意轉化為人們可以分享的體驗變得異常簡單,以前需要數週時間或收集現有素材才能完成的事情,現在只需使用幾個小時就能搞定了。前Google創意技術專家、獨立開發者Cristian Peñas表示,Marble是目前使用高斯濺射生成3D世界的最佳工具。也有使用者試用後稱讚,使用介面簡單,生成質量相當不錯且驚豔,細節清晰,沒有明顯的抖動或變形,光照氛圍感也很好。在當下日新月異的AI市場中,World Labs團隊更新產品和模型的速度並不算快,上一次推出首個能夠從單張圖片生成3D世界的AI系統還是在2024年12月初,去年9月World Labs曾宣佈完成一輪2.3億美元融資,不過具體估值並未公開。好在,World Labs的Marble模型在技術上仍處於全球第一梯隊,特別是在“從單圖像生成具有高度一致性的可導航3D場景”這一細分任務上表現突出。空間智能旨在讓機器不僅能“看見”世界,更能深度理解物理世界的結構、規律並進行互動和創造,完整的空間智能需要有機整合三維感知、空間推理以及多模態生成。李飛飛曾在其個人社交平台上表示,空間智能是AI中難以解決的一個問題,但這項技術可以賦能和實現創造、設計、學習、AR/VR、機器人等領域的無數可能。她認為“空間智能”(Spatial Intelligence)是人工智慧(AI)邁向通用人工智慧(AGI)的關鍵與核心,若AI不能理解三維世界,就無法實現真正的AGI。四面而來的市場壓力World Labs所主攻的空間智能方向目前正成為熱門技術賽道,國內外廠商正在紛紛佈局,從各個維度展開競爭。例如GoogleDeepMind近期發佈的超真實世界模型Genie 3,是首個允許即時互動的世界模型,在生成內容的連貫性上堪稱質的飛躍,同時在通用性、物理規律、視覺記憶方面實現全新水平。輝達專門設有空間智能實驗室(NVIDIA Spatial Intelligence Lab),該公司打造的Omniverse平台,逐步升級為支援工業協作、元宇宙、人形機器人等場景的空間智能平台,實現跨裝置、跨軟體的即時協同與物理模擬。國內廠商如崑崙萬維在8月份發佈了首個前饋全景3D場景生成模型Matrix-3D,具備場景全域一致、生成場景範圍大、生成高度可控等特點,能根據文字和圖像輸入生成幾何結構精準、遮擋關係自然、紋理風格統一的3D場景,還支援自訂範圍與無限擴展。騰訊在9月開放原始碼的HunyuanWorld-Voyager,宣稱是業界首個支援原生3D重建的超長漫遊世界模型,一張圖就能生成3D場景和移動視角視訊,在李飛飛團隊發佈的世界模型基準測試WorldScore上綜合能力出色。作為“杭州六小龍之一”的群核科技,在今年的技術開放日上推出了空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,可根據文字描述、參考圖像和3D空間佈局,生成具有時空一致性的多視角圖像,並支援進一步生成3D高斯(3DGS)場景並渲染漫遊視訊。隨著競爭對手增多,World Labs想要獲得商業成功的挑戰正在加大。這不僅取決於能否持續保持原生空間智能技術的領先優勢,也在於相比競爭對手能否建構強大的開發者生態和產品整合,使其生成技術能輕鬆進入主流工具創作流程,並實現可規模化的商業落地模式。 (頭部科技)