#Marble模型 | 熱門關鍵字 | 鉅亨號

今天，“AI教母”、斯坦福大學教授李飛飛創辦的AI公司空間智能（World Labs）發佈了一項重磅新成果：Marble模型，可從單個圖像生成持久的3D世界，比以往更大更好。李飛飛表示：“這是3D世界生成領域取得的巨大進步，它讓我驚嘆不已！”空間智能團隊在介紹部落格中提到，這次提高了模型生成清晰、連貫的幾何圖形來代表完整的3D環境的能力，並以多種多樣的風格想像世界。使用者只需要給定一個圖像或文字提示，Marble模型就能生成一個3D世界，還可以讓你隨心所欲地探索——沒有時間限制、沒有變形、沒有不一致性。借助World Labs提供的開源渲染庫Spark，愛好者和建構者可以將生成的3D世界匯出為高斯分佈圖，並將其用於後續商業項目，例如建構基於Web的3D體驗，在桌上型電腦、筆記型電腦、移動裝置和VR頭顯上進行高效渲染。目前該公司在Marble.worldlabs.ai推出Marble模型的有限訪問Beta預覽版，使用者可以在此頁面查看和建立3D世界。技術層面的大升級據瞭解，Marble模型採用了更優的幾何結構，通過建立可導航的3D場景解決方案，讓使用者能像電影製作人一樣在連貫一致的3D場景中規劃鏡頭。對於視覺創作者而言，在連貫一致的3D世界中自由導航與互動是眾多工作流程和應用場景的核心。Marble生成的3D世界支援在使用者瀏覽器中免費進行自由視點導航，與深度圖或點雲提供的有限3D體驗不同，該模型生成的世界具有更豐富的幾何複雜性，能生成更完整的3D世界，讓使用者可以窺見輸入視角之外的景象。不過，官方表示，當前的模型只專注於建立3D環境，處理孤立或核心物體例如人物或動物還不支援。一起來看看部分使用者生成的效果：其次，Marble支援的生成風格更加多樣化，既能生成超寫實的環境，又能創造風格化的動漫世界，為遊戲或創意工作提供更多可能。生成式AI最令人興奮的特質之一是在創意過程中能自由迭代視覺效果。Marble模型可將多種不同風格的輸入內容轉化為3D形式——從扁平色彩卡通到寫實細膩的圖像，讓創作者能通過探索迭代找到最適合項目的虛擬世界。最後一個技術特徵是實現了大規模持久化的3D幾何重建，初步展示了使用者將生成空間組合成更宏大環境時的可能性——憑藉模型實現的風格一致性與幾何連貫性，Marble模型現已能流暢導航、瀏覽此類擴展世界，並為宏大場景構想多種應用方案。產品發佈上線後，有使用者問這與Google Genie項目相比如何？李飛飛回覆說，Marble生成的世界將永久存在，使用者可以隨心所欲地在世界中導航，無需支付任何費用。不斷進化的空間智能有早期使用者表示Gen-AI讓將創意轉化為人們可以分享的體驗變得異常簡單，以前需要數週時間或收集現有素材才能完成的事情，現在只需使用幾個小時就能搞定了。前Google創意技術專家、獨立開發者Cristian Peñas表示，Marble是目前使用高斯濺射生成3D世界的最佳工具。也有使用者試用後稱讚，使用介面簡單，生成質量相當不錯且驚豔，細節清晰，沒有明顯的抖動或變形，光照氛圍感也很好。在當下日新月異的AI市場中，World Labs團隊更新產品和模型的速度並不算快，上一次推出首個能夠從單張圖片生成3D世界的AI系統還是在2024年12月初，去年9月World Labs曾宣佈完成一輪2.3億美元融資，不過具體估值並未公開。好在，World Labs的Marble模型在技術上仍處於全球第一梯隊，特別是在“從單圖像生成具有高度一致性的可導航3D場景”這一細分任務上表現突出。空間智能旨在讓機器不僅能“看見”世界，更能深度理解物理世界的結構、規律並進行互動和創造，完整的空間智能需要有機整合三維感知、空間推理以及多模態生成。李飛飛曾在其個人社交平台上表示，空間智能是AI中難以解決的一個問題，但這項技術可以賦能和實現創造、設計、學習、AR/VR、機器人等領域的無數可能。她認為“空間智能”（Spatial Intelligence）是人工智慧（AI）邁向通用人工智慧（AGI）的關鍵與核心，若AI不能理解三維世界，就無法實現真正的AGI。四面而來的市場壓力World Labs所主攻的空間智能方向目前正成為熱門技術賽道，國內外廠商正在紛紛佈局，從各個維度展開競爭。例如GoogleDeepMind近期發佈的超真實世界模型Genie 3，是首個允許即時互動的世界模型，在生成內容的連貫性上堪稱質的飛躍，同時在通用性、物理規律、視覺記憶方面實現全新水平。輝達專門設有空間智能實驗室（NVIDIA Spatial Intelligence Lab），該公司打造的Omniverse平台，逐步升級為支援工業協作、元宇宙、人形機器人等場景的空間智能平台，實現跨裝置、跨軟體的即時協同與物理模擬。國內廠商如崑崙萬維在8月份發佈了首個前饋全景3D場景生成模型Matrix-3D，具備場景全域一致、生成場景範圍大、生成高度可控等特點，能根據文字和圖像輸入生成幾何結構精準、遮擋關係自然、紋理風格統一的3D場景，還支援自訂範圍與無限擴展。騰訊在9月開放原始碼的HunyuanWorld-Voyager，宣稱是業界首個支援原生3D重建的超長漫遊世界模型，一張圖就能生成3D場景和移動視角視訊，在李飛飛團隊發佈的世界模型基準測試WorldScore上綜合能力出色。作為“杭州六小龍之一”的群核科技，在今年的技術開放日上推出了空間語言模型SpatialLM 1.5與空間生成模型SpatialGen，可根據文字描述、參考圖像和3D空間佈局，生成具有時空一致性的多視角圖像，並支援進一步生成3D高斯（3DGS）場景並渲染漫遊視訊。隨著競爭對手增多，World Labs想要獲得商業成功的挑戰正在加大。這不僅取決於能否持續保持原生空間智能技術的領先優勢，也在於相比競爭對手能否建構強大的開發者生態和產品整合，使其生成技術能輕鬆進入主流工具創作流程，並實現可規模化的商業落地模式。 (頭部科技)