#世界模型
北大開源統一世界模型框架:多類合成推理任務一套搞定
世界模型(World Model)是現在AI領域最受關注的研究方向之一,其核心目標在於建構能夠對真實世界進行感知、理解、互動與預測的統一智能系統。然而,在當前研究實踐中,不同任務(如互動式視訊生成、3D 場景建模、視覺-語言-動作(VLA)控制以及多模態推理)之間普遍存在介面不統一、推理流程割裂、系統耦合嚴重等問題,研究者往往需要為每類任務單獨建構推理邏輯與工程環境,導致重複開發成本高、跨任務對比困難,從而制約了世界模型的系統性發展。為應對上述挑戰,北京大學DCAI課題組聯合快手可靈團隊、上海演算法創新研究院、中關村學院等研究人員,推出了OpenWorldLib——一個統一、規範、可擴展的先進世界模型推理框架。論文對世界模型做出了明確界定:一種以感知為核心,具備互動能力與長期記憶能力,用於理解和預測複雜世界的模型或框架。在這一統一定義下,OpenWorldLib整合了多模態理解、生成與行動能力,並建構了面向開源社區的標準化介面體系,使研究者能在同一框架中進行模型復現、對比與擴展。OpenWorldLib的核心價值體現在四個方面:通過統一介面遮蔽不同模型之間的差異;通過統一推理流程降低工程複雜度;通過統一能力定義促進跨任務對齊;通過開源生態推動世界模型領域的協同發展。框架設計整體架構Pipeline作為系統的核心調度模組,負責串聯各功能元件,實現從輸入到輸出的完整推理過程。該模組不僅支援單輪推理(forward execution),還支援多輪互動(stream execution),通過自動呼叫 Memory 模組實現上下文讀取與更新,使模型在複雜任務中保持狀態一致性與長期依賴能力。OpenWorldLib的整體架構主要分為以下幾個層次:模型抽象層(Model Abstraction):對不同類型的世界模型進行統一抽象,無論視訊生成、3D 重建還是具身控制模型,均通過一致介面定義輸入、輸出與推理邏輯。使用者無需關心底層實現差異,按統一規範即可完成推理。推理引擎層(Inference Engine):內建對多種推理後端的支援,使用者可便捷地基於指令碼進行呼叫。互動管理層(Interaction Manager):針對世界模型特有的多輪互動需求(如條件視訊編輯、3D 場景逐步探索等),設計了統一的管理機制,支援狀態追蹤、條件注入和增量推理。Operator 機制Operator模組充當原始輸入(或環境訊號)與核心執行模組(Synthesis、Reasoning、Representation)之間的橋樑。世界模型需要處理來自真實世界的複雜多模態輸入——文字、圖像、連續控制動作、音訊訊號——Operator被設計用於將這些多樣化資料流進行統一標準化處理。當 Pipeline 被呼叫時,系統首先將原始輸入傳遞至 Operator 的 process() 方法。Operator承擔兩個核心功能:其一是校驗(Validation),確保輸入資料的格式、形狀與類型滿足下游模型要求;其二是預處理(Preprocessing),將原始訊號轉換為標準化的張量表示或結構化格式——例如對圖像做尺寸調整、對文字做分詞編碼、對動作空間做歸一化處理。四大核心模組Reasoning Module(推理模組):負責多模態理解與決策,包括通用推理、空間推理與音訊推理。核心作用是將感知資訊轉化為結構化語義表示,為後續生成與行動提供依據。Synthesis Module(生成模組):負責多模態內容生成,包括圖像、視訊、音訊以及動作序列。將模型內部推理結果轉化為可觀測或可執行輸出。Representation Module(表徵模組):負責建構顯式世界表示,例如 3D 場景、點雲與深度資訊,為物理一致性建模與模擬驗證提供支援。Memory Module(記憶模組):負責長期上下文管理,包括歷史資訊儲存、相關記憶檢索與狀態更新,使模型能支援多輪互動與長期依賴任務。實驗效果為了驗證框架的有效性,OpenWorldLib在多個典型世界模型任務上進行了系統評估,覆蓋視訊生成、多模態推理、3D建模與具身控制等方向,並在論文中給出了可視化結果與定性分析。互動式視訊生成在視訊生成任務中,OpenWorldLib支援導航視訊生成與互動式視訊編輯,並通過統一介面對不同方法進行評測。實驗結果表明,相較於早期方法(如 Matrix-Game 系列),新一代模型在長序列生成中顯著提升了視覺質量與物理一致性,減少了顏色漂移與結構失真等問題,同時在複雜互動條件下仍能保持穩定表現 。多模態推理能力在推理任務中,Reasoning模組能夠融合文字、圖像等多模態資訊,完成空間關係分析與複雜語義推理,並輸出具有可解釋性的結果。這一能力使模型不僅具備“生成能力”,還具備“理解與決策能力”,從而更接近真實世界中的認知過程。3D 場景生成與重建在3D任務中,OpenWorldLib通過Representation模組實現從視覺輸入到結構化三維表示的統一建模。實驗表明,雖然現有方法在大視角變化下仍存在幾何不一致問題,但整體框架能夠穩定支援多視角重建與模擬驗證,為複雜場景理解提供基礎 。Vision-Language-Action(VLA)在具身智能任務中,框架能夠將自然語言指令與視覺觀測轉化為動作序列,實現從“理解”到“行動”的閉環過程。這一能力驗證了 OpenWorldLib 在跨模態任務協同與真實世界互動中的潛力。總體而言,OpenWorldLib不僅在單任務上具備良好性能,更重要的是通過統一框架實現了跨任務能力整合與系統級協同。使用方式在具體使用過程中,OpenWorldLib支援以下幾種典型方式:單輪推理呼叫: 使用者通過Pipeline介面直接輸入多模態資料,完成一次完整推理,適用於視訊生成、推理等標準場景。多輪互動執行: 通過stream()介面,系統自動呼叫Memory模組維護歷史狀態,支援互動式視訊編輯或具身控制等複雜任務。模型擴展與接入: 框架提供統一的模組範本(Operator / Reasoning / Synthesis / Representation / Memory),開發者只需實現對應介面即可接入新模型,無需修改整體架構。開源生態與社區支援: 項目已支援視訊生成、3D建模、VLA控制與多模態推理等多類任務,提供完整文件與示例,鼓勵社區通過Issue與Pull Request參與共建。綜上,OpenWorldLib通過統一介面與模組化設計,使世界模型的使用從“複雜工程系統”轉變為“標準化工具呼叫”,不僅顯著降低了研究與開發門檻,也為未來多模態智能系統的建構提供了可復用的基礎設施。 (量子位)
李飛飛世界模型“殺手鐧”開源!網頁3D大場景秒開,手機暢跑1億點雲
3DGS迎來史詩級升級。智東西4月15日報導,今天,“AI教母”李飛飛的世界模型團隊World Labs開源了動態3D高斯潑濺(3DGS)渲染器Spark 2.0。▲Spark 2.0官宣開源(來源:X)李飛飛本人在該成果發佈的第一時間評論稱:“Spark 2.0現在可以在任意裝置上流式傳輸超過1億個高斯潑濺!能夠為基於網頁的3DGS渲染開源生態做出貢獻,我們感到無比自豪!”▲李飛飛評論(來源:X)Spark系列模型於去年首次發佈,是一個專為網頁建構的動態3D高斯潑濺(3DGS)渲染器。它與網頁端最流行的3D框架THREE.js整合,並利用WebGL2在任意帶有網頁瀏覽器的裝置上運行,包括桌面端、iOS、Android以及VR裝置。與上一版本相比,Spark 2.0新增了一套細節層級(LoD)系統,能夠在任意裝置上流式傳輸並渲染超大規模的3DGS世界。▲在兒童房間裡自由探索,物品細節清晰(來源:World Labs部落格)此外,新版還使用了.RAD的3DGS檔案格式,支援漸進式細化的流式傳輸,而虛擬潑濺分頁系統則通過固定的GPU記憶體分配,實現了對無限潑濺世界的訪問,通俗來講就是可以渲染無限大的3D場景。▲草原中的洞穴小屋,場景轉換無畸變(來源:World Labs部落格)如此流暢連貫的效果是怎麼實現的?針對大規模場景的擴展難題,Spark 2.0運用了3項圖形學與系統底層方案:細節層次最佳化、漸進式流式載入以及虛擬視訊記憶體管理。李飛飛團隊在部落格中,對Spark 2.0背後的三項技術進行了十分詳細的展開,具體如下:01. 採取連續式細節層級穩定渲染百萬級潑濺在電腦圖形學中,處理大型3D場景時常常採用細節層級系統,該系統會根據物體與觀察者之間的距離自動調整渲染的細節程度,不同的細節層級方法介於離散式與連續式之間,形成一個技術譜系。採用離散式細節層級(LoD,Level-of-Detail)時,系統需要為潑濺效果製作多個版本,從精簡到精細依次遞增,再根據各版本的近似邊界與相機的距離,在不同版本間進行切換。Spark的早期系統設計支援離散模式,但其存在明顯缺陷:當使用者在場景中移動、不同版本突然切換時,畫面會出現明顯的跳變;此外,將潑濺效果按區塊分組後,使用者還能看到清晰的邊界痕跡。Spark 2.0的LoD設計採用了一種連續式LoD方法,所有潑濺都存在於一個層級結構中,即LoD潑濺樹。Spark 2.0會沿著樹的一個邊界切割面單獨選取潑濺,從而在視口內最佳化潑濺的細節。▲LoD潑濺樹(來源:World Labs部落格)樹中的每個內部節點都是其子節點的一個低解析度版本,通過將子節點的多個潑濺合併成一個新的潑濺來近似表示子節點潑濺的形狀和顏色。這個過程一直持續到樹的根節點——一個單一的、大的潑濺,它聚合了該物體中所有潑濺的整體形狀和顏色。利用這棵LoD潑濺樹,Spark 2.0會計算出穿過該樹的一個“切片”,從而為當前視口選取最佳的N個潑濺進行渲染。通過設定一個最大潑濺預算N(根據裝置類型不同,通常在50萬到250萬個潑濺之間),系統確保每幀只需渲染恆定數量的潑濺,從而獲得穩定、高影格率的渲染性能。通過上下調整N值,即可在影格率和潑濺細節之間進行權衡。▲公園中的自行車,細節真實,前後一致性強(來源:World Labs部落格)Spark 2.0通過同時遍歷多個LoD潑濺樹實例,對該演算法進行了進一步擴展。與僅從單一根節點開始遍歷不同,針對每個3DGS物體,拓展後的演算法會將其螢幕尺寸及潑濺節點 (dm0,Sm0) 一同加入初始優先佇列,後續流程與原有邏輯保持一致,可在場景中所有3DGS物體上同步篩選需細化的細節層級。這一設計讓大規模組合世界的建立變得簡單高效:只需在空間任意位置加入3DGS LoD物體,Spark 2.0便能自動計算出每幀需渲染的所有LoD潑濺的最優全域子集。02. 設計新型檔案格式大場景3D世界在網頁上秒開Spark2.0定義了一種新的檔案格式.RAD(代表RADiance場),該格式能夠壓縮3DGS資料,並支援隨機訪問流式傳輸,從而在資料通過網路傳輸時實現漸進式細化。目前最常見的兩種3DGS資料檔案格式是.PLY和.SPZ,它們代表了兩種不同的資料編碼方式:行式儲存和列式儲存。.PLY檔案是按行順序儲存的,在接收到資料後立即顯示潑濺,從而實現漸進式載入。但它未經過壓縮,且編碼精度存在浪費。.SPZ檔案將相似類型的資料按列順序儲存在一起,從而獲得了更好的壓縮率。但遺憾的是,它無法實現漸進式載入,因為在任何潑濺獲得其所有屬性之前,必須接收完整的檔案。為實現3DGS資料的高效壓縮與流式傳輸,李飛飛團隊設計了全新的.RAD檔案格式。該格式編解碼簡潔、擴展性強、編碼精度可調節,同時支援隨機訪問。▲.RAD檔案格式(來源:World Labs部落格)檔案結構十分清晰:以RAD0檔案頭開頭,隨後依次為頭部中繼資料長度、中繼資料JSON,以及一個或多個各含6.4萬個潑濺的資料區塊。頭部中繼資料記錄了所有資料區塊的偏移地址與字節大小,支援任意順序讀取資料區塊內容。單個資料區塊也採用相似結構:以RADC塊頭起始,接著是塊中繼資料長度、中繼資料JSON,最後為該6.4萬個潑濺的壓縮資料。潑濺各項屬性按列儲存,可分別選用自訂編碼方式。同類資料集中存放,再通過Gzip壓縮,能獲得出色的壓縮率。頭部採用JSON編碼,可通過版本欄位與新增可選欄位保障後續擴展。資料類型編碼與壓縮演算法均以字串名稱在中繼資料中指定,方便後續擴展新類型。03. 採用虛擬記憶體開闢1600萬潑濺固定視訊記憶體池虛擬記憶體是一項記憶體管理技術,它以固定大小的實體記憶體為基礎,向程序提供大容量的虛擬地址空間,並通過頁表以固定尺寸的頁為單位,完成虛擬地址與實體位址的對應。Spark 2.0將這一思路應用到3DGS渲染中。具體來講,李飛飛團隊在GPU上開闢了一塊可容納1600萬個潑濺的固定視訊記憶體池,自動管理GPU中每6.4萬個潑濺為一頁的“視訊記憶體頁”,與.RAD檔案中對應大小的虛擬資料區塊之間的對應。▲虛擬記憶體(來源:World Labs部落格)資料區塊會按照LoD遍歷順序載入到空閒頁面中;當頁表佔滿,且新資料區塊優先順序更高時,系統會按最近最少使用(LRU)策略淘汰舊資料。Spark 2.0支援同時載入多個.RAD檔案並共用同一張頁表。對每個檔案,系統會記錄資料區塊到頁表的對應,以及頁表到對應檔案與資料的反向對應。在遍歷多棵LoD潑濺樹時,引擎會記錄資料區塊與檔案的訪問順序,形成全域統一的優先順序排序,進而對場景中所有3DGS物體的潑濺載入與儲存進行統一最佳化。04. 結語:Spark 2.0降低空間智能的創作門檻爭奪基礎設施定義權從2025年的首次亮相到今日的2.0版本迭代,Spark的進化軌跡某種程度上也對應著3DGS這一技術的成熟曲線。三維內容的交付長期以來被兩座大山壓著:一是資產太重,動輒GB級的檔案讓網頁端望而卻步;二是渲染太貴,高端GPU才能流暢運行的場景,手機瀏覽器只能圍觀。Spark 2.0通過連續LoD、.RAD格式和虛擬視訊記憶體“三板斧”,讓高品質三維內容像普通圖片和視訊一樣,在網際網路上自由流動、即點即看。李飛飛團隊選擇將該技術開源,降低了空間智能的創作門檻,同樣也是在爭奪下一代空間內容基礎設施的定義權。 (智東西)
大摩重磅報告 | 資本狂砸千億!AI下一個風口:世界模型
AI的下一場革命,是從“理解語言”轉向“理解物理世界”,而世界模型,正是這場革命的核心載體。AI的下一個增長曲線在那裡?摩根士丹利在2026年3月發佈的研究報告中,給出了明確答案——世界模型(World Model)。世界模型將成為AI從“數字世界”走向“物理世界”的核心鑰匙,開啟又一個兆級產業賽道。這份由Adam Jonas團隊撰寫的報告,系統拆解了世界模型的定義、技術路線、應用場景與投資邏輯。報告指出,大語言模型紅利見頂,下一場競賽是世界模型。大語言模型紅利見頂,AI進入物理時代不可否認,大語言模型(LLM)重塑了AI的應用邊界,在文字生成、程式碼編寫、智能搜尋、白領辦公等數位領域展現出強大能力。但摩根士丹利在報告中直言,LLM的增長已觸達天花板,其核心短板在於——缺乏具身認知能力。簡單來說,LLM能完美描述“把杯子放在桌子上”,卻無法判斷杯子是否會傾倒、桌子能否承載重量;能寫出自動駕駛的程式碼,卻無法理解車輛行駛中的物理慣性與路況變化。這種對三維空間、物理規律、時間演化與因果關係的“無知”,決定了純語言AI的時代正在走向頂峰。報告核心論斷:AI的下一場革命,是從“理解語言”轉向“理解物理世界”,而世界模型,正是這場革命的核心載體。什麼是世界模型?不同於專注於文字互動的LLM,世界模型被摩根士丹利定義為AI的“想像引擎”——它能讓AI真正“看懂”物理世界、“預判”未來變化、“推演”行動結果,核心具備四大能力:空間理解:精準掌握3D幾何結構、物體位置、空間關係,以及不同視角下的場景變化;物理建模:模擬重力、運動、碰撞、流體動力學、摩擦等真實物理規律,還原世界運行邏輯;時序預測:預判未來幾秒、幾分鐘乃至更長時間內的場景狀態演化,提前規避風險;互動決策:在實際行動前進行虛擬推演,實現“先思考、後行動”,提升決策效率與安全性。五大技術路線:全球競賽的核心賽道當前,全球科技巨頭與初創公司正加速佈局世界模型,摩根士丹利在報告中梳理出五條平行且不斷融合的主流技術路徑,構成了行業研發的核心框架:互動式動作條件模型(代表:DeepMind Genie):類似“學習型遊戲引擎”,環境能隨智能體的動作即時響應、動態變化;一致性3D世界生成器(代表:World Labs Marble):生成的3D世界具備高度幾何一致性,支援任意視角探索,還原真實空間邏輯;抽象表示模型(代表:Meta V-JEPA):不追求像素級渲染,重點聚焦高層邏輯推理,提升模型的決策效率,其最新版本V-JEPA 2已能通過觀看海量視訊實現物理規律理解與機器人控制;預測型生成模型(代表:Wayve GAIA、NVIDIA Cosmos Predict):核心能力是預測場景下一狀態,為自動駕駛、機器人規劃提供支撐,其中Wayve的GAIA系列模型可通過文字、視訊輸入生成逼真駕駛場景,助力自動駕駛邊緣場景測試;物理約束模擬引擎(代表:NVIDIA Cosmos Transfer):結合世界模型與專業物理引擎,生成高保真合成資料,降低真實場景資料採集成本。兆應用:從自動駕駛到數字內容全面重塑世界模型並非停留在實驗室的概念,報告披露了多個已落地的標竿案例,其應用場景已覆蓋多個兆級產業,正在逐步重塑行業格局:自動駕駛:Waymo基於DeepMind Genie系列模型,完成了數十億英里的虛擬路測,高效驗證極端天氣、複雜路況等邊緣場景,大幅降低實車測試成本,與Wayve GAIA系列模型共同推動自動駕駛虛擬測試落地;機器人:通過世界模型建構物理一致的虛擬環境,訓練機器人完成抓取、搬運、組裝等複雜互動動作,Meta V-JEPA 2模型僅通過62小時機器人操作視訊,即可實現對未接觸過的機械臂的控制,提升機器人在真實場景的適配能力;遊戲與影視:微軟Muse利用世界模型,可生成具備一致性、多樣性和持久性的遊戲場景,其基於7年人類遊戲資料訓練,能生成接近人類真實操作的遊戲序列,目前已應用於Xbox相關遊戲研發;Roblox則通過自研世界模型,打造沉浸式虛擬場景,提升使用者體驗;設計與建築:設計師只需輸入文字提示,就能通過世界模型快速生成3D空間方案,並即時迭代調整,大幅提升設計效率;工業自動化:利用預測性物理建模,最佳化生產線佈局、物流調度等環節,降低生產損耗,提升工業生產效率。六大挑戰:通往成熟的必經之路儘管世界模型前景廣闊,但摩根士丹利在報告中也客觀指出,當前技術仍面臨六大核心瓶頸,仍是通往規模化應用的必經之路:時序一致性不足:長時間互動易出現場景狀態漂移,目前主流模型僅能支援分鐘級的穩定模擬,微軟Muse等模型當前可實現分鐘等級的穩定序列生成;可控性有限:模型的動作空間較為狹窄,難以適配複雜多變的真實應用場景,限制了實用價值;多智能體難題:多主體間的複雜動態互動(如多人協作、多機器人配合)建模尚未實現突破;資料稀缺:高品質的物理互動資料採集難度大、成本高,成為模型迭代的重要制約,Wayve GAIA-1、微軟Muse等模型均需海量資料訓練,進一步凸顯資料稀缺問題;評測基準缺失:目前行業缺乏衡量世界模型長期性能的通用評估標準,難以精準判斷模型優劣;算力鴻溝顯著:訓練世界模型的算力需求,是普通大語言模型的10–100倍,微軟Muse訓練過程中需用到百台級GPU叢集,對算力基礎設施提出極高要求。巨頭與初創的兆角逐隨著世界模型成為AI下一站的共識形成,全球資本已掀起佈局熱潮,一場兆級的競賽已全面打響。報告預測,到2035年,世界模型賦能的產業規模將達到10兆美元,成為推動全球經濟增長的核心動力之一。科技巨頭領跑:Google(DeepMind)、Meta、微軟、特斯拉、輝達等科技巨頭,每年投入超100億美元用於世界模型研發,搶佔技術制高點,其中Meta、微軟均已推出V-JEPA 2、Muse等標竿模型;初創公司突圍:World Labs、AMI Labs、Wayve、Character.AI等明星初創企業,聚焦細分賽道,成為技術創新的重要力量,Wayve作為自動駕駛領域初創獨角獸,其GAIA系列模型已引發行業關注;基於對世界模型產業的深度分析,摩根士丹利給出了明確的投資邏輯,清晰劃分出受益與受衝擊的賽道:核心受益賽道:算力提供商(NVIDIA、AMD)、模擬平台、機器人硬體、自動駕駛解決方案,將直接受益於世界模型的規模化應用,其中算力提供商將持續受益於模型訓練的高算力需求;面臨衝擊領域:那些僅專注於純語言模型、缺乏空間與物理能力的公司,將逐漸被行業淘汰;長期投資邏輯:AI正從“數字智能”全面邁向“物理智能”,世界模型作為連線字與物理世界的關鍵基礎設施,是通往通用人工智慧(AGI)的必經之路,長期價值凸顯。 (未來科技X)
全球第一!中國世界模型超越Google輝達,AGI邁入物理世界新里程碑
AI領域再傳重磅喜訊,極佳視界GigaWorld-1具身世界模型,在全球權威評測基準WorldArena強勢登頂,擊敗Google、輝達、阿里等頂尖團隊,成為榜單唯一綜合得分突破60分的具身世界模型。這項評測由清華、普林斯頓、北大等8所頂尖機構聯合打造,覆蓋16項核心指標與3大真實任務,是世界模型領域最嚴苛的“試金石”。GigaWorld-1實現三大維度斷層領先:物理遵循度超第二名16%,3D精準度逼近滿分,視覺質量遙遙領先。技術上,GigaWorld-1創新融合顯式動作建模+可微分物理引擎,保障幾何一致性與真實物理互動,搭配上萬小時機器人實操資料訓練,泛化能力與動作精度大幅提升。項目堅持開源賦能,核心程式碼與資料集已開放,半月下載量破1.6萬次,並作為官方基準支撐CVPR 2026挑戰賽,助力全球具身智能生態發展。從GigaWorld-0里程碑驗證,到GigaWorld-1全球登頂,再到GigaWorld-Policy實現效率10倍飛躍、任務成功率提升30%,系列產品持續引領行業突破。極佳視界是國內首家佈局世界模型的科技企業,核心團隊匯聚全球頂尖人才,以閉環生態為AGI走進物理世界築牢基石。GigaWorld-1的登頂,是中國在具身智能領域的關鍵突破,標誌著世界模型從實驗室走向產業應用,為通用人工智慧打開全新大門。 (靈動數上科技)
德意志銀行:2026中國人形機器人出貨量將超3萬台,世界模型正成為關鍵技術架構
近日,德意志銀行發佈了《Humanoid Robot (III): Six visions for 2026 – Scaling, iterating and diversifying》我們摘取並翻譯了其中的部分重要內容供大家參考,原文連結在文末。一、2026全球人形機器人出貨量接近5W台,中國超3W台2025 年,估計全球人形機器人出貨量超過 15,000 台,較 2024 年的 3,000 台顯著增長。這一增長主要由中國原始裝置製造商(OEM)驅動,其中以 宇樹科技(Unitree)和 智元機器人(AGIBOT)為領軍者,得益於中國支援性的政策、較低的成本以及接納度較高的客戶群。相比之下,2025 年美國 OEM 的出貨量增長較為緩慢,這主要是由於硬體和軟體的複雜性,以及人形機器人商業可行性的尚未得到驗證。對於 2026 年,我們預計全球出貨量將接近 50,000 台。中國有望繼續保持最大的人形機器人市場地位,出貨量將翻倍以上,超過 35,000 台。由 特斯拉(Tesla)和 Figure 領銜的美國 OEM 出貨量,預計將在低基數基礎上隨著產能擴大而展現出強勁增長。從長期來看,我們認為美國 OEM 的總出貨量將逐漸與中國 OEM 趨同。此外,包括歐洲、日本和韓國在內的其他地區的人形機器人出貨量也有望增加。根據德意志銀行的預測,2026年,美國出貨量前三的公司分別為Tesla、Figure、Agility,出貨量分別為5000、2000、300,中國出貨量前三的公司分別為宇樹、智元、優必選,出貨量分別為15000、11000、3000宇樹科技(Unitree):宇樹科技首席執行長於2026年初宣佈,公司目標在2026年交付1萬至2萬台人形機器人。據悉,宇樹科技在2025年已交付超過5,500台人形機器人(不含輪式人形機器人)。另有報導指出,2025年宇樹科技獲得的訂單總額超過12億元人民幣,機器人總出貨量(包括四足機器人)超過1萬台。智元機器人(AGIBOT):智元機器人研發總監於2026年初提出目標,預計2026年累計出貨量將突破1萬台。此前在2025年12月,其首席執行長曾表示,智元機器人2025年的出貨量有望達到5,000台,銷售額將超過10億元人民幣。優必選(UBTECH):據報導,截至2025年12月,優必選已建成年產超過1,000台的工業人形機器人產能,並已交付超過500台;預計2026年其產能將提升至1萬台。二、歐美廠商定價目標區間為2萬-3萬美元,中國相對價格更低大多數美國和歐洲的人形機器人製造商的目標是,一旦實現大規模生產,其人形機器人的定價將在2萬至3萬美元之間。NEURA和1X目前已有產品落在此價格區間內。然而,根據我們的管道調研顯示,當前人形機器人的實際成本介於5萬至25萬美元之間,這表明要實現廣泛的商業化應用,仍需進一步最佳化成本。在中國,價格競爭更為激烈,宇樹科技(Unitree)和智元機器人(AGIBOT)等廠商的低端產品報價約為1萬美元。三、歐美應用場景集中在汽車和物流領域,中國資料採集與測試中心需求廣泛根據國際資料公司(IDC)的資料,2025年全球出貨的人形機器人中,37%用於娛樂和表演,其次是25%用於科研與教育,17%用於資料採集。用於展覽引導(11%)和工業製造(9%)的比例相對較小。報告還整理了優必選在2025年披露的訂單情況。在其總計14億元人民幣的訂單中,資料採集類訂單佔比最大,達到44%。這些訂單主要來自中國多個地方政府建立的人形機器人資料採集與測試中心,凸顯了政府對具身智能產業的支援。美國和歐洲的應用場景主要集中在汽車工廠和物流領域,目前仍處於概念驗證(PoC)階段。四、世界模型(World Model)正成為繼視覺 - 語言 - 動作(VLA)模型之後的下一代架構,或與其平行發展什麼是世界模型(World Model)?世界模型學習/預測環境如何演變,以及動作如何改變未來狀態,而不僅僅是將當前觀測對應到下一個動作。它與 VLA 有何不同?VLA(視覺 - 語言 - 動作)模型主要最佳化目標是從“觀測 + 指令”生成機器人動作;而世界模型則增加了對未來的顯式預測/模擬能力,從而可提升規劃能力、場景覆蓋範圍和反事實推理能力。示例: Google Genie、Nvidia Cosmos、1X World Model、Meta V-JEPA 2為什麼它很重要?增強合成資料: 世界模型可以生成或預測額外的訓練場景或世界狀態(如天氣、光照條件等),有助於擴展合成資料流水線,減少對遙運算元據的依賴,並比在現實中收集每一個邊緣案例更快地實現場景覆蓋擴張。規劃質量: 它們增加了“先預測後行動”的能力,這對於長周期人形機器人任務尤為寶貴——因為在這些任務中,動作誤差會累積。動作模型僅將當前觀測對應為下一步動作,而世界模型可以評估在不同動作選擇下接下來可能發生的情況。挑戰:資料需求高 & 計算密集: 訓練世界模型通常需要大規模、長時序的視訊或軌跡資料,以及強大的算力用於生成和 rollout(推演)。“幻覺”問題: 作為生成模型,世界模型本質上也會產生“幻覺”,這是由於長時序中預測誤差累積所致(用預測的狀態去預測下一狀態)、感測器噪聲等原因。它可能生成看似合理但物理上不正確的 rollout(例如物體憑空出現等),這可能會污染策略訓練。未來展望:我們認為,世界模型更可能演變為 VLA / 動作策略的一個互補層,而非替代品。兩者的耦合將越來越呈現閉環形態:世界模型 rollout(合成場景)→ 評分/過濾 → 後訓練資料 → 更強的 VLA;在更先進的系統中,將查詢世界模型以獲取“如果…會怎樣?”的結果 → 選擇短期計畫/子目標 → 由 VLA 執行,同時底層安全控製器確保穩定性。 (萌趣AI小棧)
世界模型融資兇猛:它是AI的終局嗎?
去年11月,史丹佛大學教授李飛飛提出一個概念:世界模型,在AI行業引發廣泛討論。與此同時,李飛飛的公司——World Labs,估值飆升至50億美元;同樣關注大模型的科學家楊立昆,估值也超過30億美元。於是,一個關鍵的話題產生:世界模型是人工智慧的終局嗎?本文將對該話題展開探討。參與本次探討的嘉賓如下:核心亮點提前看:1、什麼是“世界模型”?答:讓AI理解和預測現實世界的模型。版本很多,沒有共識。2、為什麼世界模型如此火?答:融資猛,估值高,對人類極其有用。3、世界模型是AI的終局嗎?答:可能是。AI把執行幹了,人類只需要去捲創意。4、世界模型可以怎麼賺錢?答:做成產品,比如具身智能的大腦。更多精華,請看圓桌現場實錄。- 01 -世界模型到底是啥?林覺民: 現在“世界模型”確實很火,大家看到楊立昆融到了幾十億美金,李飛飛也融到了50億美金,這些公司的估值都在飛速上漲,國內也掀起了一波新的浪潮。但有意思的是,到底什麼是“世界模型”,好像大家各有各的說法。王晟:首先,大家對世界模型的理解可能並不一致。實際上,世界模型有兩種典型的流派:一種是具身智能的世界模型,另一種是數字空間的世界模型。我們理解的世界模型,並非完全模擬真實世界,而是針對特定的領域或“world”進行建模。比如醫療領域、金融領域、法律領域,每個領域都可以看作一個獨立的world。以醫療為例,假設我們建構了一個“醫療世界模型”,它可以模擬你得病後的整個過程。人們若得了甲流,通過這個模型,我們可以看到患者不干預時的身體反應、症狀變化、以及生化指標的變化。如果患者進行了治療,模型會顯示你用藥後的效果,直到康復或是病情加重。我們通過這種模型來探索真實的“ground truth(基礎真理)”。比如我們投資的清華紫荊智康團隊,他們的醫療AI在30多個、接近40個疾病診療領域,診斷水平已經超過了全球97%的醫生。他們的成功,正是因為通過醫療世界模型,模擬出疾病發展的全過程。通過這種world model(世界模型),我們可以讓AI更快地學習,甚至讓它在短時間內積累經驗,成為世界頂尖的醫生。武偉:我們認為,要搞清楚世界模型的本質,首先需要理解它的兩個核心關鍵詞:模擬和互動。“模擬”是指通過模擬技術建構一個虛擬世界,來訓練AI進行推理和決策。而“互動”則是指通過與環境和人類進行互動,讓AI能夠更好地適應並反饋現實世界的變化。從學術和產業發展的角度來看,世界模型的概念大概是從2018年開始被提出的,至今已經發展了七八年。期間,世界模型主要有三種不同的流派:第一個流派是將世界模型用於模擬器,通過雲端合成大量模擬資料,供智能體訓練使用。輝達的Omniverse和Cosmos系統就是走這一路線。第二個流派是將世界模型作為通用互動介面,Google的Gemini3、李飛飛團隊的Marble等項目都屬於這一類,主要是用於娛樂和數字型驗的應用。第三個流派也是我們關注的重點,是將世界模型的推理能力直接賦能大腦,讓AI具備內生的空間推理和想像能力。通過這種方式,AI可以在沒有見過某些資料的情況下,通過推理和模擬,指導機器人進行更高效的決策和互動。這種方法與傳統的模仿學習不同,因為模仿學習依賴於離線資料的積累,而我們則更關注AI如何通過內生的模擬能力,來預測和適應新環境。武偉:在我們的理解中,世界模型是“基礎模型”(foundation model),是機器人原生所需要的基礎模型。我們需要建模的是:物理空間的移動和操作層面的內生認知,這是我們的技術路線。從我們的定義來看,世界模型其實是一個端到端的模型,或者可以理解為兩端式端到端的大模型。相比之下,千訣科技主要是做內腦架構,也就是人的大腦有多個分區,每個分區對應不同的小模型,或者用現在agent領域比較流行的詞彙——skills(技能)。這些小模型和頂層模型結合起來,可以實現更低功耗的大腦模擬。這是我對兩者的理解,當然,團隊的基因也起到決定性作用。我們基因決定了我們專注於模型的端到端建構,以及資料的擴展(scaling)。宋亞宸:李飛飛最近剛融了一輪,估值已經達到了50億美金。我悄悄看了他們的BP,裡面提到李飛飛所定義的世界模型有三個主要應用場景:第一個是娛樂行業的3D生成(3D generation in entertainment);第二個是XR(擴展現實)和元宇宙中的空間智能(spatial intelligence);第三個是機器人技術(robotics)。其實最早做的是前兩個場景。我想說的重點是,我認為世界模型可能確實是AI時代的終極答案,包含了兩件事:第一,世界模型能助力發展具身能力,讓各種各樣的具身場景變得更加普及,能讓更多的機器人替代人類的工作。第二,勞動力如果被解放了,那人類應該做些什麼呢?從農業時代到工業時代,再到資訊化時代,我們發現有兩個特點:1、人類的幸福指數越來越高,生命的周期越來越長,嬰兒的存活率越來越高,超市裡能買到的商品選擇越來越多;2、大家的工作時間卻越來越長,變得越來越“卷”。從最早的農業時代,人們的工作時長很短,但隨著時代發展,我們進入了一個更加“卷”的社會,特別是資訊時代,996(早九晚九)已經成為常態,大家為了大廠的“福報”而拚命工作。但AI的出現改變了這一切,理論上講,AI時代是更“卷”的,但實際上似乎沒有什麼需要再去“卷”的東西了,因為機器人可以代替人類做所有的事情。那麼,生產力和勞動力將去向何方?我自己有個理論,認為人類最終要卷的,是自己的創意本身。當AI可以零門檻、零成本、即時地幫助人類放大創意時,每個人都能創造世界級的、可互動的體驗,就像神創造了這個世界一樣,定下了物理規則,又造了萬物。如果這一天到來,人人都能創造出屬於自己的虛擬世界,甚至可以有更好的體驗。比如,重力不再侷限於9.8,你可以飛,可以長翅膀,也可以創造不同的社會規則、評價體系,甚至是物理規則。人類將有更多的選擇,把時間投入到自己真正喜歡的事情上。這將是一個人人為我,我為人人的時代,每個人都可以用AI放大自己的創意,吸引更多人加入到自己的世界中來。如果這種世界真能到來,那麼我們就是在為別人創造極樂世界的時代,像聖人一樣去為他人提供最好的體驗。AI在其中的角色,就是讓每個人像神一樣去創造完整的、世界級的、可互動的體驗。這就是我認為世界大模型對於AI終局如此重要的原因。未來每個人都能像“馬良”一樣,手握神筆,心想事成。蔣屹舟:世界模型最早的研究,主要是為了理解和預測我們周圍的物理世界。就像牛頓通過觀察蘋果掉下來的現象,推匯出了萬有引力的規律。沒有世界模型,我們的推理能力有限,只能根據已經觀察到的現象做判斷。隨著研究深入,李飛飛提出,世界模型不僅僅是理解世界,更重要的是預測世界。我們在十年前開始做“視訊預測”,用它來預測機器人的運動軌跡,這一思路對機器人非常有用。機器人在現實中需要能夠預測未來的情況,而不是只根據過去的資料做決策。比如,疊衣服這個看似簡單的任務,不同形狀的衣服需要不同的操作。通過世界模型,機器人能更好地理解衣服的特性,從而做出更精準的動作。類腦智能是我目前關注的方向,它強調多個小模型的協作,而不是一個大模型解決所有問題。在機器人領域,世界模型幫助機器人預測未來的情景,這樣它們在執行任務時可以更加高效。比如,機器人在打掃衛生時,會根據預測的結果調整任務步驟,提高執行效率。一個有趣的實驗是給塑料袋打結。我們最初的訓練方法並不夠靈活,後來我們創造了一個“塑料袋世界模型”,讓機器人理解不同塑料袋的物理特性,能夠智能化地處理各種情況。這種方法讓模型能適應更多的場景,而不僅限於特定的任務。簡單來說,世界模型幫助機器人更好地理解和預測未知世界,從而提高工作效率。- 02 -世界模型怎麼落地?誰能跑出來?林覺民:世界模型的發展方向如此多樣,大家最終競爭的是什麼?每個人的技術路線不同,最後如何比較?王晟:從投資人的角度來看。為什麼大家都在關注世界模型?對我們投資人來說,“世界模型”現在是共識標籤——就像前兩年的“具身智能”,一聽就覺得很想投。但實際上,這只是一個共識的標籤。大家對世界模型的定義並不相同,就像我們今天在座的幾位嘉賓,每個人的理解都不完全一致。作為投資人,我們願意接受所有看似合理的世界模型定義,關鍵在於它是否能夠落實到具體的技術實施,是否能夠持續增長,且有較高的市場潛力。從我個人的視角來看,未來的世界模型需要具備兩個核心要素:首先是擁有一套接近“真實世界”(ground truth)的驗證系統,這個系統必須能夠生成大量高品質的資料。資料不僅僅是要多,還要足夠真實和高品質,以便為模型訓練提供有價值的反饋。其次,資料分佈要平衡,既要有稠密資料,也要涵蓋稀疏資料的情況,這樣才能避免模型過擬合,也能確保訓練出更具泛化能力的模型。通過世界模型生成大量高品質資料,是訓練模型的基礎。武偉:如果從商業本質角度來看,世界模型的競爭還是要回到一個核心問題:一個公司能否在競爭中存活。作為商業公司,我們必須明白,只有兩種方式能夠確保生存。要麼有健康現金流,要麼有高增長、高天花板的路徑。從世界模型的發展階段來看,目前更接近第二種模式——快速增長的階段。做世界模型的公司,是否能找到適合自己的落地方向,並且能夠快速增長,是決定能否存活的關鍵。以我們為例,我們的第一個產品化方向就是具身大腦。我們通過思維實驗來推算,人類一生收集的資料量大約是300萬段每分鐘的視訊片段(clips),這相當於18歲之前積累的經驗。如果我們假設一個工種需要一年時間來熟練掌握,那麼大約是3億段clips的資料量。我們通過這些資料的積累,來預估人類世界模型的最大智能化上限。如果我們能夠建構一個擁有十億級資料量的世界模型,並通過預訓練使其在零樣本和少樣本的情況下表現得足夠強大,那麼這個世界模型的商業價值就會非常高。因此,未來的關鍵是如何收集足夠高品質的資料,進行良好的預訓練,並最終在實際應用場景中具備強大的泛化能力。宋亞宸:其實,我們需要思考一個核心問題:為什麼現在大家都在討論世界模型?為什麼創業公司、資本和頂尖人才都在湧向這個領域?是因為AI發展到一定階段,世界模型應運而生嗎?還是因為具身智能技術發展成熟了?我認為,這兩個因素並不是世界模型崛起的根本原因。世界模型的出現,最根本的原因在於資訊載體的變化。過去,資訊載體的提升是一個不斷升維的過程,從文字到圖片,再到視訊,直到今天的3D世界。隨著資訊密度和體驗質量的提升,我們也迎來了3D和世界作為新的資訊載體。以往,文字、圖片和視訊曾是資訊表達的主流。但現在,隨著AI技術和硬體基礎設施的進步,3D以及更高維度的世界成為了我們表達和傳遞資訊的最終載體。過去幾千年,文字是表達世界的工具,但隨著資訊技術的發展,3D和世界的表達形式才剛剛開始成為主流。我們即將進入一個新時代,AI能夠幫助我們直接處理和理解3D世界,並且創造更豐富的互動體驗。這其實是資訊利用效率的提升。資訊密度越高,傳播效率就越快。當我們只能在古代的龜殼上刻字時,資訊傳播效率非常低;但隨著技術進步,網際網路、圖片、視訊的出現,傳播效率逐漸提高。而3D和世界本身,最終將成為我們資訊傳遞和創造的主要載體。蔣屹舟:我個人對世界模型的理解有些不同。我們做的是類腦智能,偏向非端到端的設計。最初我們是做類腦機器人的,尤其是在國家項目中,認為世界模型不僅僅侷限於視覺或某種單一的輸入模式。以一個盲人操作物體為例,即使他無法通過視覺來感知世界,但他依然能通過其他感官掌握物體的特性,並推測出自己的行為可能帶來的後果。這種因果關係的理解,才是我們認為最為核心的部分。通過類腦模型,我們的優勢在於對資料的需求不那麼大,傳統的強化學習需要大量資料,而我們採用的非端到端方法,通過理解世界的因果關係,就能有效減少資料需求。我們相信,世界模型不僅限於自然世界,它同樣適用於人類建構的世界。大語言模型(LLM)就是一個典型的例子,語言作為人類對世界的抽象工具,能夠幫助我們理解和表達大部分的事物。通過對這些抽象的理解,機器也可以建構出一個符合邏輯的世界模型。 (鉛筆道)
世界模型教父教母創業,公司估值加起來近百億美元
AI 時代,獨角獸已經不稀奇了,但世界模型這塊還是有所空缺的。從估值的變化上來看,李飛飛的World Labs,最有可能成為全球首個世界模型獨角獸公司。根據報導,World Labs的估值已經突破了50億美元,並且擬融資5億美元。而2024年9月的時候,這家公司才以10億美元估值完成2.3億美元融資,正式在公眾面前亮相。從結果上來看,從登場到50億美元估值,李飛飛僅用了16個月的時間。這個速度有多快?OpenAI從2015年成立,到 2019年微軟首次投資,此時他們的估值也只有10億美元。最接近World Labs速度的可能是Anthropic,但也花了25個月。如果說李飛飛是世界模型教母,那麼楊立昆可以說是世界模型教父。2025年12月,楊立昆在LinkedIn上確認離開Meta,結束了他在這家公司長達12年的職業生涯。楊立昆創立的新公司名為Advanced Machine Intelligence Labs,總部設在巴黎。AMI Labs正在尋求以30至35億歐元估值融資5億歐元。不過,這兩家企業高估值背後,並非對世界模型這一技術的吹捧,而是實打實的技術落地和商業化。何為World Labs?World Labs的投資方陣容包括Andreessen Horowitz、NEA、Radical Ventures(李飛飛本人是Radical Ventures的科學合夥人)、輝達風投部門、沙烏地阿拉伯Sanabil Investments和新加坡淡馬錫。天使投資人包括GoogleDeepMind首席科學家傑夫·迪恩(Jeff Dean),以及圖靈獎得主傑佛瑞·辛頓(Geoffrey Hinton)。World Labs的核心技術理念叫做空間智能,這是一種“升維”的概念。目前的頂尖AI雖然看起來很聰明,但它們本質上是“二維”的。它們只是處理文字序列或者像素排列,它們並不理解體積、有重量、受重力影響的實體。World Labs的空間智能技術,就是要賦予AI“對三維世界的認知能力”。以生成視訊為例,空間智能是直接生成一個具有三維結構、且符合物理規律的虛擬環境,然後再在這個環境裡去模擬要生成的實體。實體不僅有長寬高,還有材質和物理反饋。在傳統的AI訓練中,模型學習的是像素之間的機率關聯,比如藍天下面通常是綠地,綠地旁邊通常是小溪。但World Labs的世界模型則是基於三維幾何與物理模擬的原理進行訓練的。它在學習資料的過程中,得到的不僅僅是圖像的紋理,還有圖像背後的空間幾何資訊(比如深度、遮擋關係、透視角度)以及物理動力學規則(比如剛體如何碰撞、流體如何流動、光線如何反射)。2025年11月,World Labs推出首款商業產品Marble,這是一個能夠從文字、圖像、視訊或粗略3D佈局生成持久化3D世界的模型。Marble的技術底層採用神經輻射場(NeRF)和高斯點雲(3D Gaussian Splatting)技術,而非傳統的多邊形網格。神經輻射場是一種利用神經網路表示三維場景的技術,它將場景表示為連續的體積函數,輸入三維空間坐標和觀察方向,輸出該點的顏色和體積密度。這種方法通過多層感知機學習場景的幾何和光照資訊,然後通過體積渲染生成逼真的新視角圖像。相當於在相同場景內,從每一個角度對實體進行拍攝,這樣生成實體以後,使用者從那個角度看都符合物理規律。高斯點雲則是另一種三維表示方法,它用數百萬個帶有位置、大小、形狀、顏色和透明度屬性的高斯橢球體來表示場景,渲染速度比神經輻射場快得多,同時保持了高品質的視覺效果。類似於樂高,通過小積木塊最終搭建成完整的實體。這使其能夠生成連續的輻射場,包含空間理解、光照和深度資訊的完整環境,而不是簡單地組裝多邊形。在2026年CES大會上,李飛飛在AMD CEO蘇姿丰的主題演講中展示了Marble的能力。李飛飛說:“將少數圖片變成連貫、即時的世界,不再是對遙遠未來的一瞥,而是下一章的開始。AI 正在給人們的生活帶來一些改變,將少數圖片或照片轉化為一個即時可探索的世界。空間智能需要極致算力支援,才能實現可互動級影格率和無限持久的世界互動。”World Labs採用免費增值模式,免費版提供4次生成,20 美元每月可獲得更多生成次數,最高95美元每月提供75次生成和商業使用權。目標客戶包括遊戲開發者、影視特效製作、虛擬現實應用。而且Marble還支援蘋果Vision Pro和Quest 3 VR頭顯,每個生成的世界都可以在VR中查看。更重要的是,Marble可以匯出與Unreal Engine和Unity相容的格式,這意味著它可以無縫整合到現有的遊戲開發流程中。李飛飛曾在訪談中表示,這項技術可能顛覆Unity和Epic Games的Unreal Engine等傳統遊戲引擎。除了AIGC產業,World Labs還瞄準機器人訓練市場,通過模擬環境訓練機器人的自主導航軟體。世界模型可以為機器人提供一個安全的虛擬訓練場,讓它們在數字空間中學習物理互動、因果關係和長期規劃,然後再應用到真實世界。AMI Labs的技術優勢是什麼?但AMI Labs不像李飛飛的World Labs那樣擁有實際的產品,目前還只停留在技術概念階段。潛在投資方包括Cathay Innovation、Greycroft、Hiro Capital(楊立昆是Hiro Capital的顧問)、20VC、法國公共投資銀行Bpifrance、Daphni和HV Capital。要注意,楊立昆在AMI Labs裡擔任的是執行主席而非CEO。該公司CEO職位由亞歷克斯·勒布朗(Alex LeBrun)擔任,他是醫療AI初創公司Nabla的聯合創始人兼前CEO。LeBrun的前一家公司Wit.ai被Meta收購後,他曾在FAIR直接向楊立昆匯報。團隊還包括Meta歐洲副總裁勞倫特·索利(Laurent Solly),他於2025年12月離職加入AMI。不僅如此,AMI Labs有法國總統親自背書。法國總統馬克宏對楊立昆選擇巴黎表示自豪,承諾將盡一切努力確保他從法國取得成功。AMI Labs的核心技術是楊立昆多年倡導的聯合嵌入預測架構(JEPA,Joint Embedding Predictive Architecture)。以往的AI,都是逐token生成輸出的,然而聯合嵌入預測架構能一口氣直接以抽象表示的形式來建立世界,能夠更好地預測未來狀態。聯合嵌入預測架構的工作原理是,它不預測原始像素或token,而是預測高層次的嵌入表示。系統有兩個編碼器,一個處理上下文資訊,另一個處理目標資訊,還有一個預測器在嵌入空間中進行預測。這種方法避免了生成模型的一個關鍵問題,生成模型必須預測每一個像素或token,包括那些不可預測的隨機細節,而聯合嵌入預測架構只關注可預測的高層次特徵,忽略無關緊要的細節。楊立昆在哈佛演講中解釋,這類系統通過在嵌入空間中進行最佳化來實現規劃和推理。AMI Labs公司將推進AI研究並開發可靠性、可控性和安全性真正重要的應用,特別是工業過程控制、自動化、可穿戴裝置、機器人、醫療保健等領域。AMI Labs的第一個應用將是醫療保健。具體來講,AMI Labs通過與Nabla合作,開發臨床護理AI助手。截止發稿,這個AI助手已獲得了1.2億美元融資,預計兩年內達到1億美元年度訂閱收入。作為交易的一部分,Nabla獲得AMI世界模型的特權訪問權,而亞歷克斯從CEO轉為首席AI科學家兼董事長。亞歷克斯表示,他加入AMI的一個重要原因是將世界模型應用於醫療保健的前景,因為醫療保健的複雜性和高風險性使其成為測試世界模型的理想場景。FDA認證要求確定性、可解釋的推理,這正是LLM無法提供而世界模型承諾實現的。大語言模型存在幻覺問題,在醫療場景中可能導致嚴重後果,而世界模型通過建立對患者生理狀態的內部模擬,可以預測疾病進展,提供更可靠的決策支援。2026年1月,楊立昆還加入了另一家初創公司Logical Intelligence,擔任技術研究委員會創始主席。這家公司推出了名為Kona 1.0的能量基礎推理模型,通過對約束條件評分來驗證和最佳化解決方案,尋找最低能量也就是最一致的結果。這種非自回歸模型也和AMI Labs的聯合嵌入預測架構相似,能夠一口氣生成完整的推理軌跡。能量基礎模型是一類通過能量函數來定義機率分佈的模型。在這個框架中,每個可能的輸出都被賦予一個能量值,能量越低表示該輸出越符合約束條件。模型通過最佳化過程尋找能量最小的解決方案。這種方法的優勢在於可以同時考慮多個約束條件,並且可以進行全域最佳化,而不是像自回歸模型那樣只能做局部決策。楊立昆表示,AGI的最終狀態不會來自單一模型類別,而需要能量基礎模型、LLM、世界模型等組成的相互依存的生態系統。都是世界模型,兩家又有什麼不同?雖然李飛飛和楊立昆都在建構世界模型,但技術路線存在根本差異。由於技術還處於早期,World Labs的Marble本質上還是傳統的生成式AI方法。它確實能生成3D世界,但這些世界本身還不具備物理知識。World Labs聯合創始人在採訪中表示,Marble生成的羅馬拱門並不知道如果移除一塊磚,其他磚可能會掉落。它只是學會了羅馬拱門在視覺上應該是什麼樣子,而不是理解支撐它的物理原理。這種方法在創意內容生成方面表現出色,可以快速產出視覺上令人信服的場景,但缺乏對因果關係的深層理解。相比之下,因為楊立昆的聯合嵌入預測架構能夠直接生成完整的結果,它就能夠表示出來這裡面的因果關係。但是在市場方面,World Labs已經獲得了早期客戶。World Labs透露已有多家組織採用了Marble API。這種先發優勢使其在融資談判中佔據有利位置。World Labs明確瞄準創意產業,這些市場已經存在,客戶有明確的痛點,3D 內容製作成本高、周期長,Marble提供了立竿見影的價值。遊戲開發者可以用Marble快速生成背景環境,然後在Unity或Unreal Engine中加入互動邏輯。影視製作團隊可以用它進行虛擬場景預覽,大幅縮短前期製作時間。從商業角度看,World Labs的策略更加務實。它選擇了一個已經存在的市場,提供了一個可以立即使用的產品,並且建立了清晰的商業模式。AMI Labs有點超前,它押注於一個尚未成熟的市場,追求技術突破,給這片全新的市場帶來需求。這種方法風險更高,但如果成功,回報也會更大。李飛飛的World Labs紮根矽谷,投資方以美國VC為主,雖然也包括沙烏地阿拉伯和新加坡主權基金。這使其能夠充分利用矽谷的人才、資本和客戶網路。反觀楊立昆,他選擇巴黎作為總部,這不僅是個人偏好,更是戰略選擇。歐盟正在建立AI主權,減少對美國科技巨頭的依賴。AMI Labs獲得法國政府的高調支援,可能在歐洲監管環境中獲得優勢,特別是在醫療保健等高度監管的領域。兩家公司的人才策略也有所不同。World Labs主要招募的是大量電腦視覺和圖形學背景的研究者,這些人擅長處理視覺資料和渲染問題。AMI Labs方面則更傾向於招募有機器學習理論和物理建模背景的研究者,這些人更關注模型的數學基礎和泛化能力。李飛飛相信通過大規模資料和計算,可以讓模型學會對空間的隱式理解,即使它不明確建模物理規律。這種方法在電腦視覺領域已經被證明有效,ImageNet項目就是最好的例證。楊立昆則堅持認為,真正的智能需要顯式的世界模型,需要理解因果關係而不僅僅是相關性。他多年來一直批評純粹的生成式方法,認為它們無法達到人類水平的推理能力。所以看下來,雖然兩個人的技術完全不同,然而實際上,這兩條路之間好像也沒有那麼水火不相容。事實上,它們可能最終會融合。World Labs的生成能力可以為楊立昆的因果模型提供豐富的訓練資料,而聯合嵌入預測架構的推理能力可以增強Marble的物理一致性。AI的未來可能不是選擇其中一條路,而是找到兩者的最佳結合點。無論那條路徑最終勝出,世界模型都代表了AI從理解語言到理解物理世界的重要轉變。它意味著我們不再滿足於讓AI模仿人類的語言能力,而是要讓它理解什麼才叫客觀規律。 (新浪科技)
Google開放世界模型Genie 3試用:AI即時生成可玩世界,人人都能創造“我的世界”
剛剛,Google開放了世界模型Genie 3實驗性研究原型Project Genie的使用,此前在25年8月,Google曾初步預覽了Genie 3的世界模型,它能夠生成多樣化的可互動環境。早期測試者已經用它創造了一系列世界和體驗,並行現了全新的使用方式。現在,通過這個專注於沉浸式世界建立的互動原型,Google決定擴大其使用範圍年滿18歲的美國Google AI Ultra訂閱使用者今天起可以率先體驗,這個原型,旨在讓使用者能夠建立、探索並重混屬於自己的互動世界體驗地址:https://labs.google/projectgenie介面長這樣:如何玩轉Project GenieProject Genie是一個原型Web應用,由Genie 3、Nano Banana Pro和Gemini共同驅動,使用者可以通過它親身體驗世界模型帶來的沉浸式感受。工作流程如下:🔵 設計: 使用文字和視覺提示設計你的世界和角色。🔵 預覽: Nano Banana Pro會生成一個圖像預覽,供你在進入前進行調整。🔵 生成: Genie 3世界模型會隨著你的移動即時生成環境。🔵 重混: 在作品庫中重新混合現有世界或發現新世界。該體驗圍繞三個核心能力建構:1. 世界草圖繪製 (World sketching)通過文字提示以及生成或上傳的圖像,建立一個生動且不斷擴展的環境。你可以建立自己的角色和世界,並定義探索方式——從步行、騎行、飛行到駕駛,以及任何其他方式為了實現更精確的控制,Google整合了“世界草圖繪製”與Nano Banana Pro。這讓使用者可以在進入世界前預覽其樣貌,並修改圖像以進行微調。你還可以定義角色的視角——如第一人稱或第三人稱——從而在進入場景前控制你的體驗方式2. 世界探索 (World exploration)你創造的世界是一個等待探索的可導航環境。當你移動時,Project Genie會根據你採取的行動即時生成前方的路徑。在穿越世界的過程中,你還可以調整鏡頭。3. 世界重混 (World remixing)你可以基於現有世界的提示詞進行建構,將其重混成新的詮釋。你也可以在作品庫或通過隨機功能探索精選世界以獲取靈感,或在它們的基礎上進行創作。完成後,你可以下載你的世界和探索過程的視訊AGI與世界模型世界模型用於模擬一個環境的動態變化,預測其演變方式以及行為所帶來的影響。儘管Google DeepMind在國際象棋或圍棋等特定環境中已擁有成熟的智能體,但建構AGI需要能夠駕馭現實世界多樣性的系統。為此,Google開發了Genie 3。與靜態3D快照中的可探索體驗不同,Genie 3能夠在你移動和與世界互動時,即時生成前方的路徑。它能為動態世界模擬物理和互動,其突破性的一致性使得模擬任何真實世界場景成為可能——從機器人技術、建模動畫和小說,到探索地點和歷史場景。基於與各行業和領域的信任測試者合作的模型研究,Google通過實驗性研究原型Project Genie邁出了下一步寫在最後Project Genie是Google Labs中的一個實驗性研究原型,由Genie 3驅動。由於Genie 3仍是一個早期的研究模型,存在一些已知的待改進領域:生成的世界可能看起來不完全逼真,或不總是嚴格遵循提示詞或圖像,或不符合現實世界的物理規律角色有時可能不太可控,或在控制時延遲較高生成時長限制在60秒內此外,去年8月宣佈的某些Genie 3模型功能,例如在你探索時可以改變世界的“可提示事件”(promptable events),尚未包含在此原型中。 (AI寒武紀)