去年11月,史丹佛大學教授李飛飛提出一個概念:世界模型,在AI行業引發廣泛討論。與此同時,李飛飛的公司——World Labs,估值飆升至50億美元;同樣關注大模型的科學家楊立昆,估值也超過30億美元。於是,一個關鍵的話題產生:世界模型是人工智慧的終局嗎?本文將對該話題展開探討。參與本次探討的嘉賓如下:核心亮點提前看:1、什麼是“世界模型”?答:讓AI理解和預測現實世界的模型。版本很多,沒有共識。2、為什麼世界模型如此火?答:融資猛,估值高,對人類極其有用。3、世界模型是AI的終局嗎?答:可能是。AI把執行幹了,人類只需要去捲創意。4、世界模型可以怎麼賺錢?答:做成產品,比如具身智能的大腦。更多精華,請看圓桌現場實錄。- 01 -世界模型到底是啥?林覺民: 現在“世界模型”確實很火,大家看到楊立昆融到了幾十億美金,李飛飛也融到了50億美金,這些公司的估值都在飛速上漲,國內也掀起了一波新的浪潮。但有意思的是,到底什麼是“世界模型”,好像大家各有各的說法。王晟:首先,大家對世界模型的理解可能並不一致。實際上,世界模型有兩種典型的流派:一種是具身智能的世界模型,另一種是數字空間的世界模型。我們理解的世界模型,並非完全模擬真實世界,而是針對特定的領域或“world”進行建模。比如醫療領域、金融領域、法律領域,每個領域都可以看作一個獨立的world。以醫療為例,假設我們建構了一個“醫療世界模型”,它可以模擬你得病後的整個過程。人們若得了甲流,通過這個模型,我們可以看到患者不干預時的身體反應、症狀變化、以及生化指標的變化。如果患者進行了治療,模型會顯示你用藥後的效果,直到康復或是病情加重。我們通過這種模型來探索真實的“ground truth(基礎真理)”。比如我們投資的清華紫荊智康團隊,他們的醫療AI在30多個、接近40個疾病診療領域,診斷水平已經超過了全球97%的醫生。他們的成功,正是因為通過醫療世界模型,模擬出疾病發展的全過程。通過這種world model(世界模型),我們可以讓AI更快地學習,甚至讓它在短時間內積累經驗,成為世界頂尖的醫生。武偉:我們認為,要搞清楚世界模型的本質,首先需要理解它的兩個核心關鍵詞:模擬和互動。“模擬”是指通過模擬技術建構一個虛擬世界,來訓練AI進行推理和決策。而“互動”則是指通過與環境和人類進行互動,讓AI能夠更好地適應並反饋現實世界的變化。從學術和產業發展的角度來看,世界模型的概念大概是從2018年開始被提出的,至今已經發展了七八年。期間,世界模型主要有三種不同的流派:第一個流派是將世界模型用於模擬器,通過雲端合成大量模擬資料,供智能體訓練使用。輝達的Omniverse和Cosmos系統就是走這一路線。第二個流派是將世界模型作為通用互動介面,Google的Gemini3、李飛飛團隊的Marble等項目都屬於這一類,主要是用於娛樂和數字型驗的應用。第三個流派也是我們關注的重點,是將世界模型的推理能力直接賦能大腦,讓AI具備內生的空間推理和想像能力。通過這種方式,AI可以在沒有見過某些資料的情況下,通過推理和模擬,指導機器人進行更高效的決策和互動。這種方法與傳統的模仿學習不同,因為模仿學習依賴於離線資料的積累,而我們則更關注AI如何通過內生的模擬能力,來預測和適應新環境。武偉:在我們的理解中,世界模型是“基礎模型”(foundation model),是機器人原生所需要的基礎模型。我們需要建模的是:物理空間的移動和操作層面的內生認知,這是我們的技術路線。從我們的定義來看,世界模型其實是一個端到端的模型,或者可以理解為兩端式端到端的大模型。相比之下,千訣科技主要是做內腦架構,也就是人的大腦有多個分區,每個分區對應不同的小模型,或者用現在agent領域比較流行的詞彙——skills(技能)。這些小模型和頂層模型結合起來,可以實現更低功耗的大腦模擬。這是我對兩者的理解,當然,團隊的基因也起到決定性作用。我們基因決定了我們專注於模型的端到端建構,以及資料的擴展(scaling)。宋亞宸:李飛飛最近剛融了一輪,估值已經達到了50億美金。我悄悄看了他們的BP,裡面提到李飛飛所定義的世界模型有三個主要應用場景:第一個是娛樂行業的3D生成(3D generation in entertainment);第二個是XR(擴展現實)和元宇宙中的空間智能(spatial intelligence);第三個是機器人技術(robotics)。其實最早做的是前兩個場景。我想說的重點是,我認為世界模型可能確實是AI時代的終極答案,包含了兩件事:第一,世界模型能助力發展具身能力,讓各種各樣的具身場景變得更加普及,能讓更多的機器人替代人類的工作。第二,勞動力如果被解放了,那人類應該做些什麼呢?從農業時代到工業時代,再到資訊化時代,我們發現有兩個特點:1、人類的幸福指數越來越高,生命的周期越來越長,嬰兒的存活率越來越高,超市裡能買到的商品選擇越來越多;2、大家的工作時間卻越來越長,變得越來越“卷”。從最早的農業時代,人們的工作時長很短,但隨著時代發展,我們進入了一個更加“卷”的社會,特別是資訊時代,996(早九晚九)已經成為常態,大家為了大廠的“福報”而拚命工作。但AI的出現改變了這一切,理論上講,AI時代是更“卷”的,但實際上似乎沒有什麼需要再去“卷”的東西了,因為機器人可以代替人類做所有的事情。那麼,生產力和勞動力將去向何方?我自己有個理論,認為人類最終要卷的,是自己的創意本身。當AI可以零門檻、零成本、即時地幫助人類放大創意時,每個人都能創造世界級的、可互動的體驗,就像神創造了這個世界一樣,定下了物理規則,又造了萬物。如果這一天到來,人人都能創造出屬於自己的虛擬世界,甚至可以有更好的體驗。比如,重力不再侷限於9.8,你可以飛,可以長翅膀,也可以創造不同的社會規則、評價體系,甚至是物理規則。人類將有更多的選擇,把時間投入到自己真正喜歡的事情上。這將是一個人人為我,我為人人的時代,每個人都可以用AI放大自己的創意,吸引更多人加入到自己的世界中來。如果這種世界真能到來,那麼我們就是在為別人創造極樂世界的時代,像聖人一樣去為他人提供最好的體驗。AI在其中的角色,就是讓每個人像神一樣去創造完整的、世界級的、可互動的體驗。這就是我認為世界大模型對於AI終局如此重要的原因。未來每個人都能像“馬良”一樣,手握神筆,心想事成。蔣屹舟:世界模型最早的研究,主要是為了理解和預測我們周圍的物理世界。就像牛頓通過觀察蘋果掉下來的現象,推匯出了萬有引力的規律。沒有世界模型,我們的推理能力有限,只能根據已經觀察到的現象做判斷。隨著研究深入,李飛飛提出,世界模型不僅僅是理解世界,更重要的是預測世界。我們在十年前開始做“視訊預測”,用它來預測機器人的運動軌跡,這一思路對機器人非常有用。機器人在現實中需要能夠預測未來的情況,而不是只根據過去的資料做決策。比如,疊衣服這個看似簡單的任務,不同形狀的衣服需要不同的操作。通過世界模型,機器人能更好地理解衣服的特性,從而做出更精準的動作。類腦智能是我目前關注的方向,它強調多個小模型的協作,而不是一個大模型解決所有問題。在機器人領域,世界模型幫助機器人預測未來的情景,這樣它們在執行任務時可以更加高效。比如,機器人在打掃衛生時,會根據預測的結果調整任務步驟,提高執行效率。一個有趣的實驗是給塑料袋打結。我們最初的訓練方法並不夠靈活,後來我們創造了一個“塑料袋世界模型”,讓機器人理解不同塑料袋的物理特性,能夠智能化地處理各種情況。這種方法讓模型能適應更多的場景,而不僅限於特定的任務。簡單來說,世界模型幫助機器人更好地理解和預測未知世界,從而提高工作效率。- 02 -世界模型怎麼落地?誰能跑出來?林覺民:世界模型的發展方向如此多樣,大家最終競爭的是什麼?每個人的技術路線不同,最後如何比較?王晟:從投資人的角度來看。為什麼大家都在關注世界模型?對我們投資人來說,“世界模型”現在是共識標籤——就像前兩年的“具身智能”,一聽就覺得很想投。但實際上,這只是一個共識的標籤。大家對世界模型的定義並不相同,就像我們今天在座的幾位嘉賓,每個人的理解都不完全一致。作為投資人,我們願意接受所有看似合理的世界模型定義,關鍵在於它是否能夠落實到具體的技術實施,是否能夠持續增長,且有較高的市場潛力。從我個人的視角來看,未來的世界模型需要具備兩個核心要素:首先是擁有一套接近“真實世界”(ground truth)的驗證系統,這個系統必須能夠生成大量高品質的資料。資料不僅僅是要多,還要足夠真實和高品質,以便為模型訓練提供有價值的反饋。其次,資料分佈要平衡,既要有稠密資料,也要涵蓋稀疏資料的情況,這樣才能避免模型過擬合,也能確保訓練出更具泛化能力的模型。通過世界模型生成大量高品質資料,是訓練模型的基礎。武偉:如果從商業本質角度來看,世界模型的競爭還是要回到一個核心問題:一個公司能否在競爭中存活。作為商業公司,我們必須明白,只有兩種方式能夠確保生存。要麼有健康現金流,要麼有高增長、高天花板的路徑。從世界模型的發展階段來看,目前更接近第二種模式——快速增長的階段。做世界模型的公司,是否能找到適合自己的落地方向,並且能夠快速增長,是決定能否存活的關鍵。以我們為例,我們的第一個產品化方向就是具身大腦。我們通過思維實驗來推算,人類一生收集的資料量大約是300萬段每分鐘的視訊片段(clips),這相當於18歲之前積累的經驗。如果我們假設一個工種需要一年時間來熟練掌握,那麼大約是3億段clips的資料量。我們通過這些資料的積累,來預估人類世界模型的最大智能化上限。如果我們能夠建構一個擁有十億級資料量的世界模型,並通過預訓練使其在零樣本和少樣本的情況下表現得足夠強大,那麼這個世界模型的商業價值就會非常高。因此,未來的關鍵是如何收集足夠高品質的資料,進行良好的預訓練,並最終在實際應用場景中具備強大的泛化能力。宋亞宸:其實,我們需要思考一個核心問題:為什麼現在大家都在討論世界模型?為什麼創業公司、資本和頂尖人才都在湧向這個領域?是因為AI發展到一定階段,世界模型應運而生嗎?還是因為具身智能技術發展成熟了?我認為,這兩個因素並不是世界模型崛起的根本原因。世界模型的出現,最根本的原因在於資訊載體的變化。過去,資訊載體的提升是一個不斷升維的過程,從文字到圖片,再到視訊,直到今天的3D世界。隨著資訊密度和體驗質量的提升,我們也迎來了3D和世界作為新的資訊載體。以往,文字、圖片和視訊曾是資訊表達的主流。但現在,隨著AI技術和硬體基礎設施的進步,3D以及更高維度的世界成為了我們表達和傳遞資訊的最終載體。過去幾千年,文字是表達世界的工具,但隨著資訊技術的發展,3D和世界的表達形式才剛剛開始成為主流。我們即將進入一個新時代,AI能夠幫助我們直接處理和理解3D世界,並且創造更豐富的互動體驗。這其實是資訊利用效率的提升。資訊密度越高,傳播效率就越快。當我們只能在古代的龜殼上刻字時,資訊傳播效率非常低;但隨著技術進步,網際網路、圖片、視訊的出現,傳播效率逐漸提高。而3D和世界本身,最終將成為我們資訊傳遞和創造的主要載體。蔣屹舟:我個人對世界模型的理解有些不同。我們做的是類腦智能,偏向非端到端的設計。最初我們是做類腦機器人的,尤其是在國家項目中,認為世界模型不僅僅侷限於視覺或某種單一的輸入模式。以一個盲人操作物體為例,即使他無法通過視覺來感知世界,但他依然能通過其他感官掌握物體的特性,並推測出自己的行為可能帶來的後果。這種因果關係的理解,才是我們認為最為核心的部分。通過類腦模型,我們的優勢在於對資料的需求不那麼大,傳統的強化學習需要大量資料,而我們採用的非端到端方法,通過理解世界的因果關係,就能有效減少資料需求。我們相信,世界模型不僅限於自然世界,它同樣適用於人類建構的世界。大語言模型(LLM)就是一個典型的例子,語言作為人類對世界的抽象工具,能夠幫助我們理解和表達大部分的事物。通過對這些抽象的理解,機器也可以建構出一個符合邏輯的世界模型。 (鉛筆道)