當 AI 學會“看世界”,會發生什麼?|李飛飛談 AI 的下一個十年

過去幾天,全球 AI 圈被一篇文章刷屏。

11 月 10 日,史丹佛教授、ImageNet 奠基人李飛飛在個人 Substack 發佈長文《From Words to Worlds》,隨後國內媒體連夜翻譯解讀,稱這是 AI 下一個十年的路線宣言。

在這篇萬字長文中,李飛飛拋出一個核心判斷:

今天的 AI,能言善辯卻缺乏經驗,知識淵博卻而根基不牢。
它們只是黑暗中的文字匠(wordsmiths in the dark)。
(李飛飛博士對當前大模型為代表的 AI 技術核心觀點)

她指出,大模型最強的能力在語言,但 AI 真正的下一跳不在語言裡,而在世界裡,她稱之為空間智能(Spatial Intelligence)

11 月 17 日的播客對話中,她進一步闡述:過去十多年,她用 ImageNet 幫機器看清圖像;今天,她和團隊在 World Labs 通過世界模型,讓 AI 在三維環境裡感知、預測和行動。

如果 AI 真能學會看世界,會怎樣?

不只是回答問題,不只是生成一段文字,而是在家裡、工廠、醫院、城市道路中自己找路、自己判斷風險、自己規劃動作。

到那時,被改變的不只是演算法,而是我們的工作方式、城市基礎設施和很多人的職業路徑。

從只會說話到看懂世界,AI 正在跨進下一代邊界。

第一節|AI 會說不會動,差在那?

大模型會說話,但它真的理解世界了嗎?

李飛飛用一個簡單測試說明問題:

“你拿一個模型,讓它跑一段關於幾個辦公室房間的視訊,然後讓模型數椅子的數量,這是一個蹣跚學步的孩子都能做到的事情,而 AI 做不到。”

而這正是她在機器人實驗室多年觀察後的結論。

眼下的 AI 系統,在語言和圖像生成上看起來已經全能,但只要進入現實世界,它就暴露出一個根本性短板:缺少空間感知能力。

李飛飛認為,我們的大模型看似聰明,但它根本不知道物體的距離、方向、位置,也無法預測簡單的物理變化。

它只能用語言去描述,而無法真正看懂場景、理解關係,更別說介入互動。

她在史丹佛從事機器人研究十多年,發現 AI 想要進入現實生活,不只是增加模型參數,而是必須補上這塊現實感知的能力。

她稱這種能力為空間智能(Spatial Intelligence)。

這是人類智能和 AI 當前最大差距所在,也正是李飛飛認為 AI 下一個十年必須突破的新起點。

第二節|世界模型:讓 AI 學會看世界

今天的大模型像是學霸在考試,卻不是生活中的高手。

在她看來,人類理解世界,不只是靠語言,更多是靠對空間的感知、對動作的預判、對環境的直覺。語言只是我們交流的工具,不是我們認知世界的全部。

那AI該怎麼走下去?

她提出一個核心概念:世界模型(World Model)。

簡單說:語言模型是會說話的大腦,世界模型是能動起來的大腦。

在李飛飛的定義中,世界模型可以讓人通過提示建立任何世界,並在其中自由互動:瀏覽、行走、拿起物體、改變事物、進行推理。

比如:

  • 給模型一個“臥室”這個詞,它不是畫出一張圖,而是生成一個你可以進入、走動、甚至躺在床上的虛擬臥室
  • 你說“把水壺從桌子上移到灶台上”,它知道水壺在那,知道怎麼移動它、移動完應該在什麼位置
  • 給定一個實驗室場景,它能判斷“什麼東西可以動”“那些順序合理”“這個動作的後果是什麼”

這才是真正的智能,不只是描述世界,而是可以在世界中行動。

為什麼語言模型做不到?

舉了一個例子:

“想像一個混亂的急救現場,火災、交通事故或自然災害。人們如何組織救援、阻止災難、撲滅火災?”

其中很大一部分是動作,是對物體、世界、情境的自發理解。語言是其中的一部分,但很多時候,語言無法讓你去撲滅火災。

這就是差距所在:

語言模型處理的是線性資訊,是一句話接一句話的“平面推理”;

世界模型處理的是空間資訊,是動作、位置、時間、關係交織的“立體認知”。

在她的帶領下,World Labs 已經發佈了首個世界模型原型產品 Marble。這是世界上第一個可以生成真正 3D 世界的生成模型。

第三節|Marble:把想像變成可探索的世界

李飛飛和她的團隊在 2024 年創立 World Labs,用不到一年時間,就發佈了世界上第一個基於空間智能的產品原型 Marble(網站:https://www.worldlabs.ai/blog/marble-world-model)。

它不是一款聊天機器人,而是一個造世界的引擎。

在採訪中,她介紹這是團隊花一年多時間建構的世界上第一個可以生成真正 3D 世界的生成模型。

只需輸入一句話或一張圖,它就能生成一個立體空間場景。不是靜態畫面,而是可以走動、旋轉、進入互動的“真實世界”。

比如你輸入:

  • 一個廢棄的賽博朋克風格工廠
  • 山谷裡的木屋
  • 月球基地

幾秒鐘內,你就能看到光照怎麼變化、房間裡有什麼物體、路徑怎麼走,甚至可以戴上 VR 裝置沉浸式探索。

很多人第一反應是:這是不是跟現在那些 AI 視訊工具一樣?

李飛飛明確指出了區別:

視訊只能看,Marble 可以動、可以逛、可以互動。

可以這樣理解:生成視訊是在給你看一個世界的錄影,Marble 是直接造出那個世界,讓你進去。

而且,這不是拼圖式疊加,而是通過空間感知能力,把光、影、結構、物體關係都織成一個連貫系統,讓這個世界有邏輯、有深度、能探索。

AI 不只是輸出圖像,而是能自己組織一個真實世界。

在這背後,是一整套和語言模型完全不同的架構邏輯,團隊需要解決幾項關鍵挑戰:

  • 不是標註詞彙,而是學習真實世界裡的幾何、動態和物理規律
  • 模型能記住之前場景的狀態(比如桌子上原來有本書,後來被移開)
  • 輸出不是句子,而是可被匯出為網格(mesh)、用於遊戲、機器人訓練、VR 場景的真實三維資料

甚至團隊特意保留了一些可視化過程的元素,讓使用者能看到模型怎麼一步步建構場景。

李飛飛提到,那些點狀引導其實一開始只是個輔助設計功能,沒想到意外成為使用者最喜歡的部分。

誰在用 Marble?

這不是實驗室裡的演示品,Marble 已經開始落地真實場景。李飛飛提到了一個令人驚訝的數字:他們和索尼合作拍攝發佈視訊,製作時間縮短了 40 倍。

而且這只是開始,更多應用場景正在湧現。

過去,創造一個沉浸式空間,需要一個工作室、一整組工程師、設計師和幾周時間。現在,一個人,一句話,就可以建起一個世界。

接下來,是把造世界的能力從實驗室交給每一個普通創作者。

第四節|誰會最先用上空間智能?

空間智能不是遙遠的技術,它會直接影響你怎麼創作、怎麼工作、怎麼學習。

AI 的下一步在那裡?不在對話方塊裡,而在沉浸式世界裡。一個真實的體驗空間:如何講故事、如何操控機器、如何探索知識。

最先受影響的,是這三類人。

✅ 創作者:講故事這件事,要被重構了

李飛飛最先講的,不是科學,也不是機器人,而是創造力

在她看來,世界模型最先爆發的領域不是重工業,而是講故事的人:

  • 影視導演、動畫工作者、虛擬拍攝團隊
  • 遊戲設計師、VR開發者、敘事類AI應用開發者
  • 普通創作者、學生、甚至孩子

Marble 已經在這些場景中落地:

  1. 他們與索尼合作,使用 Marble 的場景拍攝發佈視訊。虛擬製作公司反饋說,這使製作時間縮短了 40 倍。
  2. 使用者已經將 Marble 的場景和匯出的網格放入遊戲中,無論是 VR 遊戲還是其他開發的遊戲。

這種從文字到世界的跳躍,讓創作從構思階段就進入沉浸式模式。

創作不再是先畫草圖、做建模、再渲染,而是直接生成一個世界,然後你走進去。

✅ 機器人:讓 AI 真正動起來的關鍵環節

AI 進入機器人,一直是行業共識,但為什麼遲遲沒有爆發?

李飛飛的答案是:沒有空間智能,機器人就看不懂世界。

傳統機器人訓練一個動作,需要大量真實場景的資料、手工編寫的程式碼和規則。現在有了世界模型,機器人可以在 AI 生成的模擬世界中自主學習。

在李飛飛的機器人訓練研究中,最大的痛點之一就是建立合成資料。這些資料需要非常多樣化,來自不同環境,擁有不同的操縱對象。。

Marble 正是為此而生。已經有研究人員聯絡他們,希望使用 Marble 來建立那些合成環境。

這個虛擬環境的最大價值,是它能動、能改、能重來,而且生成成本極低。

但技術突破只是第一步,更重要的是機器人如何與人協作。

她特別提到醫護領域:隨著社會老齡化,AI 可以幫助減輕護士的工作負擔,讓他們有更多精力照顧患者。空間智能,正是為這種人機協作提供基礎。

✅ 科學、醫療、教育:AI不只是幫你寫,還能幫你建構理解

最後三個落地方向,是李飛飛長期堅持的學術領域:科研、醫療、教育。

1)科學研究:從二維到三維的認知飛躍

李飛飛在採訪中舉了一個令人印象深刻的例子:DNA 雙螺旋結構的發現。

羅莎琳德·富蘭克林拍攝的 X 射線衍射照片是一張平面二維的照片,但詹姆斯·沃森和弗朗西斯·克里克能夠在 3D 空間中進行推理,並推匯出 DNA 的高度三維雙螺旋結構。

那種結構不可能是二維的。你不能在二維中思考並推匯出那個結構。你必須利用人類的空間智能在 3D 空間中思考。

這正是空間智能在科學發現中的價值所在。

2)醫療健康:從影像診斷到心理治療

空間智能讓 AI 能理解影像中的結構、位置、動態,這對放射科醫生等專業人員意義重大。

Marble 已經有意想不到的應用。有心理學家團隊聯絡他們,希望用 Marble 進行心理學研究。

研究人員需要瞭解精神病患者的大腦如何對具有不同特徵的沉浸式場景做出反應,例如凌亂的場景或乾淨的場景。而研究人員很難獲得這類沉浸式場景,自己建立會花費太長時間和太多預算。Marble 能幾乎瞬間將如此多的實驗環境交到他們手中。

3)教育場景:讓抽象知識變得可感知

抽象的數學、化學、生物概念也可以變成可進入的模擬世界。

學生可以走進一個細胞、模擬一次火山噴發,提升理解深度。AI 讓知識變得可感知,而不只是可背誦。

總結一下,誰會最早用上空間智能?

  • 想建一個世界觀的創作者
  • 想讓機器真正動起來的開發者
  • 想用 AI 做模擬、教學、輔助理解的研究者與一線工作者

Marble 是第一步,更多可能才剛剛開始。

結語|從會說到會看,AI 的下一個十年

很多人以為,AI 的盡頭是像人一樣說話。

但李飛飛看得更遠:語言只是人類智能的一部分,甚至不是最根本的那部分。

今天的大模型已經可以模擬我們的語言表達,但還無法看見這個世界,更無法在其中行動與創造。

空間智能,是 AI 跨出紙面的關鍵一步。

從 ChatGPT 到 Marble,我們看到一個清晰的方向:AI 正在從語言智能,走向世界理解。

未來的智能不再只活在對話方塊裡,而是出現在每一張設計圖、每一次協作、每一個沉浸式場景中。

李飛飛的核心理念始終如一:AI 不是取代人,而是增強人。

這就是空間智能的意義。它不是替你思考,而是讓你看得更遠、想得更深、動得更快。

AI 的下一個十年,不在模型參數有多大,而在它能否真正理解並融入這個世界。 (AI 深度研究員)