李飛飛最新長文刷屏,AI 下一個十年最需要的不是大模型

當 ChatGPT 震驚世界時,我們以為 AI 已經足夠聰明。但它依然做不到一件事:精準判斷你伸手去夠桌邊咖啡杯時,手指距離杯沿還有多少釐米。

今天,知名 AI 學者李飛飛用一篇部落格回答了這個問題:真正的智能不只是文字遊戲,而是藏在一個我們每天都在使用卻從未意識到的能力裡:

空間智能。

這是一種比語言更古老的智能,改變人類文明的時刻,從來依靠的都不是語言,而是對空間的感知、想像與推理。

比如古希臘學者通過觀察影子計算出地球周長,科學家擺弄金屬絲拼出DNA的雙螺旋結構,消防員在煙霧中憑直覺判斷建築是否會坍塌。

而現在,AI 即將獲得它一直缺失的這種能力。

省流版如下:

1. 當前 AI(特別是大型語言模型 LLM)雖然那改變了我們運用抽象知識的方式,語言能力很強,卻缺乏對物理世界的真實經驗和理解。它們在機器人、科學發現、沉浸式創造力等領域仍有根本侷限。

空間智能是人類智能的基石,甚至先於語言存在。它不僅支撐著我們與物理世界的日常互動(如駕駛、接住鑰匙),也是人類想像力、創造力和科學發現(如古希臘測量地球周長、DNA 雙螺旋結構的發現)的核心。

它是人類認知賴以建構的「腳手架」。

2. 儘管多模態模型(MLLM)有所進步,但 AI 在空間能力上與人類相差甚遠。它們無法精準估計距離、方向,無法在腦中「旋轉」物體,也無法預測基本的物理規律。AI 缺乏這種能力,就無法真正與物理現實建立聯絡。

要實現空間智能,我們需要超越 LLM,建構更具雄心的「世界模型」。這是一種全新的生成式模型,其能力遠遠超越當今的 LLM。李飛飛與 World Labs 正致力於此。

3. 李飛飛定義了世界模型必須具備的三種能力:

  • 生成性 (Generative):能夠生成在感知、幾何和物理規律上保持一致性的世界。
  • 多模態性 (Multimodal):天生設計為多模態,能處理和輸出多種形式的資訊(如圖像、視訊、深度圖、文字、動作)。
  • 互動性 (Interactive):能夠根據輸入的「動作」,預測或輸出世界的「下一個狀態」,並最終可能預測「下一步應採取的行動」。

4. 李飛飛認為,建構世界模型遠比建構語言模型困難,因為世界的維度遠超語言。這需要克服三大挑戰:

  • 新的訓練任務:需要找到類似 LLM 中「下一個詞預測」那樣優雅的通用任務函數,但難度更高。
  • 大規模資料:需要能從海量的網際網路圖像和視訊中提取深層空間資訊,並輔以合成資料和多模態資料。
  • 新的模型架構:需要超越當前 1D/2D 序列範式,發展出具備 3D 或 4D 感知能力的新架構(比如 World Labs 的 RTFM 模型)。

5. AI 應當增強人類的能力,而非取而代之。AI 應始終尊重人的自主性與尊嚴。空間智能正是這一願景的體現,它旨在賦能人類的創造力、關懷能力和科學發現。

6. 空間智能的應用將分階段展開:

  • 近期(創造力):賦能故事講述、電影、遊戲和建築設計。World Labs 已推出 Marble 平台,幫助創作者建構 3D 世界。
  • 中期(機器人學):實現「行動中的具身智能」。世界模型將通過模擬訓練,使機器人成為人類的協作助手。
  • 長期(科學、醫療與教育):在藥物研發、材料科學、輔助診斷、環境感知監護以及沉浸式教育等領域產生變革性影響。

7. 探索空間智能是李飛飛科研生涯的「北極星」。沒有空間智能,「真正智慧型手機器」的夢想就無法實現。她呼籲整個 AI 生態系統共同努力,將這項技術用來造福全世界。

從語言到世界:空間智能是人工智慧的下一個前沿

1950 年,當電腦還只是自動化運算和簡單邏輯的工具時,Alan Turing 提出了一個至今仍迴蕩的問題:機器能思考嗎?他以非凡的想像力看到了一個大膽的可能——智能也許有一天不是天生的,而是被「創造」出來的。這個洞見後來開啟了一場被稱為「人工智慧(AI)」的不懈科學探索。

在我從事人工智慧研究的二十五年裡,Turing 的遠見依然激勵著我。但我們離那個目標還有多遠?這個問題並不容易回答。

如今,領先的人工智慧技術——例如大型語言模型(LLM)——已經開始改變我們獲取和運用抽象知識的方式。

然而,它們依然像在黑暗中打磨文字的匠人:語言優美,卻缺乏經驗;知識豐富,卻未真正立足於現實。空間智能(Spatial Intelligence)將重新定義我們創造和體驗現實與虛擬世界的方式——它將徹底變革故事講述、創造力、機器人學、科學發現等多個領域。這正是人工智慧的下一個前沿。

自我進入這一領域以來,對視覺與空間智能的追求一直是我的北極星。

這也是我花費多年時間建立 ImageNet 的原因——這是第一個大規模視覺學習與評測資料集,與神經網路演算法以及現代計算(如 GPU 圖形處理單元)一起,成為現代人工智慧誕生的三大關鍵支柱之一。過去十年裡,我在史丹佛大學的實驗室致力於將電腦視覺與機器人學習相結合。

而正因為這一信念,我與聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 於一年多前共同創立了 World Labs——希望第一次真正實現這一願景。

在這篇文章中,我將解釋什麼是空間智能、它為何重要,以及我們如何建構能夠解鎖這種智能的「世界模型」——這種能力將重新塑造創造力、具身智能,以及人類的進步。

空間智能:人類認知的支架

人工智慧正處在前所未有的激動人心的時刻。生成式 AI 模型(如大型語言模型,LLM)已經從研究實驗室走進日常生活,成為數十億人用於創造、工作和交流的工具。它們展現出了曾被認為不可能的能力——能夠輕鬆生成連貫的文字、大量的程式碼、逼真的圖像,甚至短影片片段。

如今,我們已無需再問「AI 是否會改變世界」,因為無論從那個角度來看,它已經在改變世界。

然而,仍有許多目標尚未實現。自主機器人的願景依舊令人著迷,但仍停留在猜想階段,距離未來學家所描繪的日常生活場景還有很遠。

AI 在疾病治癒、新材料發現、粒子物理等領域中實現研究飛速推進的夢想,也仍然大體未能實現。而能真正理解並賦能人類創造者的 AI——無論是學習分子化學複雜概念的學生、構思空間的建築師、建構世界的電影製作人,還是追求沉浸式虛擬體驗的任何人——仍未到來。

要理解這些能力為何仍難以實現,我們需要回溯空間智能的演化歷程,並探究它如何塑造了我們對世界的理解。

視覺長期以來一直是人類智能的基石,但它的力量源於更為根本的機制。在動物能夠築巢、養育後代、使用語言交流或建立文明之前,最初那種感知的能力——那怕只是捕捉到一束光、一種觸感——就悄然點燃了通往智能的進化之路。

這種看似孤立的、從外部世界提取資訊的能力,在感知與生存之間搭起了一座橋樑,而這座橋樑隨著世代更迭不斷加固、擴展。層層疊疊的神經元在這座橋上生長,形成瞭解讀世界、協調有機體與環境互動的神經系統。

因此,許多科學家推測:「感知—行動」這一循環正是智能進化的核心驅動力,也是自然界創造出我們——這種能感知、學習、思考平行動的物種——的根本基礎。

空間智能在我們與物理世界的互動中起著至關重要的作用。

每天,我們都在依賴它完成各種看似平凡的動作:停車時通過想像車頭與路沿間逐漸縮小的距離來判斷位置;接住從房間另一頭扔來的鑰匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒時不用看就能把咖啡倒進杯子裡。

在更極端的情境下,消防員在坍塌的建築物中穿行,在煙霧瀰漫的環境中憑直覺判斷結構是否穩定、如何生存,並通過手勢、身體語言以及一種難以言傳的職業本能進行交流。而孩子們則在學會說話之前的幾個月甚至幾年裡,通過與環境的遊戲式互動來認識世界。

所有這一切都發生得自然而然、毫不費力——這正是一種機器尚未掌握的「本能流暢」。

空間智能同樣是我們想像力與創造力的基礎。講故事的人在腦海中建構出豐富的世界,並借助各種視覺媒介將其傳達給他人——從遠古的洞穴壁畫,到現代電影,再到沉浸式電子遊戲。

無論是孩子們在沙灘上堆砌城堡,還是在電腦上玩《我的世界》(Minecraft),以空間為基礎的想像力都是他們在現實或虛擬世界中進行互動體驗的核心。

在眾多行業中,對物體、場景以及動態互動環境的模擬也成為關鍵支撐——從工業設計到數字孿生,從機器人訓練到各種業務應用,空間智能驅動著無數重要的實踐場景。

縱觀歷史,空間智能在許多奠定文明走向的關鍵時刻都發揮了核心作用。

在古希臘,Eratosthenes 通過觀察「影子」悟出了幾何原理——他在亞歷山大測量到陽光與地面形成的 7 度角,並在同一時間注意到賽恩城沒有影子,由此計算出了地球的周長。

Hargreave 發明的「珍妮紡紗機」(Spinning Jenny)則通過一個空間佈局的巧思徹底革新了紡織業:他將多個紡錘並排安裝在同一架子上,讓一個工人能夠同時紡出多股紗線,從而將生產效率提高了八倍。

Watson 和 Crick 則通過親手搭建三維分子模型,擺弄金屬板與金屬絲,最終拼出了 DNA 的空間結構,讓鹼基對的排列方式恰如其分地契合在一起。

在這些案例中,空間智能都是推動人類文明前進的關鍵力量——科學家和發明家必須操控物體、想像結構,並在物理空間中進行推理,而這些過程是文字所無法完全表達的。

空間智能,是人類認知賴以建構的「腳手架」。無論是被動觀察還是主動創造,它都在發揮作用。

它驅動著我們的推理與規劃,即便面對最抽象的問題也是如此。它同樣決定了我們與世界互動的方式——無論是語言交流還是身體行動,無論是與他人還是與環境本身的互動。

雖然我們大多數人並不會每天都像 Eratosthenes 那樣揭示自然的奧秘,但我們依然以相同的方式思考——通過感官理解複雜的世界,並憑直覺掌握其中的物理與空間規律。

遺憾的是,如今的人工智慧還無法像這樣思考。

過去幾年中,人工智慧確實取得了巨大進步。多模態大型語言模型(Multimodal LLMs,簡稱 MLLM)在海量多媒體資料(除了文字外還包括圖像、音訊、視訊等)的訓練下,初步具備了某種「空間感知」能力。

如今的 AI 已能分析圖片、回答與圖片相關的問題,並生成極其逼真的圖像與短影片。同時,得益於感測器與觸覺技術的突破,最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。

但坦率地說,AI 的空間能力仍遠未達到人類水平,這種差距一眼便能看出。

當前最先進的 MLLM 模型在估計距離、方向、大小等方面的表現往往不比隨機猜測好多少——它們也無法像人類那樣在腦海中「旋轉」物體,從不同角度重新想像其形狀。它們不能穿越迷宮、識別捷徑,也無法預測最基本的物理規律。AI 生成的視訊雖然令人驚嘆,但往往在幾秒後就失去連貫性。

目前的尖端 AI 雖然在閱讀、寫作、研究和資料模式識別等任務中表現出色,但在理解或與物理世界互動時,卻存在根本性的侷限。

我們對世界的感知是整體性的——不僅看到「事物本身」,還理解它們在空間上的關係、意義以及重要性。而通過想像、推理、創造和互動來理解世界——而不僅僅是用語言去描述——這正是空間智能的力量所在。

缺乏這種能力,AI 就無法真正與它想要理解的物理現實建立聯絡。它無法安全高效地駕駛汽車,無法在家庭或醫院中靈活地引導機器人,也難以為學習與娛樂提供全新的沉浸式互動體驗,更無法大幅加速材料科學或醫學領域的發現。

哲學家維特根斯坦(Wittgenstein)曾寫道:「我的語言的界限意味著我的世界的界限。」

我並非哲學家,但至少我知道——對於人工智慧而言,世界不止於「語言」。空間智能代表著超越語言的前沿——它是一種將想像、感知與行動連接起來的能力,使機器真正能夠拓展人類的生活潛能,從醫療到創造力,從科學發現到日常助理,都因此煥發新可能。

人工智慧的下一個十年:建構真正具備空間智能的機器

那麼,我們該如何建構具有空間智能的 AI?怎樣才能讓模型既能像 Eratosthenes 那樣進行空間推理,又能像工業設計師那樣精確創造,像講故事的人那樣富有想像力,並像救援人員那樣在複雜環境中靈活行動?

要實現這一點,我們需要的不只是大型語言模型(LLM),而是一種更具雄心的體系——世界模型(World Models)。

這是一類全新的生成式模型,能夠在語義、物理、幾何與動態複雜的世界中——無論虛擬還是現實——進行理解、推理、生成與互動,其能力遠遠超越當今的 LLM。

這一研究領域尚處於萌芽階段,目前的探索方法從抽象推理模型到視訊生成系統皆有涉獵。World Labs 正是在這種信念下於 2024 年初創立的:我們認為,基礎方法尚未確立,而這正是未來十年人工智慧發展的決定性挑戰。

在這個新興領域中,最重要的是建立一套指導發展的核心原則。對於空間智能而言,我將「世界模型」定義為具備以下三種關鍵能力的系統:

1. 生成性(Generative):世界模型能夠生成具備感知、幾何與物理一致性的世界

要實現空間理解與推理,世界模型必須具備生成自身「模擬世界」的能力。它們應能根據語義或感知層面的指令,生成無窮多樣的虛擬世界——這些世界無論在幾何結構、物理規律還是動態變化上,都必須保持一致性,無論它們代表的是現實空間還是虛擬空間。

研究界正在積極探索這些世界應當以內在幾何結構的隱式還是顯式形式來表示。此外,除了具備強大的潛在表示能力,我認為一個通用的世界模型還必須能夠輸出清晰可觀測的世界狀態,以適應多種應用場景。尤其重要的是,模型對「當下世界」的理解必須與「過去世界」的狀態相連貫——它要能理解世界從過去如何演變到現在。

2. 多模態性(Multimodal):世界模型從設計上就是多模態的

就像人類與動物一樣,世界模型也應能處理多種形式的輸入——在生成式 AI 領域,這些輸入被稱為「提示(prompt)」。面對不完整的資訊(如圖像、視訊、深度圖、文字指令、手勢或動作),世界模型應能預測或生成儘可能完整的世界狀態。

這要求它在處理視覺輸入時具備接近真實視覺的精度,同時在理解語義指令時同樣靈活。這樣,智能體(agent)與人類都能通過多樣化的輸入與模型進行交流,並獲得同樣多樣化的輸出反饋。

3. 互動性(Interactive):世界模型能夠根據輸入的動作輸出下一步的世界狀態

最後,當「動作」或「目標」被作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一狀態,這種狀態可以是隱式的,也可以是顯式的。

當模型接收到一個動作(無論是否包含目標狀態)作為輸入時,它應能輸出與世界先前狀態、目標狀態(若有)、語義含義、物理規律及動態行為一致的結果。

隨著具備空間智能的世界模型在推理與生成能力上不斷增強,可以想像——未來面對某個給定目標時,世界模型不僅能夠預測世界的下一狀態,還能基於這一新狀態預測「下一步應採取的行動」。

這一挑戰的規模,遠超人工智慧以往所面對的一切。

語言,是人類認知中一種純粹的生成現象;而「世界」,卻遵循著複雜得多的規律。以地球為例,引力決定了運動規律,原子結構影響了光線的色彩與亮度,無數的物理定律限制著每一次互動。

即便是最天馬行空的虛構世界,也依然由服從這些物理法則與動態行為的空間物體和智能體所構成。要讓語義、幾何、動態與物理這幾種層面在同一模型中保持一致,需要全新的方法與思路。

世界的表示維度遠比語言這種「一維、序列訊號」複雜得多。要讓世界模型具備人類所擁有的那種通用能力,我們必須跨越多個艱巨的技術障礙。而在 World Labs,我們的研究團隊正致力於為實現這一目標奠定基礎性突破。

以下是我們當前正在研究的一些課題示例:

  • 一種新的通用訓練任務函數

為世界模型定義一個像大型語言模型(LLM)中「下一個詞預測」那樣簡單又優雅的通用任務函數,一直是該領域的核心目標。然而,由於世界模型的輸入與輸出空間更加複雜,這一函數的設計難度要高得多。

儘管仍有許多未知需要探索,但這種目標函數及其對應的表示方式,必須能夠體現幾何與物理規律,忠實地反映世界模型作為「連接想像與現實的有根表示」的本質。

  • 大規模訓練資料

訓練世界模型所需的資料複雜程度遠超文字資料。好消息是——龐大的資料來源已經存在。網際網路級的圖像與視訊資源,為訓練提供了豐富、可獲取的素材。真正的挑戰在於:如何開發演算法,從這些基於二維圖像或視訊幀(即 RGB 訊號)的資料中提取更深層次的空間資訊。

過去十年的研究表明,語言模型的性能提升遵循「資料量與模型規模的擴展規律」;而對於世界模型來說,關鍵突破在於建構能夠在相似規模下充分利用視覺資料的模型架構。

此外,我們也不應低估高品質合成資料以及深度圖、觸覺等額外模態的價值。它們在訓練過程的關鍵階段能對網際網路級資料起到補充作用。要讓這一過程更高效,還依賴於更先進的感測系統、更穩健的訊號提取演算法,以及更強大的神經模擬技術。

  • 新的模型架構與表徵學習

世界模型的研究必然會推動模型架構與學習演算法的革新,特別是超越當前多模態語言模型(MLLM)和視訊擴散模型的範式。現有方法通常將資料「分詞化」為一維或二維序列,這讓一些簡單的空間任務變得異常困難——例如在短影片中數清不同的椅子,或回憶一小時前房間的佈局。

新的架構可能帶來改進,比如在分詞、上下文與記憶機制中引入三維或四維感知能力。舉例來說,World Labs 最近開發的即時生成幀模型(RTFM)就是這種轉變的體現。該模型利用「以空間為基礎的幀」作為空間記憶單元,實現了高效的即時生成,同時在生成的世界中保持連續性與穩定性。

顯然,我們距離通過「世界建模」徹底釋放空間智能的潛能,還有許多艱巨的挑戰要克服。

這項研究不僅僅是理論探索——它是推動新一代創造性與生產力工具的核心引擎。而在 World Labs,我們已經取得了一些令人振奮的進展。

最近,我們向少量使用者展示了 Marble ——首個能夠通過多模態輸入進行提示(prompt),並生成、維持一致性三維環境的世界模型。它讓使用者與創作者能夠在這些虛擬空間中探索、互動,並將其納入創作流程中繼續擴展。我們正在努力,讓 Marble 盡快向公眾開放。

Marble 只是我們邁向真正具備空間智能的世界模型的第一步。

隨著研究的加速推進,科研人員、工程師、使用者和商業領袖都開始認識到這項技術的非凡潛力。下一代世界模型將讓機器實現一個全新的空間智能層次——這將解鎖當今 AI 系統中仍大多缺失的關鍵能力。

用「世界模型」建構更美好的人類世界

推動 AI 發展的動機至關重要。

作為一名參與開啟現代人工智慧時代的科學家,我的初衷始終明確:AI 應當增強人類的能力,而非取而代之。

多年來,我一直致力於讓 AI 的發展、應用與治理更好地契合人類需求。如今,關於科技烏托邦與末日論的極端敘事層出不窮,但我始終保持務實的信念:AI 由人創造,為人服務,並由人類治理。

它必須始終尊重人的自主性與尊嚴。AI 的真正魔力在於延展我們的能力——讓我們變得更有創造力、更具連接性、更高效,也更充實。

空間智能正體現了這一願景:

它是一種能賦能人類創作者、照護者、科學家與夢想家的人工智慧,幫助我們實現曾經無法實現的目標。正是這種信念,支撐著我將「空間智能」視為人工智慧下一個偉大前沿領域的決心。

空間智能的應用將分階段展開。

如今,創意類工具 已經開始出現——World Labs 的 Marble 已將這些能力交到創作者與故事講述者手中。

機器人學是中期目標,我們正在不斷完善「感知—行動」循環,使機器能夠在物理世界中靈活操作。

而最具變革性的科學應用可能需要更長時間,但它們的影響將深遠,足以促進人類福祉的全面提升。

在這些不同的發展階段中,有若干關鍵領域尤為突出——它們蘊含著重新定義人類能力的巨大潛力。

要實現這一目標,必然需要集體的努力——遠非一個團隊或一家公司所能獨立完成。

這將需要整個 AI 生態系統的共同參與:研究者、創新者、企業家、公司乃至政策制定者,都應攜手朝著共同的願景前進。

而這個願景,值得我們為之奮鬥。

未來,將由此展開。

創造力:為講故事與沉浸式體驗賦予超級能力

「創造力就是智慧在玩耍。」這是我最喜歡的一句名言,出自我個人的英雄——愛因斯坦。

在人類擁有文字之前,就已經在講故事了——在洞穴的牆壁上作畫、通過口口相傳流傳下來,並在共同的敘事中建立起整個文化。故事幫助我們理解世界,跨越時間與空間建立聯絡,探索「人類」意味著什麼。更重要的是,它幫助我們在生命與愛中找到意義。

如今,空間智能有潛力徹底改變我們創作和體驗故事的方式,不僅保留其根本的重要性,還將其影響力延伸至娛樂、教育、設計、建築等多個領域。

World Labs 的 Marble 平台為電影製作人、遊戲設計師、建築師以及各類講故事的人,提供了前所未有的空間能力和編輯控制權,讓他們能夠快速建立並反覆迭代可自由探索的 3D 世界,而無需傳統 3D 設計軟體所需的大量投入。

創造本身依舊是充滿人性和活力的行為,AI 工具只是放大並加速了創作者的潛能。這包括:

多維度敘事體驗:電影人和遊戲設計師正在利用 Marble 建構完整的虛擬世界,不再受限於預算或地理位置。他們能探索各種場景和視角,這在傳統的製作流程中幾乎是無法實現的。隨著不同媒介和娛樂形式的界限逐漸模糊,我們正邁向全新的互動式體驗形式,它融合了藝術、模擬和遊戲——一個個個性化世界,不再僅屬於大型工作室,而是任何人都可以創造和參與其中。隨著更快速的方法將創意和分鏡轉化為完整體驗,敘事將不再侷限於某一種媒介,創作者可以在各種平台和介面上建立擁有共同線索的故事世界。

通過設計實現空間敘事:幾乎所有製造出來的物品或建造的空間,在實際成形之前都必須先進行虛擬 3D 設計。這個過程通常需要大量時間和金錢,且高度反覆。而借助具備空間智能的模型,建築師可以在投入數月設計前快速可視化結構,甚至可以「走進」還不存在的空間——講述我們未來如何生活、工作和聚會的故事。工業設計師和時尚設計師也可以立即將想像轉化為形體,探索物體如何與人體和空間互動。

全新的沉浸式與互動體驗:體驗本身,是我們人類賦予事物意義的最深刻方式之一。在人類歷史的絕大多數時間裡,我們只擁有一個三維世界:我們共同生活的現實世界。直到近幾十年,通過電子遊戲和早期的虛擬現實(VR),我們才開始窺見由人類自己創造的另一個世界。而如今,空間智能結合虛擬現實(VR)、擴展現實(XR)頭顯以及沉浸式顯示裝置,使這些體驗達到了前所未有的高度。我們正走向一個未來——進入完整建構的多維世界將像翻開一本書一樣自然。空間智能讓世界建構能力不僅屬於擁有專業製作團隊的工作室,也屬於有故事、有想法的每一個人,包括獨立創作者、教育者以及任何想要表達願景的人。

機器人技術:行動中的具身智能

從昆蟲到人類,動物依靠空間智能來理解、導航並與周圍世界互動。機器人也不例外。具備空間感知能力的機器一直是機器人領域的夢想,我在史丹佛的研究實驗室與學生和合作者們的工作,也正是圍繞這一目標展開。

這也是我對 World Labs 所建構的模型充滿期待的原因之一——它們有望讓這一夢想成真。

通過世界模型擴展機器人學習能力:機器人學習的進步依賴於可擴展的高品質訓練資料。考慮到機器人必須學會理解、推理、規劃和互動的龐大狀態空間,許多研究者認為要真正實現通用型機器人,必須結合網際網路資料、合成模擬和現實世界中的人類示範資料。然而,與語言模型不同,機器人研究目前缺乏足夠的訓練資料。而世界模型將在其中發揮決定性作用。隨著其感知逼真度和計算效率的提升,世界模型的輸出可以迅速縮小模擬與現實之間的差距。這將有助於在無數種狀態、互動和環境的模擬中訓練機器人。

成為夥伴與協作助手:機器人作為人類的協作夥伴,無論是在實驗室中輔助科學家,還是在家中幫助獨居老人,都能在勞動力緊缺和生產效率亟需提升的背景下,承擔重要角色。但要實現這一點,機器人必須具備空間智能:能夠感知、推理、規劃和行動,而且——這一點最關鍵——要能與人類的目標和行為保持情感上的一致性。例如,實驗室裡的機器人可以操作儀器,讓科學家專注於需要精細操作或邏輯推理的任務;而家用機器人可以協助老年人做飯,同時不剝奪他們的樂趣與自主性。真正具備空間智能的世界模型,能夠預測環境的下一步狀態,甚至預測符合人類預期的動作,對於實現這一目標至關重要。

拓展具身形式的多樣性:類人機器人確實適用於我們為自己打造的世界,但技術創新的全部潛力,將體現在更豐富多樣的設計形式中:比如能夠輸送藥物的奈米機器人、可在狹小空間中活動的軟體機器人,以及為深海或外太空環境設計的專用機器。不論它們的外形如何,未來的空間智能模型都必須整合機器人所處的環境,以及其自身的感知與運動能力。但開發這些機器人面臨的核心挑戰之一,是缺乏適用於各種具身形式的訓練資料。世界模型將在模擬資料生成、訓練環境建構,以及任務基準測試等方面,發揮關鍵作用。

更長遠的視野:科學、醫療與教育

除了在創意和機器人領域的應用,空間智能還將在其他領域產生深遠影響,特別是在那些 AI 可以增強人類能力、挽救生命、加速發現的地方。我在下面重點介紹三個具有變革潛力的領域,當然,空間智能的應用遠不止於此,還將在更多行業中大展拳腳。

在科學研究中,具備空間智能的系統可以模擬實驗、平行測試假設,並探索人類難以抵達的環境——從深海到遙遠的行星。這項技術將徹底改變氣候科學、材料研究等領域的計算建模方式。通過將多維模擬與真實世界的資料採集相結合,這些工具可以降低計算門檻,擴展每一個實驗室所能觀察和理解的範圍。

在醫療健康領域,空間智能將重塑從實驗室到病床的各個環節。在史丹佛,我的學生和合作夥伴們多年來一直與醫院、養老機構以及家庭中的病患合作。這些經驗讓我深信,空間智能在醫療中的變革潛力巨大。

AI 可以通過建模分子之間的多維互動,加速藥物研發;通過輔助放射科醫生識別醫學影像中的模式,提升診斷精度;還可以實現環境感知型的監護系統,為病患和護理人員提供支援,同時不替代醫療過程中至關重要的人際聯絡。更不用說機器人在協助醫護人員和患者方面,在多種場景中也大有可為。

在教育方面,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得具體可感,並創造出與人類大腦和身體學習方式高度契合的、可反覆練習的學習體驗。在 AI 時代,無論是對學齡兒童還是成年人成年人來說,更快、更有效的學習和技能再培訓都尤為關鍵。學生可以「進入」細胞機制,或親身「走過」歷史事件;教師可以借助互動式環境實現個性化教學;而從外科醫生到工程師等專業人士,也能在逼真的模擬中安全地練習複雜技能。

雖然這些領域的應用前景幾乎沒有邊界,但我們的目標始終如一:用 AI 增強人類的專業能力、加速人類的發現、放大人類的關懷——而不是取代那些構成人類本質的判斷力、創造力與同理心。

結語

過去十年,人工智慧已成為全球現象,並在科技、經濟乃至地緣政治領域引發重大轉折。但作為一名研究者、教育者、如今也是一位創業者,最令我振奮的,仍然是圖靈在 75 年前提出的那個問題背後的精神。我依然懷有與他相同的那份好奇與敬畏之心。正是這種探索空間智能的挑戰,成為我每天的動力源泉。

在人類歷史上,我們第一次有機會打造出與物理世界高度協調的機器,使它們成為我們應對重大挑戰時真正的合作夥伴。

無論是在實驗室中加速對疾病的理解、徹底改變我們講述故事的方式,還是在我們因疾病、受傷或衰老而處於最脆弱狀態時給予支援,我們正站在這樣一項技術的門檻前,它將提升那些我們最在乎的生活體驗。這是一種更深刻、更豐富、更有力量的生活願景。

在大約五億年前,大自然首次賦予遠古動物空間智能的萌芽。而今天,我們有幸成為這一代技術人中的一員,可能很快就能讓機器也擁有這種能力——並有機會將這項能力用來造福全世界人民。沒有空間智能,我們對「真正智慧型手機器」的夢想就無法真正實現。

這個探索旅程,就是我心中的北極星。歡迎你與我一同追尋。 (APPSO)