“AI教母”李飛飛發佈長文,引爆矽谷

昨日晚間,“AI教母”李飛飛發佈了一篇長文,引爆了矽谷的討論。

這篇名為《從語言到世界:空間智能是AI的下一個前沿》的文章,解釋了空間智能和世界模型的關係,以及空間智能的應用範圍和所處階段。

文章裡,李飛飛提出了“真正具有空間智能的世界模型”必須具備的三個核心能力:生成、多模態、互動。

她還分享了World Labs在新一代任務函數、資料、模型架構與學習表示上面的進展,以及世界模型在創造力、機器人,甚至科學、醫療和教育等領域的潛力。

她指出,除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。

比如在醫療領域,李飛飛認為,空間智能將重塑從實驗室到病床的全過程。

她表示,AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。

再如教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。

她指出,在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。

以下為原文:

從文字到世界:空間智能是AI的下一個前沿

1950年,當電腦還只是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴蕩的問題:機器能思考嗎?

他能看到別人尚未看到的未來,需要非凡的想像力——那就是:智能或許有一天可以被“建構”,而非“誕生”。

這一洞見催生了一場持續至今的科學征程——人工智慧(AI)。在我投身AI研究的25年中,圖靈的願景依然不斷啟發著我。但我們距離那一願景有多近?答案並不簡單。

今天,以大語言模型(LLM)為代表的前沿AI技術,已經開始改變人類獲取與處理抽象知識的方式。 然而,它們仍然是“黑暗中的文字匠”:能言善辯,卻無經驗;知識豐富,卻缺乏根基。

空間智能(spatial intelligence)將改變我們創造和互動現實與虛擬世界的方式——徹底革新敘事、創造力、機器人學、科學發現,以及更多領域。這,正是AI的下一個前沿。

自我進入這一領域以來,對視覺與空間智能的探索就一直是我的“”。這也是我為何花費多年時間建構了 ImageNet——首個大規模視覺學習與評測資料集。

它與神經網路演算法、現代算力(如GPU)一道,成為孕育現代AI的三大關鍵要素。也是為何我的史丹佛實驗室在過去十年中,將電腦視覺與機器人學習相結合。

同樣,這也是我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同建立 World Labs的原因:為了第一次真正實現這一可能性。

在這篇文章中,我將解釋什麼是空間智能、為什麼它重要、以及我們如何建構能夠解鎖它的“世界模型(world models)”——這種技術將深刻重塑創造力、具身智能與人類進步。

空間智能:人類認知的腳手架

AI從未像今天這樣令人振奮。以生成式AI為代表的模型,如LLM,已從研究室走向日常生活,成為數十億人創作、生產與交流的工具。

它們展示了曾被認為不可能的能力:生成連貫的文字、成山的程式碼、逼真的圖像,甚至短影片。AI是否會改變世界?——從任何合理的定義來看,它已經做到了。

然而,仍有大量潛能未被觸及。自動化機器人的願景依然誘人卻遙遠;在疾病治療、新材料發現、粒子物理等領域的研究加速夢仍未實現;

真正能夠理解並賦能人類創作者的AI,無論是學習複雜分子化學概念的學生、構想空間的建築師、建構世界的電影人,還是任何希望沉浸於虛擬體驗中的人都仍未到來。

要理解為何這些能力依舊難以實現,我們需要回溯:空間智能是如何演化的?它又如何塑造了我們理解世界的方式?

視覺長期以來是人類智能的基石,但它的力量源自更為根本的東西。早在動物能築巢、撫育後代、用語言交流或建立文明之前,那看似簡單的“感知行為”:感受到一縷光、觸到一種質感就已經悄然點燃了通向智能的進化旅程。

這種從外部世界汲取資訊的能力,在感知與生存之間搭建起一座橋樑,而這一橋樑在漫長的進化中變得愈發複雜。

神經元層層疊加,形成能解釋世界、協調生物與環境互動的神經系統。因此,許多科學家認為,“感知—行動”循環成為了智能進化的核心機制,也是自然孕育出我們這個物種的根基——一個能感知、學習、思考與行動的終極存在。

空間智能在我們與物理世界的互動中扮演著基礎性的角色。每天,我們都在依賴它完成最平常的動作。

停車時想像車尾與路緣的距離;接住被拋來的鑰匙;在人群中穿行而不碰撞;半睡半醒間精準地將咖啡倒進杯中。

在極端情況下,消防員穿行於坍塌建築與濃煙之中,瞬間判斷穩定性與生死抉擇,通過肢體語言和本能默契溝通——這些都無可言傳。而嬰兒則在學會語言前的漫長時光裡,通過玩耍與環境互動來認識世界。

這一切都在直覺中、自然而然地發生——一種機器至今未能獲得的流暢能力。

空間智能同樣是我們想像力與創造力的基石。講故事的人在腦中建構出豐富的世界,並用各種視覺媒介將之傳達給他人。

從原始洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子在沙灘上築城堡,還是在電腦上玩《我的世界》,這種以空間為根基的想像構成了人與虛擬世界互動體驗的基礎。而在工業應用中,對物體、場景與動態互動環境的模擬則支撐著從工業設計、數字孿生到機器人訓練等無數關鍵場景。

歷史上那些塑造文明的關鍵時刻中,空間智能往往扮演著核心角色。

在古希臘,埃拉托色尼(Eratosthenes)通過對陰影的幾何化思考完成了驚人的壯舉——他在亞歷山大測得太陽影子形成的7度角,並與賽恩(Syene)“正午無影”的現象進行對比,從而計算出了地球的周長。

哈格里夫斯(Hargreaves)發明的“珍妮紡紗機”同樣源於空間洞察:他意識到只需將多個紡錘並列安裝在一個機架上,一個工人就能同時紡出多股線,生產效率因此提高了八倍。

沃森(Watson)與克里克(Crick)揭示DNA結構的突破,也依賴於他們親手搭建的三維分子模型——他們用金屬板與鐵絲不斷調整、拼接,直到鹼基對的空間排布完美契合。

在這些案例中,空間智能都推動了文明的進步——當科學家與發明家需要操縱物體、想像結構、在物理空間中推理時,這些能力是純文字永遠無法承載的。

空間智能(Spatial Intelligence)是支撐人類認知的腳手架。

無論是被動觀察,還是主動創造,它都在默默發揮作用。

它驅動我們的推理與規劃,即便是在最抽象的主題上。它同樣塑造了我們與世界互動的方式——無論是語言交流,還是身體行動,無論是與他人,還是與環境本身。

雖然我們大多數人並不會每天像埃拉托色尼那樣發現新的真理,但我們幾乎時時刻刻都以同樣的方式在思考通過感官去理解這個複雜世界,並依託對物理與空間規律的直覺認知,使其變得可理解。

遺憾的是,當今的AI還無法以這樣的方式思考。

過去幾年確實取得了巨大進步。多模態大語言模型(MLLMs),在文字之外又引入了大量多媒體資料進行訓練,初步具備了空間感知能力:

它們可以分析圖像、回答與之相關的問題,甚至生成超寫實的圖像與短影片。與此同時,借助感測器與觸覺技術的突破,最先進的機器人已經能在嚴格受限的環境中開始操控物體與工具。

然而,坦率地說,AI的空間能力依然遠未接近人類水平。其侷限也顯而易見:最先進的MLLM在估計距離、方向、大小等任務上,表現往往不比隨機猜測好多少;它們無法“心智旋轉”物體——即從新角度再現同一對象的形狀;不會在迷宮中導航、識別捷徑,或預測基本的物理規律;生成的視訊雖然新奇炫目,卻常在幾秒鐘後失去連貫性。

如今的頂級AI擅長閱讀、寫作、檢索與模式識別,但當涉及對物理世界的表徵或互動時,卻存在根本性侷限。

我們人類理解世界的方式是整體性的:不僅僅看到“眼前的東西”,還理解它們在空間上的關係、在語義上的意義、以及在現實中的重要性。

而這種通過想像、推理、創造與互動來理解世界的能力,正是空間智能的力量。

缺乏它,AI就與它所試圖理解的物理現實脫節。它將無法真正安全地駕駛汽車、無法在家庭與醫院中引導機器人、無法創造全新的沉浸式學習與娛樂體驗、也無法加速材料科學與醫學的發現。

哲學家維特根斯坦曾寫道:“語言的邊界就是我世界的邊界”。我不是哲學家,但我知道,對AI而言,世界不止於語言。空間智能代表著超越語言的前沿。

它連接想像、感知與行動,為機器真正提升人類生活打開了新的可能:從醫療到創造力,從科學發現到日常輔助。

AI的下一個十年:建構真正具備空間智能的機器

那麼,我們該如何打造擁有空間智能的AI?

如何讓模型具備:像埃拉托色尼那樣的空間推理能力,像工業設計師那樣的工程精度,像講故事的人那樣的創造性想像力,以及像應急救援人員那樣與環境流暢互動的能力?

要實現這樣的AI,我們需要比LLM更具雄心的體系:世界模型(World Models)。

這是一種全新的生成式模型,其在理解、推理、生成與互動方面的能力,將超越當今LLM所能觸及的極限。它能夠在語義、物理、幾何與動態層面上,理解並生成複雜的虛擬或真實世界。

這一領域尚處於萌芽階段,現有方法從抽象推理模型到視訊生成系統不等。

World Labs成立於2024年初,正是基於這樣一種信念:基礎性方法仍在形成之中,而這將成為未來十年人工智慧的決定性挑戰。

在這個新興領域中,最重要的是確立指導發展方向的核心原則。對於空間智能而言,我將“世界模型”定義為具備以下三項核心能力的系統:

1、生成性(Generative):世界模型能夠生成具有感知、幾何與物理一致性的世界

要實現空間理解與推理,世界模型必須能夠生成自身的模擬世界。

它應能在語義或感知指令的引導下,生成無限多樣、變化豐富的虛擬世界,同時保持幾何、物理與動態上的一致性,無論這些世界是現實的還是虛擬的。

研究界目前正在探索,這些世界應當以隱式(implicit)還是顯式(explicit)的幾何結構形式表示。

除了強大的潛在表徵(latent representations)之外,我認為通用世界模型的輸出還應當允許生成顯式、可觀測的世界狀態,以便適應不同的應用場景。尤其重要的是,模型對當下世界的理解必須與其過去的狀態保持連貫一致——理解當前,就是理解它是如何演化而來的。

2、多模態(Multimodal):世界模型在設計上就是多模態的

正如人類與動物一樣,世界模型應能處理多種形式的輸入。在生成式AI領域中,這些輸入被稱為“提示詞(prompts)”。

面對不完整的資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作,世界模型都應能預測或生成儘可能完整的世界狀態。

這要求模型既要以真實視覺的精度處理圖像輸入,又能以同樣的靈活性理解語義性指令。

如此一來,無論是智能體還是人類,都能通過多樣的輸入形式與模型就“世界”進行交流, 並以多樣的方式接收輸出。

3、互動性(Interactive):世界模型能根據輸入動作輸出下一個狀態

最後,當動作(actions)和/或目標(goals)作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一個狀態。

這一狀態可以是隱式的,也可以是顯式的。當輸入僅包含一個動作(有無目標皆可)時,世界模型應能生成與世界先前狀態、預期目標狀態(如有)、以及其語義意義、物理規律、動態行為相一致的輸出。

隨著空間智能世界模型在推理與生成能力上不斷增強,我們可以想像,未來模型不僅能預測世界的下一個狀態,還將能夠基於該狀態預測下一步行動。

這一挑戰的規模,超越了AI以往所面臨的一切。

語言是人類認知中純粹生成的現象,而“世界”遵循的規則則複雜得多。

在地球上,例如:重力決定運動,原子結構決定光的顏色與亮度,無數物理定律約束著一切互動。

即使是最奇幻、最具創造性的世界,也由遵守物理與動態規律的空間對象與智能體構成。

要在模型中一致地協調這些——語義、幾何、動力學與物理層面——需要全新的方法論。因為“世界”的維度遠比語言這種一維的序列訊號複雜得多。

要實現像人類一樣具備普適空間智能的世界模型,必須跨越若干巨大的技術壁壘。

在World Labs,我們的研究團隊正致力於這一目標的基礎性突破。

以下是我們當前研究的幾個方向示例:

一種新的通用訓練任務函數:在世界模型研究中,一個長期目標是定義一種像LLM中“下一個token預測”一樣簡潔優雅的通用任務函數。然而,世界模型輸入與輸出空間的複雜性使這一函數的設計更加困難。儘管仍有大量探索空間,但這一目標函數及其對應表徵必須符合幾何與物理規律,忠實體現世界模型在想像與現實之間的“落地表徵”本質。

大規模訓練資料:訓練世界模型所需的資料遠比文字複雜。好消息是我們已經擁有了龐大的資料資源。網際網路上規模宏大的圖像與視訊集合為訓練提供了豐富的素材。挑戰在於:如何讓演算法從二維圖像或視訊幀(RGB)中提取更深層次的空間資訊。過去十年的研究揭示了語言模型中資料量與模型規模的scaling law;對於世界模型,關鍵在於建構能夠在相似規模上有效利用視覺資料的架構。此外,高品質的合成資料以及額外模態(如深度、觸覺)的作用不可低估,它們在訓練過程的關鍵階段起到補充作用。未來的發展取決於更先進的感測系統、更穩健的訊號提取演算法、以及更強大的神經模擬方法。

新的模型架構與表徵學習:世界模型研究將不可避免地推動模型架構與學習演算法的革新,特別是超越當下的多模態LLM與視訊擴散模型(video diffusion)。這些模型通常將資料編碼為一維或二維序列,使得簡單的空間任務,例如在短影片中數清不同的椅子,或記住一小時前房間的樣子變得異常困難。新的架構思路或許能改進這一點,例如具備3D或4D感知能力的token化、上下文與記憶機制。例如,在World Labs,我們最近開發了一種基於幀的即時生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空間為基礎的幀(spatially-grounded frames)作為空間記憶形式,實現了高效即時生成的同時,保持了生成世界的持續性與一致性。

顯然,在完全釋放空間智能的潛力之前,我們仍面臨艱巨的挑戰。但這項研究不僅僅是理論工作,它正成為新一代創造性與生產力工具的核心引擎。

在World Labs的進展令人鼓舞。我們最近向部分使用者展示了Marble的早期版本——全球首個可通過多模態輸入生成並保持一致性3D環境的世界模型,讓使用者與創作者能夠探索、互動並在其中繼續建構他們的創意世界。我們正全力以赴,努力盡快將其向公眾開放。

Marble只是我們的第一步。隨著研究的加速,科研人員、工程師、使用者與商業領袖們都開始意識到這一方向的巨大潛能。下一代世界模型將使機器在空間智能上達到全新的層次,這將開啟AI迄今仍普遍缺乏的核心能力,並真正讓人工智慧進入理解與創造世界的時代。

用世界模型為人類建構更美好的世界

人工智慧的發展動機至關重要。作為推動現代AI時代到來的科學家之一,我的動機始終十分明確:AI應當增強人類的能力,而非取而代之。

多年來,我一直致力於讓AI的開發、部署與治理與人類需求保持一致。

當下關於“技術烏托邦”與“世界末日”的極端敘事比比皆是,但我依然持一種更務實的立場:AI是由人開發、被人使用、並由人治理的。

它必須始終尊重人的自主性與尊嚴。它的“魔力”在於拓展我們的能力,讓我們變得更具創造力、更緊密相連、更高效並更有成就感。

空間智能正體現了這一願景——一種能賦能人類創造者、照護者、科學家與夢想家的AI,使他們實現曾經不可能的目標。這一信念,正是我將空間智能視為AI下一個偉大前沿領域的根本原因。

空間智能的應用橫跨不同的時間尺度。創作工具正在當下出現——World Labs的 Marble 已經讓創作者與講故事的人能夠親手掌握這種能力。

機器人領域則代表著中期的雄心目標,我們正致力於完善感知與行動之間的閉環。而最具變革意義的科學應用可能需要更長時間,但它們將深刻地促進人類的福祉。

在所有時間線中,有幾個領域的潛力尤其突出,足以重塑人類的能力。要實現這些潛力,需要集體努力遠超任何一個團隊或公司的能力範圍。

它需要整個AI生態系統的參與:研究者、創新者、創業者、企業家,乃至政策制定者,共同朝著一個願景努力。而這個願景,值得我們追求。以下是未來的圖景:

創造力:為敘事與沉浸體驗注入超能力

“創意,是智慧的樂趣。”這是我最喜歡的愛因斯坦名言之一。

在人類發明文字之前,我們就會講故事——把故事畫在洞穴壁上,代代相傳,並以共享的敘事建立文化。故事是人類理解世界、跨越時空連接彼此、探索“人之為人”的方式,也是我們在生活與愛中尋找意義的途徑。

今天,空間智能有潛力徹底變革我們創作與體驗敘事的方式,從娛樂到教育,從設計到建造,賦予它們更深遠的影響力。

World Labs的Marble平台 將前所未有的空間表達能力與編輯控制權交到電影人、遊戲設計師、建築師及各類講述者手中,讓他們無需傳統3D設計軟體的繁複流程,就能快速創造、迭代、探索完整的三維世界。創造的行為依然是人類的核心活動——AI只是放大並加速創意實現的過程。這包括:

多維敘事體驗:電影人和遊戲設計師可以利用Marble 建構整個世界,不受預算或地理限制,探索傳統製作流程中無法實現的場景與視角。隨著媒介與娛樂的界限模糊化,我們正接近一種全新的互動體驗形態——融合藝術、模擬與遊戲的個性化世界,讓任何人(而不僅僅是大型工作室)都能創造並進入自己的故事。

以設計講述空間故事:幾乎所有被製造的物品或建造的空間,都必須在物理實現之前經過虛擬3D設計——這一過程往往耗費大量時間與成本。借助空間智能模型,建築師可以在數分鐘內可視化並漫遊尚不存在的建築;工業或時裝設計師可以即時將想像轉化為形態,探索物體與人體及空間的互動。

全新的沉浸與互動體驗:人類體驗的最深層方式之一,就是創造意義的體驗本身。在整個人類歷史上,我們只共享一個三維世界:物理世界。直到近幾十年,通過遊戲與早期虛擬現實(VR),我們才得以初步窺見“自造世界”的可能。如今,空間智能結合VR、XR(擴展現實)頭顯與沉浸式顯示裝置,將這種體驗提升到前所未有的高度。未來,人們“走進”多維世界將如同打開一本書般自然。空間智能讓造世界的權力從專業團隊擴展到每一位擁有願景的創作者、教育者與普通人。

機器人:具身智能的實踐

從昆蟲到人類,動物都依賴空間智能來理解、導航並與世界互動。機器人也不會例外。

自該領域誕生以來,“具備空間感知的機器”就是人類的夢想,包括我在史丹佛研究實驗室與學生、合作者共同進行的研究。正因如此,我對用 World Labs 建構的模型實現這一願景感到異常興奮。

更長遠的地平線:科學、醫療與教育

除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。以下我將重點介紹三個具有深刻變

革潛力的方向。當然,空間智能的應用遠不止於此,它的影響範圍幾乎遍及所有行業。

在科學研究中,具備空間智能的系統可以模擬實驗、平行驗證假設,並探索人類無法親臨的環境——從深海到遙遠的行星。這項技術有望徹底變革氣候科學、材料研究等領域的計算建模方式。通過將多維度模擬與真實世界資料採集相結合,這些工具能顯著降低計算壁壘,拓展每一個實驗室可觀察與理解的邊界。

在醫療領域,空間智能將重塑從實驗室到病床的全過程。在史丹佛,我與學生及合作者多年來一直與醫院、養老機構以及居家患者合作。這些經驗讓我深信空間智能在醫療領域的變革潛力。AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。

在教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。

跨越這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。

結 語

過去十年間,人工智慧已成為全球現象,在科技、經濟乃至地緣政治層面都帶來了轉折。

然而,作為一名研究者、教育者和創業者,最令我振奮的仍是圖靈七十五年前那道問題背後的精神。我依然與他共享那份好奇與驚嘆——正是這份好奇,讓我每天都為探索空間智能的挑戰而充滿動力。

人類歷史上第一次,我們正站在這樣一個時刻:有望建構出與物理世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。

無論是加速疾病研究、革新故事敘述方式,還是在病痛、受傷或衰老的脆弱時刻給予支援,我們都正處於一場技術變革的門檻上,它將提升我們最珍視的生命價值。

這是一個關於更深刻、更豐富、更有力量的生活的願景。

距自然在原始動物中首次顯現空間智能的曙光已近五億年,而我們有幸成為這一代技術創造者——可能即將賦予機器同樣能力的人類,也有幸能將此能力用於全人類的福祉。

若沒有空間智能,我們關於“真正智慧型手機器”的夢想將永遠不完整。

這場探索,是我的“北極星”。邀請你一同追尋它。 (路邊消息社)