剛剛,AI教母、史丹佛大學教授李飛飛發表了一篇最新文章《從語言到世界:空間智能是AI的下一個前沿》,這篇文章是李飛飛對其25年AI生涯的深入思考
李飛飛認為,儘管以LLM為代表的AI技術已深刻改變世界,但它們本質上仍是“黑暗中的文字匠”——能言善辯但缺乏經驗,知識淵博但缺乏現實根基
要讓AI真正理解並與物理世界互動,就必須突破語言的限制,邁向空間智能 (Spatial Intelligence)。
李飛飛認為,空間智能將是AI的下一個前沿,它將賦能AI,使其擁有故事講述者的想像力、第一反應者的行動力,以及科學家的空間推理精度。
為了實現這一目標,她提出了建構世界模型 的框架,並詳細闡述了其三大核心能力、面臨的技術挑戰以及廣闊的應用前景
全文:《從語言到世界:空間智能是AI的下一個前沿》
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
1950年,當計算還不過是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴響不絕的問題:機器能思考嗎?他所預見的景象需要非凡的想像力:智能或許有朝一日可以被建構,而非與生俱來。這一洞見後來開啟了一場名為人工智慧(AI)的不懈科學探索。在我25年的人工智慧生涯中,我依然被圖靈的遠見所激勵。但我們離這個目標還有多遠?答案並不簡單
今天,以大語言模型(LLM)為代表的頂尖AI技術已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍然是黑暗中的文字匠;能言善辯但缺乏經驗,知識淵博但缺乏現實根基。空間智能將改變我們創造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創造力、機器人學、科學發現等領域。這,就是AI的下一個前沿。
追求視覺與空間智能,一直是指引我進入這個領域的北極星。正因如此,我花費數年時間建構了ImageNet,這是第一個大規模視覺學習和基準測試資料集,也是與神經網路演算法和現代計算(如圖形處理單元GPU)並列的、催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,我和我的聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創辦了World Labs:為了首次全面實現這一可能性。
在這篇文章中,我將解釋什麼是空間智能,它為何重要,以及我們如何建構能夠解鎖它的世界模型——其影響力將重塑創造力、具身智能和人類進步
AI從未如此激動人心。像LLM這樣的生成式AI模型已經從研究實驗室走向日常生活,成為數十億人創造、生產和交流的工具。它們展示了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、逼真的圖像,甚至是短影片片段。AI是否會改變世界,已不再是一個問題。以任何合理的定義來看,它已經做到了。
然而,仍有太多領域遙不可及。自主機器人的願景依然引人入勝但仍停留在推測階段,遠未成為未來學家長期承諾的日常裝置。在疾病治療、新材料發現和粒子物理學等領域,大規模加速研究的夢想在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學的複雜概念,協助建築師構想空間,輔助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也仍然無法實現。
要瞭解為何這些能力仍然遙不可及,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。
視覺長期以來一直是人類智能的基石,但其力量源於某種更為根本的東西。早在動物能夠築巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已經悄然開啟了一段通往智能的演化之旅。
這種看似孤立的、從外部世界收集資訊的能力,無論是微光一閃還是質感的觸碰,都在感知與生存之間建立了一座橋樑,並且隨著世代更迭,這座橋樑變得越來越堅固和精細。一層又一層的神經元從這座橋樑上生長出來,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能演化的核心循環,也是自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。
空間智能在定義我們如何與物理世界互動方面扮演著基礎性角色。每一天,我們都依賴它來完成最普通的行為:通過想像保險槓與路沿之間不斷縮小的間隙來停車,接住別人從房間另一頭扔過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒進去。在更極端的情況下,消防員在濃煙滾滾、不斷坍塌的建築中穿行,對結構的穩定性和生存機會做出瞬間判斷,通過手勢、肢體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在他們能夠說話之前的數月或數年裡,通過與環境的嬉戲互動來學習世界。所有這一切都發生得直觀而自然——這是機器尚未達到的流暢程度。
空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用多種視覺媒介將其呈現給他人,從古代的洞穴壁畫到現代電影,再到沉浸式視訊遊戲。無論是孩子們在沙灘上堆沙堡,還是在電腦上玩《我的世界》,基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在許多工業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵商業用例提供了動力。
歷史上充滿了空間智能發揮核心作用、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城的那一刻,他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排佈置在一個框架中,使得一個工人能同時紡多根線,生產效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發現了DNA的結構,他們不斷擺弄金屬片和金屬絲,直到鹼基對的空間排列“咔噠”一聲完美契合。在每一個案例中,當科學家和發明家需要操縱物體、構想結構並對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅用文字來捕捉。
空間智能是我們認知建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即使是在最抽象的話題上。它對於我們互動的方式至關重要——無論是口頭的還是身體的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都在揭示像埃拉托斯特尼那樣的宇宙真理,但我們日常的思考方式與他並無二致——通過感官感知複雜的世界,然後利用一種直觀的、基於物理和空間術語的理解來領悟其運作方式。
不幸的是,今天的AI還不能像這樣思考。
過去幾年確實取得了巨大進步。多模態大語言模型(MLLM)通過海量的多媒體資料和文字資料進行訓練,引入了一些基礎的空間意識,今天的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人已經開始能夠在高度受限的環境中操縱物體和工具。
然而,坦率地說,AI的空間能力遠未達到人類水平。其侷限性很快就會顯現。在估算距離、方向和大小,或通過從新角度重新生成來“精神上”旋轉物體等任務上,最先進的MLLM模型的表現很少能超過隨機猜測。它們無法導航迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然處於初級階段,但確實非常酷——往往在幾秒鐘後就失去連貫性。
雖然當前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但這些相同的模型在表示或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體的——不僅是我們正在看什麼,還包括萬物在空間上如何關聯,這意味著什麼,以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量。沒有它,AI就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,引導我們家庭和醫院中的機器人,為學習和娛樂創造全新的沉浸式和互動式體驗,或加速材料科學和醫學領域的發現。
哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對AI而言,世界遠不止於語言。空間智能代表了超越語言的前沿——這種能力連接了想像、感知和行動,並為機器真正提升人類生活開闢了可能性,從醫療保健到創造力,從科學發現到日常輔助。
那麼,我們如何建構具備空間智能的AI?如何才能讓模型具備埃拉托斯特尼的洞察力進行推理,擁有工業設計師的精度進行工程設計,懷揣故事講述者的想像力進行創造,並能像第一反應者一樣流暢地與環境互動?
建構具備空間智能的AI需要比LLM更宏大的目標:世界模型,這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的世界(無論是虛擬還是真實)進行互動的能力,遠非當今的LLM所能及。這個領域尚處於起步階段,當前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初成立,正是基於這樣的信念:基礎性方法仍在建立之中,這使其成為未來十年的決定性挑戰。
在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個核心能力來定義世界模型:
1.生成性 (Generative):世界模型能夠生成在感知、幾何和物理上保持一致的世界
解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界,這些世界遵循語義或感知的指令,同時在幾何、物理和動態上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其內在的幾何結構。此外,除了強大的潛在表示,我相信一個通用的世界模型,其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當前狀態的理解必須與它的過去——即導致當前狀態的世界先前狀態——連貫地聯絡在一起。
2.多模態 (Multimodal):世界模型天生就是多模態的
正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域被稱為“提示”。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應預測或生成儘可能完整的世界狀態。這要求模型既能以真實視覺的保真度處理視覺輸入,又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進行交流,並反過來接收多樣化的輸出。
3.互動性 (Interactive):世界模型能夠根據輸入的動作輸出下一個狀態
最後,如果動作和/或目標是世界模型提示的一部分,其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當只給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話)及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定目標的情況下,世界模型本身不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。
這個挑戰的範圍超過了AI以往面臨的任何挑戰。
雖然語言是人類認知中純粹的生成現象,但世界的運作規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最有創意的世界,也是由遵循其自身物理定律和動態行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個巨大的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。
以下是我們當前研究課題的一些例子:
一個新的、通用的訓練任務函數:定義一個像LLM中的“下一詞元預測”一樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性使得這樣一個函數在形式化上 inherently more difficult。儘管仍有許多待探索之處,但這個目標函數和相應的表示必須反映幾何和物理定律,尊重世界模型作為想像與現實的根基表示的根本性質。
大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富、可及的訓練材料——挑戰在於開發能夠從這些二維圖像或視訊幀訊號(即RGB)中提取更深層次空間資訊的演算法。過去十年的研究已經顯示了語言模型中資料量和模型大小之間的規模法則的力量;解鎖世界模型的關鍵在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及更強大的神經模擬方法。
新的模型架構和表示學習:世界模型研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的MLLM和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得簡單的空間任務——如數清短影片中不重複的椅子數量,或記住一個小時前房間的樣子——變得不必要地困難。替代架構可能會有所幫助,例如用於標記化、上下文和記憶的3D或4D感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界的持久性。
顯然,在通過世界建模完全解鎖空間智能之前,我們仍然面臨著艱巨的挑戰。這項研究不僅僅是理論練習,它是新一類創意和生產力工具的核心引擎。World Labs內部的進展令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示來生成和維持一致3D環境的世界模型,供使用者和故事講述者在他們的創意工作流中探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!
Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的水平上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的核心能力。
發展AI的動機至關重要。作為幫助開啟現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取代人類。多年來,我一直致力於將AI的開發、部署和治理與人類需求對齊。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更務實的觀點:AI由人開發,由人使用,由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;使我們更有創造力、更緊密連接、更高效、更有成就感。空間智能代表了這一願景——AI賦能人類創造者、護理人員、科學家和夢想家,去實現曾經不可能的事情。這一信念驅動著我將空間智能視為AI下一個偉大前沿的承諾。
空間智能的應用橫跨不同的時間線。創意工具正在湧現——World Labs的Marble已經將這些能力交到了創作者和故事講述者的手中。隨著我們完善感知與行動之間的循環,機器人學代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長時間,但有望對人類的繁榮產生深遠影響。
在所有這些時間線上,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同努力實現一個共同的願景。但這個願景值得追求。以下是這個未來所包含的內容:
創意:為故事敘述和沉浸式體驗注入超能力
“創造力是智慧在玩耍。” 這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式,最重要的是,在生活中尋找意義,在自我中發現愛。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。
World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速建立和迭代完全可探索的3D世界,而無需傳統3D設計軟體的開銷。創造性行為仍然像以往一樣至關重要和人性化;AI工具只是放大和加速了創作者所能達到的成就。這包括:
新維度的敘事體驗:電影製作人和遊戲設計師正在使用Marble來創造完整的世界,而不受預算或地理位置的限制,探索各種在傳統製作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。
通過設計進行空間敘事:基本上,每一個製造出來的物體或建造的空間,在其實體創造之前都必須在虛擬3D中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速可視化結構,漫步於尚未存在的空間中——這本質上是在講述我們可能如何生活、工作和聚集的故事。工業和時尚設計師可以立即將想像轉化為形式,探索物體如何與人體和空間互動。
全新的沉浸式與互動式體驗:體驗本身是我們作為一個物種創造意義的最深層次的方式之一。在整個人類歷史上,只有一個單一的3D世界:我們所有人共享的物理世界。直到最近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與新的裝置形態(如VR和擴展現實(XR)頭顯及沉浸式顯示器)相結合,以前所未有的方式提升了這些體驗。我們正接近一個未來,在這個未來中,踏入完全實現的多維世界將像打開一本書一樣自然。空間智能使世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是對個人創作者、教育者和任何有願景分享的人開放。
從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之初就是其夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我如此興奮於利用World Labs正在建構的這類模型來實現它們的可能性。
通過世界模型擴展機器人學習:機器人學習的進展取決於一個可行的訓練資料的可擴展解決方案。考慮到機器人必須學習去理解、推理、規劃和互動的巨大狀態空間,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速縮小模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。
成為夥伴與合作者:機器人作為人類的合作者,無論是輔助實驗室的科學家,還是協助獨居的老人,都可以擴充急需更多勞動力和生產力的部分勞動力市場。但要做到這一點,需要空間智能能夠感知、推理、規劃和行動,同時——這一點最重要——與人類的目標和行為保持共情對齊。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助理可以幫助老年人做飯,而不會削弱他們的快樂或自主性。能夠預測與此期望一致的下一個狀態甚至可能是下一個動作的、真正具備空間智能的世界模型,對於實現這一目標至關重要。
擴展具身智能的形式:人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部好處將來自更多樣化的設計:運送藥物的奈米機器人,在狹窄空間中穿行的軟體機器人,以及為深海或外太空建造的機器。無論它們的形式如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,在這些各種各樣的具身形態因素中缺乏訓練資料。世界模型將在模擬資料、訓練環境和這些工作的基準測試任務中發揮關鍵作用。
除了創意和機器人應用,空間智能的深遠影響還將延伸到AI能夠以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個可以帶來深刻變革的應用領域,儘管不言而喻,空間智能的用例在更多行業中都非常廣泛。
在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假說,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。
在醫療健康領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、老年護理機構和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所需的人際連接的情況下支援患者和護理人員,更不用說機器人在許多不同環境中幫助我們的醫護人員和患者的潛力。
在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造對於我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和再培訓的需求對學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞機制或漫步於歷史事件。教師獲得了通過互動環境進行個性化教學的工具。專業人士——從外科醫生到工程師——可以在逼真的模擬中安全地練習複雜技能。
在所有這些領域中,可能性是無限的,但目標始終如一:AI增強人類專長,加速人類發現,並放大人類關懷——而不是取代作為人類核心的判斷力、創造力和同理心。
過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈在75年前提出的那個問題背後的精神。我仍然分享著他的那份驚奇感。正是這種感覺,讓我每天都為空間智能的挑戰而充滿活力。
歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對所面臨的最大挑戰的真正夥伴。無論是在實驗室中加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們正處在一個技術突破的關口,這項技術將提升我們最珍視的生活品質。這是一個關於更深刻、更豐富、更強大生活的願景。
在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為可能很快將同樣能力賦予機器的那一代技術人員——並且有幸利用這些能力造福世界各地的人們。沒有空間智能,我們關於真正智慧型手機器的夢想就不會完整 (AI寒武紀)