“它們如同身處暗室的文字巨匠——能言善辯卻缺乏經驗,知識淵博卻脫離現實。”當“AI教母”、頂尖科學家李飛飛用這句話來定義今天所有的大語言模型時,她一針見血地指出了一個殘酷的現實:儘管AI看似無所不能,但它們其實都“活在黑暗中”。它們會寫詩、會畫畫,甚至會製作以假亂真的視訊,但卻無法理解一個杯子旋轉90度後會是什麼樣子,也無法讓一個虛擬人真正地遵守物理定律。在李飛飛看來,這種窘境的根源在於,我們一直以來都走錯了方向。AI的下一步,不是更大的語言模型,而是要賦予它們一種連嬰兒都與生俱來的能力——空間智能 (Spatial Intelligence)。 這,才是通往真正通用人工智慧的唯一路徑。01. 靈魂拷問:為什麼AI還是“睜眼瞎”?原文很長,我們先來點直觀的。你讓AI寫首詩,它分分鐘變身李白杜甫;但你讓AI做幾個簡單的物理題,比如:· “我把這個杯子轉90度,它長什麼樣?”· “這個迷宮的出口在那裡?”· “估算一下桌子到門的距離?”AI的回答,基本靠“蒙”。只要留意,那些看起來很酷的AI視訊裡,都會有各種“穿幫”鏡頭:一個人的手突然多了一根手指,或者物體毫無徵兆地穿牆而過。李飛飛就此一針見血地指出:因為它們不懂物理世界。它們無法真正理解距離、大小、方向和物理規律。所以,儘管我們對AI的期待是科幻電影裡的全能管家,但現實卻是:· 我們依然沒有能在家幫我們做家務的機器人。· AI在藥物研發、新材料發現等需要理解3D結構的領域,進展緩慢。· AI無法真正理解建築師、遊戲設計師或電影導演腦中的“世界”。02. 藏寶圖中缺失的那塊拼圖:空間智能AI缺失的“空間智能”,到底是什麼?李飛飛說,它是我們人類認知的“腳手架”。早在我們學會說話、寫字之前,就已經掌握了這項能力:· 嬰兒會花一到兩年時間,通過抓、扔、咬、看,來理解這個世界。· 你側方停車時,你的大腦在飛速計算保險槓和馬路牙子的距離有多遠。· 朋友把鑰匙扔給你,你不用拿紙筆計算拋物線,憑下意識就能接住。· 你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。李飛飛還舉例說,甚至人類的偉大發現、文明進步都少不了這種能力:· 古希臘的埃拉托斯特尼是通過觀察兩地影子的角度不同,從而計算出的地球周長。· 哈格里夫斯發明出“珍妮紡紗機”,靠的也是對空間的觀察和理解。· 沃森和克里克是通過親手搭建3D分子模型,“拼”出的DNA雙螺旋結構。李飛飛認為,空間智能是人類想像力、創造力以及和世界互動的基礎。遺憾的是,當下的AI基本沒有這個能力。03. AI的下一步:從“語言模型”到“世界模型”那麼,怎麼讓AI“開眼”看世界呢?李飛飛給出了自己的答案:AI的未來,不在於更大的“語言模型”(LLM),而在於全新的“世界模型”(World Models)。她認為,一個真正的“世界模型”,必須是“三位一體”的:· 生成性(Generative):它必須能創造出符合物理、幾何規律的3D世界。比如,它“知道”重力,知道物體會下落,知道水會往低處流。· 多模態(Multimodal):它必須能處理一切輸入。比如不僅能聽懂你說的“話”,還要能看懂圖片、視訊、深度資訊、甚至你的一個“手勢”。· 互動性(Interactive):這是最關鍵的。當你告訴它一個“動作”,它必須能預測出“下一秒會發生什麼”。比如“推一下積木”,它就知道積木會倒。李飛飛坦言,這個挑戰比訓練語言模型要難得多。她解釋道,語言是一維的、序列化的訊號,而世界是四維的(三維空間+時間),受重力、物理定律等無數複雜規則的約束。李飛飛透露,她一年前和他人共同創立了World Labs,以及最近向少數使用者展示的第一個世界模型Marble,都是為了攻克這個難題。04. 這將如何改變我們的生活?一旦AI擁有了空間智能,那才是一場真正的革命。首先,是“超能力”般的創造力。李飛飛團隊World Labs正在研發的Marble模型,能讓電影製作人、遊戲設計師、建築師用“提示詞”快速建立和迭代3D世界。未來,這些人不再需要學習複雜的3D軟體,只需要用語言描述,就能生成一個可以走進、與之互動的3D世界。屆時,人人都能成為“造物主”。其次,是真正的“具身智能”。機器人將不再是“笨手笨腳”的機器臂。在“世界模型”的加持下,它們會在模擬環境中學會成千上萬種實用技能,然後走進我們的家庭、醫院,成為得力的助手和看護。此外,李飛飛特別提到,這樣的AI將成為未來科學與教育的“加速器”。· 醫療:AI可以在多維度上模擬分子間的相互作用,加速藥物的發現處理程序,也或幫助醫生分析影像,為患者和護理人員提供持續支援。· 教育:學生不再只是看書,而是可以“走進”古羅馬的街道,或者親身“探究”細胞內部。教師可以借助互動環境教學,專業人士則可以在高度逼真的模擬環境中練習並掌握複雜技能。· 科研:通過模擬深海、外太空等人類無法親自到達的環境,我們可以擴大科學探索的範圍;通過將多維度模擬與真實世界資料採集相結合,拓展實驗室觀察與理解的邊界。05. 結語:AI的終點,是“為人類賦能”作為幫助開啟了現代AI時代的科學家之一,李飛飛在文章的最後,回歸了她最核心的人文關懷。她強調,AI的終極目標,絕非取代人類,而是“為人類賦能”:“讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。”她認為,AI由人開發、由人使用、由人管理,必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更有效率。“空間智能”代表的正是這樣一個“更深刻、更豐富、更有力量的生活的願景”。它有望“建構出與真實世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。”也許,機器的真正智能,就將從這篇“啟示錄”開始。【以下是李飛飛長文全文】跨越語言,構築世界:空間智能——AI的下一個前沿(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)1950年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈 (Alan Turing) 提出了一個至今仍迴響不絕的問題:機器能思考嗎?能夠想像他所預見的一切,需要非凡的想像力:有朝一日,智能或許可以被建構,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧” (Artificial Intelligence, AI) 的不懈科學探索。在我自己投身AI領域的二十五年裡,圖靈的願景依舊激勵著我。但我們離它還有多近?答案並非一言兩語能說清。如今,以大語言模型 (Large Language Models, LLMs) 為代表的前沿AI技術已開始改變我們獲取和處理抽象知識的方式。它們都是“能言善辯的書呆子”,滿腹經綸,卻“不親民”。而空間智能 (Spatial Intelligence) 將改變我們創造以及與真實和虛擬世界互動的方式——它將徹底變革故事敘述、創造力、機器人技術、科學發現等諸多領域。這正是AI的下一個前沿。自踏入該領域以來,對視覺和空間智能的追求一直是指引我的“北極星”。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習和基準測試資料集,它與神經網路演算法和現代計算裝置如圖形處理器 (Graphics Processing Units, GPUs)一道,成為催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,一年多以前,我與聯合創始人賈斯汀·約翰遜 (Justin Johnson)、克里斯托夫·拉斯納 (Christoph Lassner)、本·米爾登霍爾 (Ben Mildenhall) 一道共同創立了World Labs:為了首次將這一可能性全面地變為現實。·在本文中,我將闡釋什麼是空間智能,它為何重要,以及我們正在如何建構將解鎖這一能力的世界模型 (World Models)——其影響將重塑創造力、具身智能 (Embodied Intelligence) 和人類的進步。空間智能:人類認知的腳手架AI從未像現在這樣激動人心。生成式AI模型,如大語言模型,已從研究實驗室走入日常生活,成為數十億人進行創造、提高生產力和溝通的工具。它們展現了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、照片般逼真的圖像,甚至短影片片段。AI是否會改變世界,這已不再是個問題。無論以何種合理的定義來看,它都已經做到了。然而,仍有太多事物遙不可及。自主機器人的願景依舊引人入勝,但仍停留在推測階段,遠未成為未來學家們長期承諾的日常生活的一部分。在治癒疾病、新材料發現和粒子物理學等領域實現研究大幅加速的夢想,在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學中複雜的概念,輔助建築師進行空間可視化,協助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要瞭解為何這些能力仍然難以實現,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來都是人類智能的基石,但其力量源於更為根本的東西。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,“感知”這一簡單的行為就已悄然開啟了一段通往智能的進化之旅。這種看似孤立的、從外部世界收集資訊的能力——無論是感知一縷微光還是觸摸一種質地——在感知與生存之間建立了一座橋樑,而這座橋樑隨著世代更迭而愈發堅固和精巧。神經元在這座橋樑上層層生長,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知和行動成為了驅動智能進化的核心循環,也是大自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最普通不過的行為:通過想像保險槓與路緣之間不斷縮小的間隙來停車;接住從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而不發生碰撞;你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。。在更極端的情況下,消防員在倒塌的建築中穿越不斷變化的濃煙,對結構的穩定性和生存機會做出瞬間判斷,並通過手勢、肢體語言和一種共同的職業本能進行交流,這種本能是任何語言都無法替代的。而嬰幼兒在學會說話前的數月甚至數年裡,完全通過與環境進行充滿趣味的互動來學習這個世界。所有這一切都發生得直觀而自然——這是機器尚未能達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種形式的視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》(Minecraft),基於空間的想像力都構成了在真實或虛擬世界中進行互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生 (Digital Twins)再到機器人訓練等無數關鍵的商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼 (Eratosthenes) 將影子轉化為幾何學——在太陽直射賽印 (Syene) 的那一刻,他在亞歷山大港測量出7度的夾角——從而計算出地球的周長。哈格里夫斯 (Hargreaves) 的“珍妮紡紗機” (Spinning Jenny) 通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排排列在一個框架中,讓一名工人可以同時紡多根紗線,生產效率提高了八倍。沃森 (Watson) 和克里克 (Crick) 通過親手搭建三維分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,最終將鹼基對的空間排列“拼”了出來。在每一個案例中,當科學家和發明家需要操縱物體、將結構可視化並對物理空間進行推理時,空間智能都推動了文明的進步——而這些都無法僅用文字來捕捉。空間智能是我們認知賴以建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是針對最抽象的話題。它對於我們互動的方式至關重要——無論是口頭還是身體上的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都能像埃拉托斯特尼那樣揭示新的真理,但我們通常都以同樣的方式思考——通過感官感知來理解一個複雜的世界,然後利用一種直觀的理解,來掌握它在物理和空間層面是如何運作的。不幸的是,今天的AI還不會這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型 (Multimodal LLMs, MLLMs),除了文字資料外,還利用大量的多媒體資料進行訓練,從而引入了一些基本的空間意識,如今的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能在高度受限的環境中操縱物體和工具。然而,坦率的現實是,AI的空間能力仍遠未達到人類水平,其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成物體來進行“心理旋轉”等任務上,最先進的多模態大語言模型模型的表現很少能超過隨機猜測。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然是新生事物,而且確實很酷——往往在幾秒鐘後就會失去連貫性。雖然目前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但同樣是這些模型,在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是我們正在看什麼,還包括所有事物在空間上的相互關係、它們的意義以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,AI就與其試圖理解的物理現實脫節了。它無法有效地駕駛我們的汽車,無法在我們家中和醫院裡引導機器人,無法為學習和娛樂創造全新的沉浸式和互動式體驗,也無法加速材料科學和醫學領域的發現。哲學家維特根斯坦 (Wittgenstein) 曾寫道:“我語言的極限意味著我世界的極限。”我不是哲學家。但我知道,至少對於AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——這種能力將想像、感知和行動聯絡在一起,並為機器真正提升人類生活開啟了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托斯特尼那樣用視覺進行推理,像工業設計師那樣進行精密工程設計,像故事講述者那樣富有想像力地創造,以及像急救人員那樣流暢地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更宏大的目標:世界模型 (World Models),這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠超當今大語言模型的範疇。該領域尚處萌芽階段,目前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初正是基於這一信念而創立:基礎性方法仍在確立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:·生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界。要解鎖空間理解和推理,世界模型也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——同時保持幾何、物理和動態上的一致性——無論這些世界代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其固有的幾何結構。此外,我相信一個通用的世界模型除了需要強大的潛在表徵外,還必須能夠為其輸出生成一種顯式的、可觀察的世界狀態,以適應多種不同的用例。特別是,它對當下的理解必須與它的過去、與導致當前狀態之前的世界狀態,連貫一致。·多模態:世界模型在設計上就是多模態的。正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域中稱為“提示詞” (prompts)。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它能以真實視覺的保真度處理視覺輸入,同時以同等的流暢度解讀語義指令。這使得智能體和人類都能通過多種輸入與模型就世界進行交流,並反過來接收多種輸出。·互動性:世界模型能根據輸入的動作輸出下一個狀態。最後,如果動作和/或目標是給世界模型的提示詞的一部分,那麼其輸出必須包括世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個帶或不帶目標狀態的動作作為輸入時,世界模型應產生一個與世界先前狀態、任何預期的目標狀態,以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在其推理和生成能力上變得越來越強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這項挑戰的範圍超過了AI以往所面臨的任何挑戰。雖然語言純粹是人類認知的一種生成現象,但世界遵循的規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最具創意的世界,也是由遵循定義它們的物理定律和動態行為的空間物體和智能體組成的。要將所有這一切——語義、幾何、動態和物理——協調一致,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維順序訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個艱巨的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中“預測下一個Token” (nexttoken prediction) 那樣簡潔優雅的通用任務函數,長期以來一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數在形式化上天生就更加困難。儘管仍有許多尚待探索之處,但這個目標函數及相應的表徵必須反映幾何和物理定律,尊重世界模型作為想像與現實的“親民”表徵這一根本性質。大規模訓練資料: 訓練世界模型需要比文字處理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集代表了豐富、易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量與模型規模之間的縮放定律 (scaling laws) 的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。新的模型架構和表徵學習: 世界模型的研究將不可避免地推動模型架構和學習演算法的進步,尤其是在當前的多模態大語言模型和視訊擴散範式之外。這兩種範式通常將資料“Token化”為一維或二維序列,這使得簡單的空間任務變得不必要地困難——比如計算一個短影片中不重複椅子的數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於“Token化”、上下文和記憶的三維或四維感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式、基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持所生成世界的一致性。顯然,在我們能通過世界建模完全解鎖空間智能之前,我們仍面臨著艱巨的挑戰。這項研究不僅僅是一次理論演練,它是催生一類新型創造力和生產力工具的核心引擎。而World Labs內部的進展一直令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致的三維環境的世界模型,供使用者和故事講述者在他們的創作工作流中進行探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展的加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的關鍵能力。用世界模型為人們建構一個更美好的世界AI發展的動機至關重要。作為幫助開創現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求保持一致。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:AI由人開發,由人使用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;讓我們更具創造力、更緊密相連、更富生產力、更感充實。空間智能正代表了這一願景——AI賦能人類的創造者、照護者、科學家和夢想家,去實現曾經不可能的事情。正是這一信念,驅動著我致力於將空間智能作為AI下一個偉大的前沿。空間智能的應用橫跨不同的時間線。創造性工具正在湧現——World Labs的Marble已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長的時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得追求。以下便是那個未來所蘊含的可能:創造力:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在尋開心。”這是我個人英雄阿爾伯特·愛因斯坦 (Albert Einstein) 的一句名言,也是我最喜歡的一句。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義,以及最重要地,在我們內心找到生命意義和愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的繁重開銷。創造性行為本身依然如故,充滿活力且富於人性;AI工具只是放大和加速了創造者所能達成的成就。這包括:·新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來創造出不受預算或地理限制的完整世界,探索在傳統製作流程中難以駕馭的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再受限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。·通過設計實現空間敘事: 基本上,每一個製造出來的物體或建造出來的空間,在其實體創造之前,都必須在虛擬三維空間中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以快速將結構可視化,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業和時尚設計師可以即時將想像轉化為形式,探索物體如何與人體和空間互動。·全新的沉浸式和互動式體驗: 體驗本身是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同分享的物理世界。僅僅在近幾十年來,通過遊戲和早期的虛擬現實 (virtual reality, VR),我們才開始瞥見分享我們自己創造的另類世界意味著什麼。現在,空間智能與新的產品形態,如VR和擴展現實 (Extended Reality, XR) 頭戴裝置以及沉浸式顯示器相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入完全實現的多維世界將變得像打開一本書一樣自然。空間智能使得世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是向個人創作者、教育工作者以及任何有願景分享的人開放。機器人技術:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之日起就是人們的夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性如此興奮。·通過世界模型擴展機器人學習: 機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料十分稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。·伴侶與合作者: 機器人作為人類的合作者,無論是輔助實驗室裡的科學家,還是協助獨居老人,都可以在急需更多勞動力和生產力的領域擴展部分勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助手可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測與此期望一致的行動的、真正具備空間智能的世界模型,對於實現這一目標至關重要。·擴展具身形式: 人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人,穿梭於狹小空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所棲息的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰在於,缺乏這些多種多樣的具身形態的訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的視野:科學、醫療保健和教育除了創意和機器人應用,空間智能的深遠影響還將擴展到那些AI能以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都具有廣闊的前景。·在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。·在醫療保健領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、養老院和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維模擬分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代康復所需的人際聯絡的情況下支援患者和護理人員,更不用說機器人在許多不同場景下幫助我們的醫護人員和患者的潛力了。·在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和技能再培訓的需求,對學齡兒童和成年人而言都尤為重要。學生可以在多維空間中探索細胞機器或漫步於歷史事件。教師可以通過互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的一個拐點。但作為一名研究者、教育者,以及現在的企業家,最能激勵我的,仍然是圖靈75年前那個問題背後的精神。我仍然分享著他的那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以在面對最嚴峻的挑戰時,將它們視為真正的夥伴。無論是加速我們在實驗室中理解疾病的方式,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們都正處在一項技術的前沿,它將提升我們最關心的生活方面。這是一個更深刻、更豐富、更有力量的生活願景。在大自然於遠古動物身上釋放出空間智能的第一縷微光近五億年後,我們有幸成為能夠很快賦予機器同樣能力的這一代技術人員——並有幸利用這些能力為世界各地的人們造福。我們對真正智慧型手機器的夢想,沒有空間智能是無法完整的。 (網易科技)